standard download
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211534448.2 (22)申请日 2022.12.02 (71)申请人 北京红棉小 冰科技有限公司 地址 100080 北京市海淀区北四环西路67 号6层608房间 (72)发明人 高景盛 连怡鑫 王宝元  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 谢志超 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 40/211(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称 基于直播场景的对话数据集构建方法及装 置 (57)摘要 本发明实施例提供一种基于直播场景的对 话数据集构建方法及装置, 该方法包括: 基于主 播直播视频的用户评论, 获取用户评论发表后预 设时间内文本格式的主播讲话内容; 获取主播讲 话内容中与用户评论具有重叠词汇的句子并计 算和用户评论间的语义相似度, 根据语义相似度 获取针对用户评论的主播回复; 根据用户评论和 主播回复构建对话数据集。 本发 明实施例基于真 实直播场景下大量的主播直播视频和用户评论, 通过时间匹配、 词汇匹配及相似度判断构建对话 数据集, 得到了特定人物特征下的大规模真实数 据集, 有利于训练得到具有丰富人物特征且在泛 化性、 多样性、 相关性方面表现良好的对话系统, 有利于真实场景对话系统的效果提升, 提升用户 体验度。 权利要求书2页 说明书13页 附图4页 CN 115544237 A 2022.12.30 CN 115544237 A 1.一种基于直 播场景的对话数据集构建方法, 其特 征在于, 包括: 基于主播直播视频的用户评论, 获取所述用户评论发表后预设时间内文本格式的主播 讲话内容; 将所述主播讲话内容中的句子和所述用户评论进行匹配, 获取与所述用户评论具有重 叠词汇的句子; 计算所述与 所述用户评论具有重叠词汇的句子与 所述用户评论之间的语义相似度, 根 据所述语义相似度获取针对所述用户评论的主播回复; 根据所述用户评论和所述主播回复构建对话数据集。 2.根据权利要求1所述的基于直播场景的对话数据集构建方法, 其特征在于, 所述根据 所述语义相似度获取针对所述用户评论的主播回复, 包括: 将所述语义相似度介于第一阈值和第二阈值之间且取值最大时对应的所述与所述用 户评论具有重 叠词汇的句子作为所述主播回复; 其中, 所述第二阈值大于所述第一阈值。 3.根据权利要求2所述的基于直播场景的对话数据集构建方法, 其特征在于, 在所述根 据所述语义相似度获取针对所述用户评论的主播回复之前, 所述方法还 包括: 响应于所述与 所述用户评论具有重叠词汇的句子中包含预设冗余词汇, 计算所述句子 去除所述预设冗余词汇后与所述用户评论的语义相似度; 响应于所述语义相似度 大于所述第 二阈值, 去除相应所述与 所述用户评论具有重叠词 汇的句子 。 4.根据权利要求1所述的基于直播场景的对话数据集构建方法, 其特征在于, 在所述基 于主播直播视频的用户评论, 获取所述用户评论 发表后预设时间内文本格式的主播讲话内 容之前, 所述方法还 包括: 获取所述直播场景下的主播 直播视频; 根据所述主播 直播视频得到主播 直播音频; 通过语音识别模型对所述主播直播音频进行语音识别得到所述文本格式的主播讲话 内容。 5.根据权利要求1至4任一所述的基于直播场景的对话数据集构建方法, 其特征在于, 所述方法还 包括: 以所述用户评论作为预训练的语言模型的输入值, 以所述主播回复作为输出的真实 值, 根据所述预训练的语言模型 的输出值和所述真实值计算损失, 不断迭代训练所述预训 练的语言模型, 得到第一对话模型。 6.根据权利要求1所述的基于直播场景的对话数据集构建方法, 其特征在于, 所述方法 还包括: 获取主播的预设基本人物特征及直播场景下的预设直播人物特征, 得到主播人物特 征; 将所述主播人物特 征添加到所述对话数据集。 7.根据权利要求6所述的基于直播场景的对话数据集构建方法, 其特征在于, 所述预设 基本人物特 征包括性别、 年龄、 工作、 性格、 喜好、 习惯中的至少一种; 所述预设直播人物特征包括直播风格、 直播内容、 直播才艺、 直播目标、 直播间人群中 的至少一种。权 利 要 求 书 1/2 页 2 CN 115544237 A 28.根据权利要求6或7所述的基于直播场景的对话数据集构建方法, 其特征在于, 所述 方法还包括: 以所述用户评论和所述主播人物特征作为预训练 的语言模型的输入值, 以所述主播 回 复作为输出 的真实值, 根据所述预训练的语言模型 的输出值和所述真实值计算损失, 不断 迭代训练所述预训练的语言模型, 得到第二对话模型。 9.一种基于直 播场景的对话数据集构建装置, 其特 征在于, 包括: 第一获取模块, 用于: 基于主播直播视频的用户评论, 获取所述用户评论发表后预设时 间内文本格式的主播讲话内容; 第二获取模块, 用于: 将所述主播讲话内容中的句子和所述用户评论进行匹配, 获取与 所述用户评论具有重 叠词汇的句子; 第三获取模块, 用于: 计算所述与所述用户评论具有重叠词汇的句子与所述用户评论 之间的语义相似度, 根据所述语义相似度获取针对所述用户评论的主播回复; 构建模块, 用于: 根据所述用户评论和所述主播回复构建对话数据集。 10.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至8任一项所 述基于直 播场景的对话数据集构建方法的步骤。 11.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处理器执行时实现如权利要求1至8任一项所述基于直播场景 的对话数据集构建 方法的步骤。权 利 要 求 书 2/2 页 3 CN 115544237 A 3

PDF文档 专利 基于直播场景的对话数据集构建方法及装置

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于直播场景的对话数据集构建方法及装置 第 1 页 专利 基于直播场景的对话数据集构建方法及装置 第 2 页 专利 基于直播场景的对话数据集构建方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-24 00:45:04上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。