standard download
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
问题反馈
首页
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211534448.2 (22)申请日 2022.12.02 (71)申请人 北京红棉小 冰科技有限公司 地址 100080 北京市海淀区北四环西路67 号6层608房间 (72)发明人 高景盛 连怡鑫 王宝元 (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 谢志超 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 40/211(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称 基于直播场景的对话数据集构建方法及装 置 (57)摘要 本发明实施例提供一种基于直播场景的对 话数据集构建方法及装置, 该方法包括: 基于主 播直播视频的用户评论, 获取用户评论发表后预 设时间内文本格式的主播讲话内容; 获取主播讲 话内容中与用户评论具有重叠词汇的句子并计 算和用户评论间的语义相似度, 根据语义相似度 获取针对用户评论的主播回复; 根据用户评论和 主播回复构建对话数据集。 本发 明实施例基于真 实直播场景下大量的主播直播视频和用户评论, 通过时间匹配、 词汇匹配及相似度判断构建对话 数据集, 得到了特定人物特征下的大规模真实数 据集, 有利于训练得到具有丰富人物特征且在泛 化性、 多样性、 相关性方面表现良好的对话系统, 有利于真实场景对话系统的效果提升, 提升用户 体验度。 权利要求书2页 说明书13页 附图4页 CN 115544237 A 2022.12.30 CN 115544237 A 1.一种基于直 播场景的对话数据集构建方法, 其特 征在于, 包括: 基于主播直播视频的用户评论, 获取所述用户评论发表后预设时间内文本格式的主播 讲话内容; 将所述主播讲话内容中的句子和所述用户评论进行匹配, 获取与所述用户评论具有重 叠词汇的句子; 计算所述与 所述用户评论具有重叠词汇的句子与 所述用户评论之间的语义相似度, 根 据所述语义相似度获取针对所述用户评论的主播回复; 根据所述用户评论和所述主播回复构建对话数据集。 2.根据权利要求1所述的基于直播场景的对话数据集构建方法, 其特征在于, 所述根据 所述语义相似度获取针对所述用户评论的主播回复, 包括: 将所述语义相似度介于第一阈值和第二阈值之间且取值最大时对应的所述与所述用 户评论具有重 叠词汇的句子作为所述主播回复; 其中, 所述第二阈值大于所述第一阈值。 3.根据权利要求2所述的基于直播场景的对话数据集构建方法, 其特征在于, 在所述根 据所述语义相似度获取针对所述用户评论的主播回复之前, 所述方法还 包括: 响应于所述与 所述用户评论具有重叠词汇的句子中包含预设冗余词汇, 计算所述句子 去除所述预设冗余词汇后与所述用户评论的语义相似度; 响应于所述语义相似度 大于所述第 二阈值, 去除相应所述与 所述用户评论具有重叠词 汇的句子 。 4.根据权利要求1所述的基于直播场景的对话数据集构建方法, 其特征在于, 在所述基 于主播直播视频的用户评论, 获取所述用户评论 发表后预设时间内文本格式的主播讲话内 容之前, 所述方法还 包括: 获取所述直播场景下的主播 直播视频; 根据所述主播 直播视频得到主播 直播音频; 通过语音识别模型对所述主播直播音频进行语音识别得到所述文本格式的主播讲话 内容。 5.根据权利要求1至4任一所述的基于直播场景的对话数据集构建方法, 其特征在于, 所述方法还 包括: 以所述用户评论作为预训练的语言模型的输入值, 以所述主播回复作为输出的真实 值, 根据所述预训练的语言模型 的输出值和所述真实值计算损失, 不断迭代训练所述预训 练的语言模型, 得到第一对话模型。 6.根据权利要求1所述的基于直播场景的对话数据集构建方法, 其特征在于, 所述方法 还包括: 获取主播的预设基本人物特征及直播场景下的预设直播人物特征, 得到主播人物特 征; 将所述主播人物特 征添加到所述对话数据集。 7.根据权利要求6所述的基于直播场景的对话数据集构建方法, 其特征在于, 所述预设 基本人物特 征包括性别、 年龄、 工作、 性格、 喜好、 习惯中的至少一种; 所述预设直播人物特征包括直播风格、 直播内容、 直播才艺、 直播目标、 直播间人群中 的至少一种。权 利 要 求 书 1/2 页 2 CN 115544237 A 28.根据权利要求6或7所述的基于直播场景的对话数据集构建方法, 其特征在于, 所述 方法还包括: 以所述用户评论和所述主播人物特征作为预训练 的语言模型的输入值, 以所述主播 回 复作为输出 的真实值, 根据所述预训练的语言模型 的输出值和所述真实值计算损失, 不断 迭代训练所述预训练的语言模型, 得到第二对话模型。 9.一种基于直 播场景的对话数据集构建装置, 其特 征在于, 包括: 第一获取模块, 用于: 基于主播直播视频的用户评论, 获取所述用户评论发表后预设时 间内文本格式的主播讲话内容; 第二获取模块, 用于: 将所述主播讲话内容中的句子和所述用户评论进行匹配, 获取与 所述用户评论具有重 叠词汇的句子; 第三获取模块, 用于: 计算所述与所述用户评论具有重叠词汇的句子与所述用户评论 之间的语义相似度, 根据所述语义相似度获取针对所述用户评论的主播回复; 构建模块, 用于: 根据所述用户评论和所述主播回复构建对话数据集。 10.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至8任一项所 述基于直 播场景的对话数据集构建方法的步骤。 11.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处理器执行时实现如权利要求1至8任一项所述基于直播场景 的对话数据集构建 方法的步骤。权 利 要 求 书 2/2 页 3 CN 115544237 A 3
专利 基于直播场景的对话数据集构建方法及装置
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 SC 于
2024-02-24 00:45:04
上传分享
举报
下载
原文档
(623.8 KB)
分享
友情链接
GB-T 893-2017 孔用弹性挡圈.pdf
GB-T 38114-2019 纳米技术 石墨烯材料表面含氧官能团的定量分析 化学滴定法.pdf
DB42-T 1674-2021 电加热模锻生产过程节能管理规范 湖北省.pdf
T-CESA 1036—2019 信息技术 人工智能 机器学习模型及系统的质量要素和测试方法.pdf
GB-T 14592-2014 钼圆片.pdf
GB-T 41717-2022 核电厂老化管理与寿命管理术语.pdf
GB-T 31467-2023 电动汽车用锂离子动力电池包和系统电性能试验方法.pdf
T-CISA 046—2020 铬—锰—镍—氮系奥氏体不锈钢冷轧钢板和钢带.pdf
GB 25972-2010 气体灭火系统及部件.pdf
DB3206-T 1040-2022 叉车司机实际操作技能考核规范 南通市.pdf
NY-T 2919-2016 瓜类果斑病防控技术规程.pdf
Linux安全配置基线.pdf
GB-T 39552.2-2020 太阳镜和太阳镜片 第2部分:试验方法.pdf
数据安全合规评估方法-1.19发布.pdf
HJ 91.2-2022 地表水环境质量监测技术规范.pdf
绿盟 2020 数据安全前沿技术研究报告.pdf
GB-T 20169-2015 离子型稀土矿混合稀土氧化物.pdf
SY-T 6662.2-2020 石油天然气工业用非金属复合管 第2部分:柔性复合高压输送管.pdf
GB-T 33667-2017 高校毕业生就业指导服务规范.pdf
T-CESA 1040—2019 信息技术 人工智能 面向机器学习的数据标注规程.pdf
1
/
20
评价文档
赞助2.5元 点击下载(623.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。