专利 基于直播场景的对话数据集构建方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211534448.2 (22)申请日 2022.12.02 (71)申请人北京红棉小冰科技有限公司地址 100080 北京市海淀区北四环西路67 号6层608房间 (72)发明人高景盛　连怡鑫　王宝元　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 专利代理师谢志超 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 40/211(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) (54)发明名称基于直播场景的对话数据集构建方法及装置 (57)摘要本发明实施例提供一种基于直播场景的对话数据集构建方法及装置，该方法包括：基于主播直播视频的用户评论，获取用户评论发表后预设时间内文本格式的主播讲话内容；获取主播讲话内容中与用户评论具有重叠词汇的句子并计算和用户评论间的语义相似度，根据语义相似度获取针对用户评论的主播回复；根据用户评论和主播回复构建对话数据集。本发明实施例基于真实直播场景下大量的主播直播视频和用户评论，通过时间匹配、词汇匹配及相似度判断构建对话数据集，得到了特定人物特征下的大规模真实数据集，有利于训练得到具有丰富人物特征且在泛化性、多样性、相关性方面表现良好的对话系统，有利于真实场景对话系统的效果提升，提升用户体验度。权利要求书2页说明书13页附图4页 CN 115544237 A 2022.12.30 CN 115544237 A 1.一种基于直播场景的对话数据集构建方法，其特征在于，包括：基于主播直播视频的用户评论，获取所述用户评论发表后预设时间内文本格式的主播讲话内容；将所述主播讲话内容中的句子和所述用户评论进行匹配，获取与所述用户评论具有重叠词汇的句子；计算所述与所述用户评论具有重叠词汇的句子与所述用户评论之间的语义相似度，根据所述语义相似度获取针对所述用户评论的主播回复；根据所述用户评论和所述主播回复构建对话数据集。 2.根据权利要求1所述的基于直播场景的对话数据集构建方法，其特征在于，所述根据所述语义相似度获取针对所述用户评论的主播回复，包括：将所述语义相似度介于第一阈值和第二阈值之间且取值最大时对应的所述与所述用户评论具有重叠词汇的句子作为所述主播回复；其中，所述第二阈值大于所述第一阈值。 3.根据权利要求2所述的基于直播场景的对话数据集构建方法，其特征在于，在所述根据所述语义相似度获取针对所述用户评论的主播回复之前，所述方法还包括：响应于所述与所述用户评论具有重叠词汇的句子中包含预设冗余词汇，计算所述句子去除所述预设冗余词汇后与所述用户评论的语义相似度；响应于所述语义相似度大于所述第二阈值，去除相应所述与所述用户评论具有重叠词汇的句子。 4.根据权利要求1所述的基于直播场景的对话数据集构建方法，其特征在于，在所述基于主播直播视频的用户评论，获取所述用户评论发表后预设时间内文本格式的主播讲话内容之前，所述方法还包括：获取所述直播场景下的主播直播视频；根据所述主播直播视频得到主播直播音频；通过语音识别模型对所述主播直播音频进行语音识别得到所述文本格式的主播讲话内容。 5.根据权利要求1至4任一所述的基于直播场景的对话数据集构建方法，其特征在于，所述方法还包括：以所述用户评论作为预训练的语言模型的输入值，以所述主播回复作为输出的真实值，根据所述预训练的语言模型的输出值和所述真实值计算损失，不断迭代训练所述预训练的语言模型，得到第一对话模型。 6.根据权利要求1所述的基于直播场景的对话数据集构建方法，其特征在于，所述方法还包括：获取主播的预设基本人物特征及直播场景下的预设直播人物特征，得到主播人物特征；将所述主播人物特征添加到所述对话数据集。 7.根据权利要求6所述的基于直播场景的对话数据集构建方法，其特征在于，所述预设基本人物特征包括性别、年龄、工作、性格、喜好、习惯中的至少一种；所述预设直播人物特征包括直播风格、直播内容、直播才艺、直播目标、直播间人群中的至少一种。权　利　要　求　书 1/2 页 2 CN 115544237 A 28.根据权利要求6或7所述的基于直播场景的对话数据集构建方法，其特征在于，所述方法还包括：以所述用户评论和所述主播人物特征作为预训练的语言模型的输入值，以所述主播回复作为输出的真实值，根据所述预训练的语言模型的输出值和所述真实值计算损失，不断迭代训练所述预训练的语言模型，得到第二对话模型。 9.一种基于直播场景的对话数据集构建装置，其特征在于，包括：第一获取模块，用于：基于主播直播视频的用户评论，获取所述用户评论发表后预设时间内文本格式的主播讲话内容；第二获取模块，用于：将所述主播讲话内容中的句子和所述用户评论进行匹配，获取与所述用户评论具有重叠词汇的句子；第三获取模块，用于：计算所述与所述用户评论具有重叠词汇的句子与所述用户评论之间的语义相似度，根据所述语义相似度获取针对所述用户评论的主播回复；构建模块，用于：根据所述用户评论和所述主播回复构建对话数据集。 10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述基于直播场景的对话数据集构建方法的步骤。 11.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述基于直播场景的对话数据集构建方法的步骤。权　利　要　求　书 2/2 页 3 CN 115544237 A 3

专利 基于直播场景的对话数据集构建方法及装置

专利基于直播场景的对话数据集构建方法及装置