(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211411630.9 (22)申请日 2022.11.11 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 苏鑫 陈谦  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 毛丹 (51)Int.Cl. G06F 16/9535(2019.01) G06K 9/62(2022.01) (54)发明名称 推送模型训练、 信息推送方法、 装置和存储 介质 (57)摘要 本申请涉及一种推送模 型训练、 信息推送方 法、 装置、 计算机设备、 存储介质和计算机程序产 品。 该方法包括: 获取待训练推送模型, 待训练推 送模型是通过当前推送模型和对应的指导推送 模型建立的, 指导推送模型是基于当前推送模型 建立的。 将训练推送对象和训练推送信息输入到 待训练推送模 型中, 通过当前推送模 型计算得到 当前匹配程度, 并通过指导推送模 型计算得到指 导匹配程度; 基于当前匹配程度和指导匹配程度 计算得到指导损失信息, 并基于当前匹配程度和 训练标签计算得到推送损失信息。 基于指导损失 信息和推送损失信息进行模型的迭代训练, 并基 于训练完成的待训练推送模型中的当前推送模 型得到目标推送模型。 采用本方法能够提高信息 推送的准确性。 权利要求书5页 说明书27页 附图11页 CN 115455306 A 2022.12.09 CN 115455306 A 1.一种推送模型训练方法, 其特 征在于, 所述方法包括: 获取待训练推送模型, 所述待训练推送模型是通过当前推送模型和对应的指导推送模 型建立的, 所述指导推送模型 是基于所述当前推送模型建立的; 获取训练推送对象、 训练推送信息和训练标签, 将所述训练推送对象和所述训练推送 信息输入到所述待训练推送模型中, 通过所述待训练推送模型中的当前推送模型计算所述 训练推送对 象和所述训练推送信息的匹配程度, 得到当前匹配程度, 并通过所述待训练推 送模型中的指导推送模型计算所述训练推送对象和所述训练推送信息的匹配程度, 得到指 导匹配程度; 基于所述当前匹配程度和所述指导匹配程度进行指导损 失计算, 得到指导损 失信息, 并基于所述当前匹配程度和所述训练标签进行推送损失计算, 得到推送损失信息; 基于所述指导损失信息和所述推送损失信息对所述待训练推送模型中的当前推送模 型进行更新, 得到更新待训练推送模型, 将所述更新待训练推送模型作为待训练推送模型, 并返回获取训练推送对 象、 训练推送信息和训练标签的步骤迭代执行, 直到达到训练完成 条件时, 得到训练完成的待训练推送模型; 基于所述训练完成的待训练推送模型中的当前推送模型得到目标推送模型, 所述目标 推送模型用于向目标推送对象对应的终端推送目标信息 。 2.根据权利要求1所述的方法, 其特征在于, 所述获取待训练推送模型, 所述待训练推 送模型是通过当前推送模型和对应的指导推送模型建立的, 所述指导推送模型是基于所述 当前推送模型建立的, 包括: 获取当前时间点, 当所述当前时间点为预设更新周期时间点时, 获取所述当前推送模 型; 将所述当前推送模型的模型结构作为所述指导推送模型的模型结构, 并将所述当前推 送模型的模型参数作为所述指导推送模型的模型参数; 基于所述指导推送模型的模型结构和所述指导推送模型的模型参数得到所述指导推 送模型, 并基于所述当前推送模型和所述指导推送模型 得到所述待训练推送模型。 3.根据权利要求1所述的方法, 其特征在于, 所述通过所述待训练推送模型中的当前推 送模型计算所述训练推送对 象和所述训练推送信息的匹配程度, 得到当前匹配程度, 并通 过所述待训练推送模型中的指导推送模型计算所述训练推送对 象和所述训练推送信息的 匹配程度, 得到指导匹配程度, 包括: 通过所述待训练推送模型中的当前推送模型提取所述训练推送对象的语义表征, 得到 当前对象语义表征, 并提取 所述训练推送信息的语义表征, 得到当前信息语义表征; 计算所述当前对象语义表征与所述当前信 息语义表征之间的距离, 得到所述当前匹配 程度; 通过所述待训练推送模型中的指导推送模型提取所述训练推送对象的语义表征, 得到 指导对象语义表征, 并提取 所述训练推送信息的语义表征, 得到指导信息语义表征; 计算所述指导对象语义表征与所述指导信 息语义表征之间的距离, 得到所述指导匹配 程度。 4.根据权利要求1所述的方法, 其特征在于, 所述基于所述指导损失信 息和所述推送损 失信息对所述待训练推送模型中的当前推送模型进行更新, 得到更新待训练推送模型, 包权 利 要 求 书 1/5 页 2 CN 115455306 A 2括: 获取比重控制参数, 基于所述比重控制参数对所述指导损 失信息进行加权, 得到加权 损失信息; 计算所述加权损失信息与所述推送损失信息的信息总和, 得到目标损失信息; 基于所述目标损失信 息更新所述待训练推送模型中当前推送模型的模型参数, 并保持 所述待训练推送模型中指导推送模型的模型参数不变, 得到更新待训练推送模型。 5.根据权利要求1所述的方法, 其特征在于, 所述当前推送模型包括当前对象语义表征 网络和当前信息语义表征网络; 所述获取待训练推送模型, 所述待训练推送模型是通过当前推送模型和对应的指导推 送模型建立的, 所述指导推送模型 是基于所述当前推送模型建立的, 包括: 获取当前时间点, 当所述当前时间点为预设更新周期时间点时, 获取所述当前推送模 型; 将所述当前推送模型中当前对象语义表征网络的网络结构作为对象指导推送模型的 模型结构; 将所述当前对象语义表征网络的网络参数作为所述对象指导推送模型的模型参数; 基于所述对象指导推送模型的模型结构和所述对象指导推送模型的模型参数得到对 象指导推送模型, 并基于所述当前推送模型和所述对象指导推送模型得到对象待训练推送 模型。 6.根据权利要求5所述的方法, 其特征在于, 所述通过所述待训练推送模型中的当前推 送模型计算所述训练推送对 象和所述训练推送信息的匹配程度, 得到当前匹配程度, 并通 过所述待训练推送模型中的指导推送模型计算所述训练推送对 象和所述训练推送信息的 匹配程度, 得到指导匹配程度, 包括: 通过所述当前对象语义表征网络提取所述训练推送对象的语义表征, 得到当前对象语 义表征, 并通过当前信息语义表征网络提取所述训练推送信息的语义表征, 得到当前信息 语义表征; 计算所述当前对象语义表征与所述当前信 息语义表征之间的距离, 得到所述当前匹配 程度; 通过所述对象指导推送模型提取所述训练推送对象的语义表征, 得到指导对象语义表 征; 所述基于所述当前匹配程度和所述指导匹配程度进行指导损失计算, 得到指导损失信 息, 包括: 基于所述当前对象语义表征和所述指导对象语义表征进行指导损失计算, 得到对象指 导损失信息 。 7.根据权利要求6所述的方法, 其特征在于, 所述基于所述指导损失信 息和所述推送损 失信息对所述待训练推送模型中的当前推送模型进行更新, 得到更新待训练推送模型, 包 括: 计算所述对象指导损失信息和所述推送损失信息的信息总和, 得到对象目标损失信 息; 基于所述对象目标损失信息更新所述对象待训练推送模型中当前推送模型的模型参权 利 要 求 书 2/5 页 3 CN 115455306 A 3

.PDF文档 专利 推送模型训练、信息推送方法、装置和存储介质

文档预览
中文文档 44 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共44页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 推送模型训练、信息推送方法、装置和存储介质 第 1 页 专利 推送模型训练、信息推送方法、装置和存储介质 第 2 页 专利 推送模型训练、信息推送方法、装置和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 00:14:40上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。