(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210900152.1
(22)申请日 2022.07.28
(71)申请人 北京小米移动软件 有限公司
地址 100085 北京市海淀区西二 旗中路33
号院6号楼8层018号
申请人 北京小米松果电子有限公司
(72)发明人 刘贤德 朱佳晖
(74)专利代理 机构 北京英创嘉友知识产权代理
事务所(普通 合伙) 11447
专利代理师 魏嘉熹
(51)Int.Cl.
G06F 16/9535(2019.01)
G06Q 30/02(2012.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
画像标签生成方法、 模 型训练方法、 装置、 介
质及芯片
(57)摘要
本公开涉及一种画像标签生成方法、 模型训
练方法、 装置、 介质及芯片。 方法包括: 获取目标
用户数据, 目标用户数据为目标用户使用目标 终
端中各类应用程序的使用记录; 根据目标用户数
据, 通过预设的用户画像识别模 型生成目标用户
的目标用户画 像标签, 目标用户画 像标签用于表
示目标用户的至少一种属性; 其用户画像识别模
型为根据预设的训练集对初始模型进行机器学
习训练得到。 这样, 可以根据目标用户使用目标
终端中各类应用程序的使用记录进行用户画像
标签生成, 能够从目标用户的多模态、 多元数据
中充分挖掘用户的特征信息, 从而提升用户画像
标签预测的准确性。
权利要求书3页 说明书18页 附图7页
CN 115203573 A
2022.10.18
CN 115203573 A
1.一种用户画像标签的生成方法, 其特 征在于, 包括:
获取目标用户数据, 其中, 所述目标用户数据为目标用户使用目标终端中各类应用程
序的使用记录;
根据所述目标用户数据, 通过预设的用户画像识别模型生成所述目标用户的目标用户
画像标签, 所述目标用户画像标签用于表示所述目标用户的至少一种属性;
其中, 所述用户画像识别模型为根据预设的训练集对初始模型进行机器学习训练得
到, 所述训练集包括多个训练样本, 每个训练样本包括一个用户数据样本和与所述用户数
据样本对应的标签样本, 所述用户数据样本为样本用户使用样本终端中各类应用程序的使
用记录, 所述标签样本用于表示所述样本用户的所述至少一种属性。
2.根据权利要求1所述的方法, 其特征在于, 所述根据所述目标用户数据, 通过预设的
用户画像识别模型生成所述目标用户的目标用户画像标签, 包括:
对所述目标用户数据进行结构化处理, 得到结构化的目标用户数据, 其中, 所述结构化
的目标用户数据包括所述目标用户对所述目标终端的多种使用行为的目标键值对型数据
和/或目标数组型数据, 所述 目标键值对型数据用于表示所述 目标用户对所述目标终端的
相应使用行为的行为类型, 所述目标数组型数据用于表示所述目标用户对 所述目标终端的
相应使用行为的行为序列;
将所述结构化的目标用户数据输入预设的用户画像识别模型, 得到所述目标用户的目
标用户画像标签。
3.根据权利要求2所述的方法, 其特征在于, 所述结构化的目标用户数据包括所述目标
用户对所述目标终端的多种使用行为的目标键值对型 数据和目标 数组型数据;
所述用户画像识别模型包括: 多层感知机网络模块、 长短期序列网络模块以及生成模
块;
其中, 所述多层感知机网络模块, 用于根据 所述多种 使用行为的目标键值对型数据, 生
成第一特 征向量, 并根据所述第一特 征向量, 预测所述目标用户画像标签的第一 概率分布;
所述长短期序列网络模块, 用于根据所述多种使用行为的目标数组型数据, 生成第二
特征向量, 并根据所述第二特征向量, 预测所述 目标用户画像标签的至少一个第二概率分
布;
所述生成模块, 与所述多层感知机网络模块、 所述长短期序列网络模块分别连接, 用于
根据所述第一 概率分布和所述至少一个第二 概率分布, 生成所述目标用户画像标签。
4.根据权利要求3所述的方法, 其特征在于, 所述用户画像识别模型还包括全连接模
块;
其中, 所述全连接模块, 与所述多层感知机网络模块、 所述长短期序列网络模块以及所
述生成模块分别连接, 用于根据所述第一特征向量和所述第二特征向量, 预测所述 目标用
户画像标签的第三 概率分布;
所述生成模块, 用于根据所述第一概率分布、 所述至少一个第二概率分布以及所述第
三概率分布, 生成所述目标用户画像标签。
5.根据权利要求3或4所述的方法, 其特征在于, 所述长短期序列网络模块包括与所述
多种使用行为 一一对应的多个长短期序列网络单 元;
其中, 所述长短期序列网络单元, 用于根据与该长短期序列网络单元对应的使用行为权 利 要 求 书 1/3 页
2
CN 115203573 A
2的目标数组型数据, 生成与该长短期序列网络单元对应的使用行为的特征子 向量, 并根据
该特征子向量, 预测所述目标用户画像标签的第二概率分布, 其中, 所述第二特征向量包括
每一所述使用行为的特 征子向量。
6.根据权利要求3或4所述的方法, 其特征在于, 所述长短期序列网络模块包括拼接单
元和长短期序列网络单 元;
其中, 所述拼接单元, 用于根据将每一所述使用行为的目标数组型数据进行拼接, 得到
拼接序列;
所述长短期序列网络单元, 与 所述拼接单元连接, 用于根据 所述拼接序列, 生成第二特
征向量, 并根据所述第二特 征向量, 预测所述目标用户画像标签的第二 概率分布。
7.根据权利要求4所述的方法, 其特征在于, 所述用户画像识别模型通过以下方式训练
得到:
对所述用户数据样本进行结构化处理, 得到结构化的用户数据样本, 其中, 所述结构化
的用户数据样本包括所述样本用户对所述样本终端的多种使用行为的样本键值对型数据
和样本数组型数据, 所述样本键值对型数据用于表示所述样本用户对所述样本终端的相应
使用行为的行为类型, 所述样本数组型数据用于表示所述样本用户对所述样本终端的相应
使用行为的行为序列;
通过将所述多种 使用行为的样本键值对型数据作为所述多层感知机网络模块的输入,
将所述多种使用行为的样本数组型数据作为所述长 短期序列网络模块的输入, 将所述多层
感知机网络模块根据所述多种使用行为的样本键值对型数据生成的第三特征向量、 所述长
短期序列网络模块根据所述多种使用行为的样本数组型数据生成的第四特征向量作为所
述全连接模块的输入, 将所述多层感知机网络模块的输出、 所述长短期序列网络模块的输
出以及所述全连接模块的输出作为所述生成模块的输入, 并将所述标签样本作为所述生成
模块的目标输出的方式进行模型训练, 以得到所述用户画像识别模型。
8.一种用户画像识别模型的训练方法, 其特 征在于, 包括:
获取训练集, 其中, 所述训练集包括多个训练样本, 每个训练样本包括一个用户数据样
本和与所述用户数据样本对应的标签样本, 所述用户数据样本为样本用户使用样本终端中
各类应用程序的使用记录, 所述标签样本用于表示所述样本用户的至少一种属性;
根据所述训练集对初始模型进行机器学习训练, 得到用户画像识别模型。
9.根据权利要求8所述的方法, 其特征在于, 所述初始模型包括多层感知机网络模块、
长短期序列网络模块、 生成模块以及全连接模块;
所述根据所述训练集对初始模型进行机器学习训练, 得到用户画像识别模型, 包括:
对所述用户数据样本进行结构化处理, 得到结构化的用户数据样本, 其中, 所述结构化
的用户数据样本包括所述样本用户对所述样本终端的多种使用行为的样本键值对型数据
和样本数组型数据, 所述样本键值对型数据用于表示所述样本用户对所述样本终端的相应
使用行为的行为类型, 所述样本数组型数据用于表示所述样本用户对所述样本终端的相应
使用行为的行为序列;
通过将所述多种 使用行为的样本键值对型数据作为所述多层感知机网络模块的输入,
将所述多种使用行为的样本数组型数据作为所述长 短期序列网络模块的输入, 将所述多层
感知机网络模块根据所述多种使用行为的样本键值对型数据生成的第三特征向量、 所述长权 利 要 求 书 2/3 页
3
CN 115203573 A
3
专利 画像标签生成方法、模型训练方法、装置、介质及芯片
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:33:25上传分享