专利 画像标签生成方法、模型训练方法、装置、介质及芯片

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210900152.1 (22)申请日 2022.07.28 (71)申请人北京小米移动软件有限公司地址 100085 北京市海淀区西二旗中路33 号院6号楼8层018号申请人北京小米松果电子有限公司 (72)发明人刘贤德　朱佳晖　 (74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙) 11447 专利代理师魏嘉熹 (51)Int.Cl. G06F 16/9535(2019.01) G06Q 30/02(2012.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称画像标签生成方法、模型训练方法、装置、介质及芯片 (57)摘要本公开涉及一种画像标签生成方法、模型训练方法、装置、介质及芯片。方法包括：获取目标用户数据，目标用户数据为目标用户使用目标终端中各类应用程序的使用记录；根据目标用户数据，通过预设的用户画像识别模型生成目标用户的目标用户画像标签，目标用户画像标签用于表示目标用户的至少一种属性；其用户画像识别模型为根据预设的训练集对初始模型进行机器学习训练得到。这样，可以根据目标用户使用目标终端中各类应用程序的使用记录进行用户画像标签生成，能够从目标用户的多模态、多元数据中充分挖掘用户的特征信息，从而提升用户画像标签预测的准确性。权利要求书3页说明书18页附图7页 CN 115203573 A 2022.10.18 CN 115203573 A 1.一种用户画像标签的生成方法，其特征在于，包括：获取目标用户数据，其中，所述目标用户数据为目标用户使用目标终端中各类应用程序的使用记录；根据所述目标用户数据，通过预设的用户画像识别模型生成所述目标用户的目标用户画像标签，所述目标用户画像标签用于表示所述目标用户的至少一种属性；其中，所述用户画像识别模型为根据预设的训练集对初始模型进行机器学习训练得到，所述训练集包括多个训练样本，每个训练样本包括一个用户数据样本和与所述用户数据样本对应的标签样本，所述用户数据样本为样本用户使用样本终端中各类应用程序的使用记录，所述标签样本用于表示所述样本用户的所述至少一种属性。 2.根据权利要求1所述的方法，其特征在于，所述根据所述目标用户数据，通过预设的用户画像识别模型生成所述目标用户的目标用户画像标签，包括：对所述目标用户数据进行结构化处理，得到结构化的目标用户数据，其中，所述结构化的目标用户数据包括所述目标用户对所述目标终端的多种使用行为的目标键值对型数据和/或目标数组型数据，所述目标键值对型数据用于表示所述目标用户对所述目标终端的相应使用行为的行为类型，所述目标数组型数据用于表示所述目标用户对所述目标终端的相应使用行为的行为序列；将所述结构化的目标用户数据输入预设的用户画像识别模型，得到所述目标用户的目标用户画像标签。 3.根据权利要求2所述的方法，其特征在于，所述结构化的目标用户数据包括所述目标用户对所述目标终端的多种使用行为的目标键值对型数据和目标数组型数据；所述用户画像识别模型包括：多层感知机网络模块、长短期序列网络模块以及生成模块；其中，所述多层感知机网络模块，用于根据所述多种使用行为的目标键值对型数据，生成第一特征向量，并根据所述第一特征向量，预测所述目标用户画像标签的第一概率分布；所述长短期序列网络模块，用于根据所述多种使用行为的目标数组型数据，生成第二特征向量，并根据所述第二特征向量，预测所述目标用户画像标签的至少一个第二概率分布；所述生成模块，与所述多层感知机网络模块、所述长短期序列网络模块分别连接，用于根据所述第一概率分布和所述至少一个第二概率分布，生成所述目标用户画像标签。 4.根据权利要求3所述的方法，其特征在于，所述用户画像识别模型还包括全连接模块；其中，所述全连接模块，与所述多层感知机网络模块、所述长短期序列网络模块以及所述生成模块分别连接，用于根据所述第一特征向量和所述第二特征向量，预测所述目标用户画像标签的第三概率分布；所述生成模块，用于根据所述第一概率分布、所述至少一个第二概率分布以及所述第三概率分布，生成所述目标用户画像标签。 5.根据权利要求3或4所述的方法，其特征在于，所述长短期序列网络模块包括与所述多种使用行为一一对应的多个长短期序列网络单元；其中，所述长短期序列网络单元，用于根据与该长短期序列网络单元对应的使用行为权　利　要　求　书 1/3 页 2 CN 115203573 A 2的目标数组型数据，生成与该长短期序列网络单元对应的使用行为的特征子向量，并根据该特征子向量，预测所述目标用户画像标签的第二概率分布，其中，所述第二特征向量包括每一所述使用行为的特征子向量。 6.根据权利要求3或4所述的方法，其特征在于，所述长短期序列网络模块包括拼接单元和长短期序列网络单元；其中，所述拼接单元，用于根据将每一所述使用行为的目标数组型数据进行拼接，得到拼接序列；所述长短期序列网络单元，与所述拼接单元连接，用于根据所述拼接序列，生成第二特征向量，并根据所述第二特征向量，预测所述目标用户画像标签的第二概率分布。 7.根据权利要求4所述的方法，其特征在于，所述用户画像识别模型通过以下方式训练得到：对所述用户数据样本进行结构化处理，得到结构化的用户数据样本，其中，所述结构化的用户数据样本包括所述样本用户对所述样本终端的多种使用行为的样本键值对型数据和样本数组型数据，所述样本键值对型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为类型，所述样本数组型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为序列；通过将所述多种使用行为的样本键值对型数据作为所述多层感知机网络模块的输入，将所述多种使用行为的样本数组型数据作为所述长短期序列网络模块的输入，将所述多层感知机网络模块根据所述多种使用行为的样本键值对型数据生成的第三特征向量、所述长短期序列网络模块根据所述多种使用行为的样本数组型数据生成的第四特征向量作为所述全连接模块的输入，将所述多层感知机网络模块的输出、所述长短期序列网络模块的输出以及所述全连接模块的输出作为所述生成模块的输入，并将所述标签样本作为所述生成模块的目标输出的方式进行模型训练，以得到所述用户画像识别模型。 8.一种用户画像识别模型的训练方法，其特征在于，包括：获取训练集，其中，所述训练集包括多个训练样本，每个训练样本包括一个用户数据样本和与所述用户数据样本对应的标签样本，所述用户数据样本为样本用户使用样本终端中各类应用程序的使用记录，所述标签样本用于表示所述样本用户的至少一种属性；根据所述训练集对初始模型进行机器学习训练，得到用户画像识别模型。 9.根据权利要求8所述的方法，其特征在于，所述初始模型包括多层感知机网络模块、长短期序列网络模块、生成模块以及全连接模块；所述根据所述训练集对初始模型进行机器学习训练，得到用户画像识别模型，包括：对所述用户数据样本进行结构化处理，得到结构化的用户数据样本，其中，所述结构化的用户数据样本包括所述样本用户对所述样本终端的多种使用行为的样本键值对型数据和样本数组型数据，所述样本键值对型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为类型，所述样本数组型数据用于表示所述样本用户对所述样本终端的相应使用行为的行为序列；通过将所述多种使用行为的样本键值对型数据作为所述多层感知机网络模块的输入，将所述多种使用行为的样本数组型数据作为所述长短期序列网络模块的输入，将所述多层感知机网络模块根据所述多种使用行为的样本键值对型数据生成的第三特征向量、所述长权　利　要　求　书 2/3 页 3 CN 115203573 A 3

专利 画像标签生成方法、模型训练方法、装置、介质及芯片

专利画像标签生成方法、模型训练方法、装置、介质及芯片