专利图网络数据集的处理方法、装置、电子设备、程序及介质 -在线下载 -AI解读-standardshub.tech

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211057371.4 (22)申请日 2022.08.31 (71)申请人京东方科技集团股份有限公司地址 100015 北京市朝阳区酒仙桥路10号 (72)发明人李龙飞　张振中　梁烁斌　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 专利代理师李娜 (51)Int.Cl. G06F 16/36(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称图网络数据集的处理方法、装置、电子设备、程序及介质 (57)摘要本公开提供的图网络数据集的处理方法、装置、电子设备、程序及介质，属于知识图谱技术领域。所述方法包括：将原始图网络数据集按照目标比例进行划分，得到第一训练集和第一测试集；确定所述训练集中无关联关系的孤立节点；将所述第一训练集中所述孤立节点的邻接矩阵，与所述第一测试集中所述孤立节点所对应位置的邻接矩阵进行调换，得到第二训练集和第二测试集；将所述第二训练集中正样本数据与所述第二测试集中的负样本数据之间进行调换，使得调换后的第二训练集合与第二测试集之间正样本比例符合所述目标比例且调换后的第二训练集合中不存在孤立节点，得到第三训练集和第三测试集。权利要求书2页说明书14页附图7页 CN 115391561 A 2022.11.25 CN 115391561 A 1.一种图网络数据集的处理方法，其特征在于，所述方法包括：将原始图网络数据集按照目标比例进行划分，得到第一训练集和第一测试集；确定所述训练集中无关联关系的孤立节点；将所述第一训练集中所述孤立节点的邻接矩阵，与所述第一测试集中所述孤立节点所对应位置的邻接矩阵进行调换，得到第二训练集和第二测试集；将所述第二训练集中正样本数据与所述第二测试集中的负样本数据之间进行调换，使得调换后的第二训练集合与第二测试集之间正样本比例符合所述目标比例且调换后的第二训练集合中不存在孤立节点，得到第三训练集和第三测试集。 2.根据权利要求1所述的方法，其特征在于，所述将所述第二训练集中正样本数据与所述第二测试集中的负样本数据之间进行调换，使得调换后的第二训练集合与第二测试集之间正样本比例符合所述目标比例且调换后的第二训练集合中不存在孤立节点，得到第三训练集和第三测试集，包括：获取所述第一测试集向所述第一训练集调换的目标样本数量；在所述第二训练集中确定目标正样本数据，所述目标正样本数据所在的行数据和列数据包含至少两个正样本数据；将所述目标正样本数据与所述第二测试集中的负样本数据进行调换，直至已调换正样本数据的数量达到所述目标样本数量，得到第三训练集合第三测试集。 3.根据权利要求2所述的方法，其特征在于，所述获取所述第一测试集向所述第一训练集调换的目标样本数量，包括：获取所述第二训练集中所包含正样本数据的数量大于或等于2的行数据；将所述行数据中正样本数据所对应列数据中包含正样本数据的数量大于或等于2的节点数据作为目标正样本数据。 4.根据权利要求3所述的方法，其特征在于，在所述将所述行数据中正样本数据所对应列数据中包含正样本数据的数量大于或等于2的节点数据作为目标正样本数据之前，所述方法还包括：在所述第二训练集中不存在所包含正样本数据的数量大于或等于2 的行数据时，停止所述第二训练集向所述第二测试集的正样本调换过程。 5.根据权利要求1所述的方法，其特征在于，所述确定所述训练集中无关联关系的孤立节点，包括：获取所述第一训练集中每个节点的邻接矩阵；在所述邻接矩阵中的任一行或者任一列中的样本数据均为负样本数据时，将所述邻接矩阵所对应的节点作为孤立节点。 6.根据权利要求1所述的方法，其特征在于，在所述将所述第二训练集中正样本数据与所述第二测试集中的负样本数据之间进行调换，使得调换后的第二训练集合与第二测试集之间正样本比例符合所述目标比例且调换后的第二训练集合中不存在孤立节点，得到第三训练集和第三测试集之后，所述方法还包括：所述第三训练集和所述第三测试集中的节点关联关系用于表征药物和疾病之间的关联关系；利用所述第三训练集和所述第三测试集对得分预测模型进行训练，其中所述得分预测权　利　要　求　书 1/2 页 2 CN 115391561 A 2模型用于预测所输入的药物信息和疾病信息之间的关联度。 7.根据权利要求6所述的方法，其特征在于，所述利用所述第三训练集和所述第三测试集对得分预测模型进行训练，包括：利用所述第三训练集对所述得分预测模型进行训练；利用所述第三测试集对训练后的得分预测模型进行测试，得到预测概率得分矩阵；计算所述预测概率得分矩阵的损失值；在所述损失值得到训练要求时，确认所述得分预测模型训练完成。 8.根据权利要求7所述的方法，其特征在于，所述计算所述预测概率得分矩阵的损失值，包括：将所述预测概率得分矩阵输入至如下公式，以得到损失值 loss：其中， (i， j)表示第i个药物和第j个疾病的关联对， S+表示所有已知药物疾病关联对的集合， S‑表示所有未知或未观察到的药物疾病关联对的集合，平衡因子用于降低数据不平衡的影响， A'是预测概率得分矩阵， u表示所述预测得分矩阵的行数和v表示所述预测得分矩阵的列数。 9.一种图网络数据集的处理装置，其特征在于，所述装置包括：划分模块，被配置为将原始图网络数据集按照目标比例进行划分，得到第一训练集和第一测试集；确定模块，被配置为确定所述训练集中无关联关系的孤立节点；调换模块，被配置为将所述第一训练集中所述孤立节点的邻接矩阵，与所述第一测试集中所述孤立节点所对应位置的邻接矩阵进行调换，得到第二训练集和第二测试集；将所述第二训练集中正样本数据与所述第二测试集中的负样本数据之间进行调换，使得调换后的第二训练集合与第二测试集之间正样本比例符合所述目标比例且调换后的第二训练集合中不存在孤立节点，得到第三训练集和第三测试集。 10.一种计算处理设备，其特征在于，包括：存储器，其中存储有计算机可读代码；一个或多个处理器，当所述计算机可读代码被所述一个或多个处理器执行时，所述计算处理设备执行如权利要求1 ‑8中任一项所述的图网络数据集的处理方法。 11.本公开一些实施例提供一种计算机程序，其特征在于，包括计算机可读代码，当所述计算机可读代码在计算处理设备上运行时，导致所述计算处理设备执行如权利要求1 ‑8 中任一项的所述的图网络数据集的处理方法。 12.一种非瞬态计算机可读介质，其特征在于，其中存储了如权利要求1 ‑8中任一项所述的图网络数据集的处理方法的计算机程序。权　利　要　求　书 2/2 页 3 CN 115391561 A 3

专利 图网络数据集的处理方法、装置、电子设备、程序及介质

专利图网络数据集的处理方法、装置、电子设备、程序及介质