专利 一种基于联邦学习的多站点医学数据分析方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210972939.9 (22)申请日 2022.08.15 (71)申请人南京航空航天大学地址 210016 江苏省南京市江宁区将军路 29号 (72)发明人朱旗　杨启鸣　王明明　邵伟　张道强　 (74)专利代理机构北京高沃律师事务所 1 1569 专利代理师韩雪梅 (51)Int.Cl. G06F 21/62(2013.01) G16H 50/20(2018.01) G16H 30/20(2018.01) G06V 10/774(2022.01) G06V 10/764(2022.01) (54)发明名称一种基于联邦学习的多站点医学数据分析方法及系统 (57)摘要本发明涉及一种基于联邦学习的多站点医学数据分析方法及系统，该方法包括：根据多个源站点数据集在本地学习得到多个源站点模型；将各源站点模型参数发送至目标站点，获取各源站点对应的目标站点数据集的伪标签和预测值，将各预测值整合得到预测值集合，并将该预测值集合作为辅助数据集；搭建初始模型，根据辅助数据集对初始模型进行训练，得到训练好的辅助模型；将各源站点模型和辅助模型进行聚合得到目标模型；获取目标模型参数，根据目标模型参数对各源站点模型进行参数优化，得到优化后的源站点模型；优化后的源站点模型用于对待测样本数据进行医学分析。本发明能够在避免隐私泄露的前提下实现数据的共享，并提高医学数据分析的精度。权利要求书3页说明书10页附图2页 CN 115310130 A 2022.11.08 CN 115310130 A 1.一种基于联邦学习的多站点医学数据分析方法，其特征在于，所述方法包括：获取多个源站点数据集，并基于各个源站点数据集在本地学习得到多个源站点模型；所述源站点数据集包括若干样本数据；所述样本数据为划分为多个脑区的静息态功能磁共振成像图像；将各个源站点模型的模型参数发送至目标站点，并获取各个源站点对应的目标站点数据集的伪标签和各个源站点模型的预测值；所述目标站点数据集的伪标签为根据源站点模型对目标站点数据集进行预测得到的预测结果；所述源站点模型的预测值为根据源站点模型对目标站点数据集进行预测得到的预测概率；所述预测结果表征静息态功能磁共振成像图像中各个脑区出现病变对于疾病的影响程度；将各个所述源站点模型的预测值进行整合，得到源站点模型的预测值集合，并将所述源站点模型的预测值集合作为辅助数据集；搭建初始模型，并根据所述辅助数据集对所述初始模型进行训练，得到训练好的辅助模型；将各所述源站点模型和所述辅助模型进行聚合，得到目标模型；获取目标模型的模型参数，并根据所述目标模型的模型参数对各所述源站点模型进行参数优化，得到优化后的源站点模型；所述优化后的源站点模型用于对待测样本数据进行医学分析。 2.根据权利要求1所述一种基于联邦学习的多站点医学数据分析方法，其特征在于，所述搭建初始模型，并根据所述辅助数据集对所述初始模型进行训练，得到训练好的辅助模型，具体包括：基于所述辅助数据集，采用对比约束方法对所述初始模型进行训练，直至损失函数收敛，得到中间模型；采用自步学习策略对所述中间模型进行优化，得到所述训练好的辅助模型。 3.根据权利要求2所述的一种基于联邦学习的多站点医学数据分析方法，其特征在于，所述采用自步学习策略对所述中间模型进行优化，具体包括：采用可信度分数对目标站点数据集中的目标样本进行筛选，得到可信度分数大于设定阈值的目标样本，根据可信度分数大于设定阈值的目标样本获得各个源站点模型的预测值；所述可信度分数由可信源站点的数量和目标站点数据集的伪标签的平均概率确定；结合目标站点伪标签和损失函数，对目标函数进行优化，得到最终目标函数；所述最终目标函数用于对所述中间模型进行训练。 4.根据权利要求2所述的一种基于联邦学习的多站点医学数据分析方法，其特征在于，所述损失函数包括交叉熵损失函数和对比度损失函数；其中，所述交叉熵损失函数的表达式为： Lcla(xi)＝lc(‑log[FN+1(xi)],yi)；其中，表示交叉熵损失函数， xi为目标站点的样本， i为目标站点的未标记样本的编号， nt表示目标站点的未标记样本的数量， Lcla表示每个样本的分类损失， lc(·)表示交叉熵损失， FN+1(xi)表示辅助模型的输出， yi表示目标站点中样本i的伪标签；权　利　要　求　书 1/3 页 2 CN 115310130 A 2所述对比度损失函数的表达式为：其中，为对比度损失函数， Lcon表示每个样本的对比度损失，表示类别为j的样本的基准样本。 5.根据权利要求1所述的一种基于联邦学习的多站点医学数据分析方法，其特征在于，所述将各所述源站点模型和所述辅助模型进行聚合，得到目标模型，具体包括：基于各个源站点对应的目标站点伪标签的质量，对各所述源站点的质量进行评估，得到各源站点的联邦权重；采用加权平均策略对各源站点的所述联邦权重、各源站点模型以及所述辅助模型进行聚合，得到所述目标模型。 6.根据权利要求1所述的一种基于联邦学习的多站点医学数据分析方法，其特征在于，所述获取目标模型的模型参数对各所述源站点模型进行参数优化，得到优化后的源站点模型，具体包括：通过所述目标模型提取目标站点的特征，得到目标站点的特征向量；依次采用线性整流函数和哈希函数对所述目标站点的特征向量进行处理，得到目标非零分布向量；采用各源站点模型对各源站点进行特征提取，得到各源站点特征向量；计算所述目标非零分布向量和各源站点特征向量之间的MMD距离，并通过MMD损失函数对所述MMD距离进行优化；基于优化后的M MD距离，各源站点对自身模型参数进行优化。 7.一种基于联邦学习的多站点医学数据分析系统，其特征在于，所述系统包括：源站点模型确定单元，用于获取多个源站点数据集，并基于各个源站点数据集在本地学习得到多个源站点模型；所述源站点数据集包括若干样本数据；所述样本数据为划分为多个脑区的静息态功能磁共振成像图像；目标站点伪标签和源站点模型的预测值获取单元，用于将各个源站点模型的模型参数发送至目标站点，并获取各个源站点对应的目标站点数据集的伪标签和各个源站点模型的预测值；所述目标站点数据集的伪标签为根据源站点模型对目标站点数据集进行预测得到的预测结果；所述源站点模型的预测值为根据源站点模型对目标站点数据集进行预测得到的预测概率；所述预测结果表征静息态功能磁共振成像图像中各个脑区出现病变对于疾病的影响程度；辅助数据集确定单元，用于将各个所述源站点模型的预测值进行整合，得到源站点模型的预测值集合，并将所述源站点模型的预测值集合作为辅助数据集；辅助模型建立单元，用于搭建初始模型，并根据所述辅助数据集对所述初始模型进行训练，得到训练好的辅助模型；目标模型确定单元，用于将各所述源站点模型和所述辅助模型进行聚合，得到目标模型；权　利　要　求　书 2/3 页 3 CN 115310130 A 3

专利 一种基于联邦学习的多站点医学数据分析方法及系统

专利一种基于联邦学习的多站点医学数据分析方法及系统