(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210972939.9
(22)申请日 2022.08.15
(71)申请人 南京航空航天大 学
地址 210016 江苏省南京市江宁区将军路
29号
(72)发明人 朱旗 杨启鸣 王明明 邵伟
张道强
(74)专利代理 机构 北京高沃 律师事务所 1 1569
专利代理师 韩雪梅
(51)Int.Cl.
G06F 21/62(2013.01)
G16H 50/20(2018.01)
G16H 30/20(2018.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)
(54)发明名称
一种基于联邦学习的多站点医学数据分析
方法及系统
(57)摘要
本发明涉及一种基于联邦学习的多站点医
学数据分析方法及系统, 该方法包括: 根据多个
源站点数据集在本地学习得到多个源站点模型;
将各源站点模 型参数发送至目标站点, 获取各源
站点对应的目标站点数据集的伪标签和预测值,
将各预测值整合得到预测值集合, 并将该预测值
集合作为辅助数据集; 搭建初始模型, 根据辅助
数据集对初始模 型进行训练, 得到训练好的辅助
模型; 将各源站点模型和辅助模 型进行聚合得到
目标模型; 获取目标模型参数, 根据目标模型参
数对各源站点模 型进行参数优化, 得到优化后的
源站点模型; 优化后的源站点模 型用于对待测样
本数据进行医学分析。 本发明能够在避免隐私泄
露的前提下实现数据的共享, 并提高医学数据分
析的精度。
权利要求书3页 说明书10页 附图2页
CN 115310130 A
2022.11.08
CN 115310130 A
1.一种基于联邦学习的多站点医学 数据分析 方法, 其特 征在于, 所述方法包括:
获取多个源站点数据集, 并基于各个源站点数据集在本地学习得到多个源站点模型;
所述源站点数据集包括若干样本数据; 所述样本数据为划分为多个脑区的静息态功能磁共
振成像图像;
将各个源站点模型的模型参数发送至目标站点, 并获取各个源站点对应的目标站点数
据集的伪标签和各个源站点模型的预测值; 所述目标站 点数据集的伪标签为根据源站点模
型对目标站 点数据集进行预测得到的预测结果; 所述源站点模型的预测值为根据源站点模
型对目标站 点数据集进行预测得到的预测概率; 所述预测结果表征静息态功能磁共振成像
图像中各个脑区出现病变对于疾病的影响程度;
将各个所述源站点模型的预测值进行整合, 得到源站点模型的预测值集合, 并将所述
源站点模型的预测值 集合作为辅助数据集;
搭建初始模型, 并根据所述辅助数据集对所述初始模型进行训练, 得到训练好的辅助
模型;
将各所述源站点模型和所述辅助模型进行聚合, 得到目标模型;
获取目标模型的模型参数, 并根据 所述目标模型的模型参数对各所述源站点模型进行
参数优化, 得到优化后的源站点模型; 所述优化后的源站点模型用于对待测样本数据进行
医学分析。
2.根据权利要求1所述一种基于联邦学习的多站点医学数据分析方法, 其特征在于, 所
述搭建初始模型, 并根据所述辅助数据集对所述初始模型进行训练, 得到训练好的辅助模
型, 具体包括:
基于所述辅助数据集, 采用对比约束方法对所述初始模型进行训练, 直至损 失函数收
敛, 得到中间模型;
采用自步学习策略对所述中间模型进行优化, 得到所述训练好的辅助模型。
3.根据权利要求2所述的一种基于联邦学习的多站点医学数据分析方法, 其特征在于,
所述采用自步学习策略对所述中间模型进行优化, 具体包括:
采用可信度分数对目标站点数据集中的目标样本进行筛选, 得到可信度分数大于设定
阈值的目标样本, 根据可信度分数大于设定阈值的目标样本获得各个源站点模型的预测
值; 所述可信度分数由可信源站点的数量和目标站点数据集的伪标签的平均概 率确定;
结合目标站点伪标签和损失函数, 对目标函数进行优化, 得到最终 目标函数; 所述最终
目标函数用于对所述中间模型进行训练。
4.根据权利要求2所述的一种基于联邦学习的多站点医学数据分析方法, 其特征在于,
所述损失函数包括交叉熵损失函数和对比度损失函数; 其中, 所述交叉熵损失函数 的表达
式为:
Lcla(xi)=lc(‑log[FN+1(xi)],yi);
其中,
表示交叉熵损失函数, xi为目标站点的样本, i为目标站点的未标记样本的
编号, nt表示目标站点的未标记样本的数量, Lcla表示每个样本的分类损失, lc(·)表示交叉
熵损失, FN+1(xi)表示辅助模型的输出, yi表示目标站点中样本i的伪标签;权 利 要 求 书 1/3 页
2
CN 115310130 A
2所述对比度损失函数的表达式为:
其中,
为对比度损失函数, Lcon表示每个样本的对比度损失,
表示类别为j的
样本的基准样本 。
5.根据权利要求1所述的一种基于联邦学习的多站点医学数据分析方法, 其特征在于,
所述将各 所述源站点模型和所述辅助模型进行聚合, 得到目标模型, 具体包括:
基于各个源站点对应的目标站点伪标签的质量, 对各所述源站点的质量进行评估, 得
到各源站点的联邦 权重;
采用加权平均 策略对各源站点的所述联邦权重、 各源站点模型以及所述辅助模型进行
聚合, 得到所述目标模型。
6.根据权利要求1所述的一种基于联邦学习的多站点医学数据分析方法, 其特征在于,
所述获取目标模型的模型参数对各所述源站 点模型进 行参数优化, 得到优化后的源站点模
型, 具体包括:
通过所述目标模型提取目标站点的特 征, 得到目标站点的特 征向量;
依次采用线性整流函数和哈希函数对所述目标站点的特征向量进行处理, 得到目标非
零分布向量;
采用各源站点模型对各源站点进行 特征提取, 得到各源站点特 征向量;
计算所述目标非零分布向量和各源站点特征向量之间的MMD距离, 并通过MMD损失函数
对所述MMD距离进行优化;
基于优化后的M MD距离, 各源站点对自身模型参数进行优化。
7.一种基于联邦学习的多站点医学 数据分析系统, 其特 征在于, 所述系统包括:
源站点模型确定单元, 用于获取多个源站点数据集, 并基于各个源站点数据集在本地
学习得到多个源站点模型; 所述源站点数据集包括若干样本数据; 所述样本数据为划分为
多个脑区的静息态 功能磁共 振成像图像;
目标站点伪标签和源站点模型的预测值获取单元, 用于将各个源站点模型的模型参数
发送至目标站点, 并获取各个源站 点对应的目标站 点数据集的伪标签和各个源站点模型的
预测值; 所述目标站 点数据集的伪标签为根据源站 点模型对目标站 点数据集进行预测得到
的预测结果; 所述源站 点模型的预测值为根据源站 点模型对目标站 点数据集进行预测得到
的预测概率; 所述预测结果表征静息态功能磁共振成像图像中各个脑区出现病变对于疾病
的影响程度;
辅助数据集确定单元, 用于将各个所述源站点模型的预测值进行整合, 得到源站点模
型的预测值 集合, 并将所述源站点模型的预测值 集合作为辅助数据集;
辅助模型建立单元, 用于搭建初始模型, 并根据所述辅助数据集对所述初始模型进行
训练, 得到训练好的辅助模型;
目标模型确定单元, 用于将各所述源站点模型和所述辅助模型进行聚合, 得到目标模
型;权 利 要 求 书 2/3 页
3
CN 115310130 A
3
专利 一种基于联邦学习的多站点医学数据分析方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:36上传分享