(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 20221082583 0.2
(22)申请日 2022.07.14
(65)同一申请的已公布的文献号
申请公布号 CN 114912136 A
(43)申请公布日 2022.08.16
(73)专利权人 之江实验室
地址 310023 浙江省杭州市余杭区文一西
路1818号人工智能小镇10号楼
(72)发明人 李冠男 李劲松 陈松 陆遥
田雨 周天舒
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 刘静
(51)Int.Cl.
G06F 21/60(2013.01)
G06F 21/62(2013.01)
G16H 10/60(2018.01)(56)对比文件
CN 114580009 A,202 2.06.03
WO 2021185197 A1,2021.09.23
CN 112949865 A,2021.0 6.11
CN 113204787 A,2021.08.0 3
CN 112784994 A,2021.0 5.11
CN 114186263 A,2022.03.15
田志浩.机 器学习远程并行训练算法研究.
《硕士电子期刊出版信息》 .2020,
Lei Zhao etc. .Towards Co operative
Caching for Vehicular Netw orks with
Multi-level F ederated Rei nforcement
Learning. 《IEEE》 .2021,
贾延延等.联邦学习模型在涉密数据处 理中
的应用. 《中国电子科 学研究院学报》 .2020,(第
01期),
审查员 岳孟果
(54)发明名称
基于竞争机制的区块链上医疗数据协同分
析方法及系统
(57)摘要
本发明公开了一种基于竞争机制的区块链
上医疗数据协同分析方法及系统, 本发明通过引
入纵向联邦学习, 实现了数据不出机构即可进行
模型构建, 解决了在线学习模型训练方向错误的
问题, 因而能够构建更为准确的医疗预测模型,
对特征纵向分布的数据集进行了更好的利用。 本
发明通过引入竞争机制, 不同节 点将通过样本的
数据特征贡献值计算出相应的权重, 并以此来争
抢数据汇总权和模型梯度更新权。 本发明能够根
据样本的特征分布对协调方进行调整, 从而能够
对特征分布不固定的数据集进行 更好的利用。
权利要求书3页 说明书13页 附图3页
CN 114912136 B
2022.10.28
CN 114912136 B
1.一种基于竞争机制的区块链上医疗数据协同分析 方法, 其特 征在于, 包括以下步骤:
S1, 各医疗机构作为区块链节点, 作为发起方的医疗机构设定研究筛选条件, 在本地生
成患者队列, 将患者队列中的患者身份信息通过哈希加密后上链;
S2, 作为参与方的医疗机构接收到发起方广播的患者身份信息后, 在本地进行患者匹
配识别, 将匹配出的本地患者的统计信息返回给发起方;
S3, 发起方确认参与方返回的信息满足研究要求后, 参与方进行本地数据准备;
S4, 将全局模型参数进行随机初始化, 各节点根据初始化参数计算本地数据所有特征
对于全局模型的贡献值, 将贡献值视为信息素浓度, 根据蚁群算法得到初始协调方; 所述贡
献值的计算方法如下: 计算各节点中当前批次本地数据的不同特征
对于全局模型参数
梯度
的影响
,M为全局模型总特征个数, 各节点计算所有特征对于全
局模型的贡献值
;
S5, 各节点依据本地数据特征分布情况进行批次划分, 并将当前批次数据进行同态加
密后上链;
S6, 协调方收到其他节点的加密数据后进行数据整合对齐, 利用对齐后的加密数据进
行当前批次的模型训练, 将训练得到的密文上链;
S7, 各节点根据链上密文进行本地解密, 将解密结果广播到协调方, 协调方收到各节点
的本地解密结果后, 进行全局解密得到全局模型参数梯度并上链;
S8, 各节点根据链上全局模型参数梯度进行本地模型的梯度更新, 并更新信息素浓度
后广播到协调方; 各节点
更新信息素浓度
的公式如下:
其中K为节点总数,
分别为当前批次和下一批次节点
的信息素浓度,
为下
一批次节点
样本的贡献值,
为当前批次节点
样本的贡献值,
为0或1, 若当前批次
节点
为协调方则
, 否则
;
S9, 当前批次协调方根据各节点信息素浓度得到下一批次协调方并上链, 完成当前批
次的协同分析, 返回S5进行 下一批次的协同分析。
2.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法, 其特征在
于, 所述发起方对于患者数据中身份信息唯一无歧义标识、 身份信息有差异标识分别采用
SHA‑256、 SimHash加密算法进行哈希散列; 在患者身份信息转换为哈希值之后, 为哈希 值进
行分组, 依据识别患者强弱的程度授予不同权重; 每个患者在本地对应一个作为患者身份
标识的哈希值组。
3.根据权利要求2所述的基于竞争机制的区块链上医疗数据协同分析方法, 其特征在
于, 所述患者匹配识别具体为:
参与方将发起方广播的哈希值组与本地数据生成的哈希值组进行比对, 采用字符串相
似度计算方法, 将发起方特定患者哈希值组中的项目与本地患者哈希值组中的对应项目进权 利 要 求 书 1/3 页
2
CN 114912136 B
2行计算排序, 给予本地每个患者的每个项目相似度百分比; 将本地患者哈希值组中的项目
相似度进 行加权求和, 得到本地每个患者的相似度分数并与阈值比较, 判断是否匹配成功,
将匹配成功后相似度分数最高的本地患者的统计信息返回给发起方。
4.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法, 其特征在
于, S3中, 参与方进行本地数据准备 具体为:
各节点将待研究患者数据矩阵化 为原始数据集
, 其中
为输入样本矩阵 , T表示转置操作 , n为本地样本量 ,
为输入特征向量, M为全局模型总特征个数, 样本的特征按顺序排
列, 并且X中样本依特 征的存在情况进行排序;
为n个样本的诊断标签,
代表第i个样本的
标签在该节点 不存在;
代表第i个样本的真实标签数据。
5.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法, 其特征在
于, S5中, 采用基于多秘钥全同态加密的安全多方计算方法进行 数据加密。
6.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法, 其特征在
于, S6中, 数据整合对齐及训练具体为:
对于各节点
,K为节点总数, 设节点
的本地数据集为
, 且各节点的
本地数据集总特 征数为M, 所有本地数据集中样本取并集后总数为 N;
协调方在收到其他 K‑1个节点的加密数据后进行数据整合对齐, 设第 i批次整合对齐后
的数据集 为
, 数据集
中的样本数为
,
;
之后协调方进行第 i批次的模型训练, 将待训练模型的假设函数记为
, 在训练过
程中最终目标为最小化损失函数 Loss
, 并将复杂运算通过泰勒展开化简为满足同态加
密对密文运 算要求的基本运 算, 训练得到密文。
7.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法, 其特征在
于, 在协调方进行模 型训练时, 其他节点处于空闲状态, 此时由其他节点使用下一批次样本
计算下一批次信息素浓度, 从而竞争出 下一批次协调方, 且提前进行加密数据的传输 工作;
根据不同待训练模型, 为信息素浓度设置不同阈值
, 若节点
的某批次信息素浓度
大于阈值
, 则该节点在下一批次将不会竞争为协调方。
8.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法, 其特征在
于, 当前批次协调方全局解密后, 得到全局模型参数梯度并上链; 此时已竞争出下一批次协
调方, 下一批次非协调 方无需进行梯度更新, 只需下一批次协调 方根据链上 的全局模型参
数梯度进行本地模型 的梯度更新, 并以此来进行下一批次的模型训练; 各节点在本地训练
的空闲时间将链上的全局模型参数梯度保存到 本地, 进行本地模型的梯度更新。
9.一种实现如权利要求1 ‑8中任一项所述方法的基于竞争机制的区块链上医疗数据协
同分析系统, 其特征在于, 包括数据预 处理模块、 区块链框架模块、 联邦学习模块、 数据加密权 利 要 求 书 2/3 页
3
CN 114912136 B
3
专利 基于竞争机制的区块链上医疗数据协同分析方法及系统
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:58上传分享