专利 基于竞争机制的区块链上医疗数据协同分析方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 20221082583 0.2 (22)申请日 2022.07.14 (65)同一申请的已公布的文献号申请公布号 CN 114912136 A (43)申请公布日 2022.08.16 (73)专利权人之江实验室地址 310023 浙江省杭州市余杭区文一西路1818号人工智能小镇10号楼 (72)发明人李冠男　李劲松　陈松　陆遥　田雨　周天舒　 (74)专利代理机构杭州求是专利事务所有限公司 33200 专利代理师刘静 (51)Int.Cl. G06F 21/60(2013.01) G06F 21/62(2013.01) G16H 10/60(2018.01)(56)对比文件 CN 114580009 A,202 2.06.03 WO 2021185197 A1,2021.09.23 CN 112949865 A,2021.0 6.11 CN 113204787 A,2021.08.0 3 CN 112784994 A,2021.0 5.11 CN 114186263 A,2022.03.15 田志浩.机器学习远程并行训练算法研究. 《硕士电子期刊出版信息》 .2020, Lei Zhao etc. .Towards Co operative Caching for Vehicular Netw orks with Multi-level F ederated Rei nforcement Learning. 《IEEE》 .2021, 贾延延等.联邦学习模型在涉密数据处理中的应用. 《中国电子科学研究院学报》 .2020,(第 01期), 审查员岳孟果 (54)发明名称基于竞争机制的区块链上医疗数据协同分析方法及系统 (57)摘要本发明公开了一种基于竞争机制的区块链上医疗数据协同分析方法及系统，本发明通过引入纵向联邦学习，实现了数据不出机构即可进行模型构建，解决了在线学习模型训练方向错误的问题，因而能够构建更为准确的医疗预测模型，对特征纵向分布的数据集进行了更好的利用。本发明通过引入竞争机制，不同节点将通过样本的数据特征贡献值计算出相应的权重，并以此来争抢数据汇总权和模型梯度更新权。本发明能够根据样本的特征分布对协调方进行调整，从而能够对特征分布不固定的数据集进行更好的利用。权利要求书3页说明书13页附图3页 CN 114912136 B 2022.10.28 CN 114912136 B 1.一种基于竞争机制的区块链上医疗数据协同分析方法，其特征在于，包括以下步骤： S1，各医疗机构作为区块链节点，作为发起方的医疗机构设定研究筛选条件，在本地生成患者队列，将患者队列中的患者身份信息通过哈希加密后上链； S2，作为参与方的医疗机构接收到发起方广播的患者身份信息后，在本地进行患者匹配识别，将匹配出的本地患者的统计信息返回给发起方； S3，发起方确认参与方返回的信息满足研究要求后，参与方进行本地数据准备； S4，将全局模型参数进行随机初始化，各节点根据初始化参数计算本地数据所有特征对于全局模型的贡献值，将贡献值视为信息素浓度，根据蚁群算法得到初始协调方；所述贡献值的计算方法如下：计算各节点中当前批次本地数据的不同特征对于全局模型参数梯度的影响，M为全局模型总特征个数，各节点计算所有特征对于全局模型的贡献值； S5，各节点依据本地数据特征分布情况进行批次划分，并将当前批次数据进行同态加密后上链； S6，协调方收到其他节点的加密数据后进行数据整合对齐，利用对齐后的加密数据进行当前批次的模型训练，将训练得到的密文上链； S7，各节点根据链上密文进行本地解密，将解密结果广播到协调方，协调方收到各节点的本地解密结果后，进行全局解密得到全局模型参数梯度并上链； S8，各节点根据链上全局模型参数梯度进行本地模型的梯度更新，并更新信息素浓度后广播到协调方；各节点更新信息素浓度的公式如下：其中K为节点总数，分别为当前批次和下一批次节点的信息素浓度，为下一批次节点样本的贡献值，为当前批次节点样本的贡献值，为0或1，若当前批次节点为协调方则，否则； S9，当前批次协调方根据各节点信息素浓度得到下一批次协调方并上链，完成当前批次的协同分析，返回S5进行下一批次的协同分析。 2.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法，其特征在于，所述发起方对于患者数据中身份信息唯一无歧义标识、身份信息有差异标识分别采用 SHA‑256、 SimHash加密算法进行哈希散列；在患者身份信息转换为哈希值之后，为哈希值进行分组，依据识别患者强弱的程度授予不同权重；每个患者在本地对应一个作为患者身份标识的哈希值组。 3.根据权利要求2所述的基于竞争机制的区块链上医疗数据协同分析方法，其特征在于，所述患者匹配识别具体为：参与方将发起方广播的哈希值组与本地数据生成的哈希值组进行比对，采用字符串相似度计算方法，将发起方特定患者哈希值组中的项目与本地患者哈希值组中的对应项目进权　利　要　求　书 1/3 页 2 CN 114912136 B 2行计算排序，给予本地每个患者的每个项目相似度百分比；将本地患者哈希值组中的项目相似度进行加权求和，得到本地每个患者的相似度分数并与阈值比较，判断是否匹配成功，将匹配成功后相似度分数最高的本地患者的统计信息返回给发起方。 4.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法，其特征在于， S3中，参与方进行本地数据准备具体为：各节点将待研究患者数据矩阵化为原始数据集，其中为输入样本矩阵， T表示转置操作， n为本地样本量，为输入特征向量， M为全局模型总特征个数，样本的特征按顺序排列，并且X中样本依特征的存在情况进行排序；为n个样本的诊断标签，代表第i个样本的标签在该节点不存在；代表第i个样本的真实标签数据。 5.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法，其特征在于， S5中，采用基于多秘钥全同态加密的安全多方计算方法进行数据加密。 6.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法，其特征在于， S6中，数据整合对齐及训练具体为：对于各节点，K为节点总数，设节点的本地数据集为，且各节点的本地数据集总特征数为M，所有本地数据集中样本取并集后总数为 N；协调方在收到其他 K‑1个节点的加密数据后进行数据整合对齐，设第 i批次整合对齐后的数据集为，数据集中的样本数为，；之后协调方进行第 i批次的模型训练，将待训练模型的假设函数记为，在训练过程中最终目标为最小化损失函数 Loss ，并将复杂运算通过泰勒展开化简为满足同态加密对密文运算要求的基本运算，训练得到密文。 7.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法，其特征在于，在协调方进行模型训练时，其他节点处于空闲状态，此时由其他节点使用下一批次样本计算下一批次信息素浓度，从而竞争出下一批次协调方，且提前进行加密数据的传输工作；根据不同待训练模型，为信息素浓度设置不同阈值，若节点的某批次信息素浓度大于阈值，则该节点在下一批次将不会竞争为协调方。 8.根据权利要求1所述的基于竞争机制的区块链上医疗数据协同分析方法，其特征在于，当前批次协调方全局解密后，得到全局模型参数梯度并上链；此时已竞争出下一批次协调方，下一批次非协调方无需进行梯度更新，只需下一批次协调方根据链上的全局模型参数梯度进行本地模型的梯度更新，并以此来进行下一批次的模型训练；各节点在本地训练的空闲时间将链上的全局模型参数梯度保存到本地，进行本地模型的梯度更新。 9.一种实现如权利要求1 ‑8中任一项所述方法的基于竞争机制的区块链上医疗数据协同分析系统，其特征在于，包括数据预处理模块、区块链框架模块、联邦学习模块、数据加密权　利　要　求　书 2/3 页 3 CN 114912136 B 3

专利 基于竞争机制的区块链上医疗数据协同分析方法及系统

专利基于竞争机制的区块链上医疗数据协同分析方法及系统