(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211318992.3
(22)申请日 2022.10.26
(71)申请人 长沙先领医药科技有限公司
地址 410000 湖南省长 沙市高新 开发区麓
天路28号金瑞麓谷科技园C10栋4层
401房
(72)发明人 刘晓靖 吴富璇 徐梦颖 刘利思
张彩毫 刘漫琳 田超颖 杨钰琪
(74)专利代理 机构 深圳中一联合知识产权代理
有限公司 4 4414
专利代理师 张良
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/332(2019.01)
G06F 16/36(2019.01)G06F 21/60(2013.01)
(54)发明名称
一种可搜索加密的方法、 装置、 电子设备及
存储介质
(57)摘要
本申请提供了一种可搜索加密的方法、 装
置、 电子设备及存储介质, 方法包括: 供应端获取
第一文档集, 第一文档集包括多个文档以及对应
的特征关键词词集, 特征关键词词集包括表征文
档的特征的预设数据属性的多个第一关键词, 基
于第一文档集的各文档与各第一关键词构建联
合关键词词典, 联合关键词词典包括多个第二关
键词, 基于任一个第二关键词中各第一关键词的
第一相关度数值, 确定任一个第二关键词的第二
相关度数值, 确定各文档对应的加密索引向量及
加密获得对应的密文文档, 并都传送至云服务
器, 终端请求进行关键词的查询, 云服务器返回
与关键词的第二相关度数值靠前的文档, 降低了
索引和查询的开销, 且同时提高了结果的准确
度。
权利要求书3页 说明书14页 附图5页
CN 115391492 A
2022.11.25
CN 115391492 A
1.一种可搜索加密的方法, 应用于供应端, 其特 征在于, 包括:
获取第一文档集, 所述第 一文档集包括临床试验的多个文档以及与 各所述文档对应的
特征关键词词集, 所述特征关键词词集包括表征所述文档的特征的预设数据属性的多个第
一关键词, 所述预设数据属性的数量小于或者 等于第一预设阈值;
基于所述第 一文档集的各所述文档与各所述第 一关键词构建联合关键词词典, 所述联
合关键词词典包括多个第二关键词, 所述第二关键词为将预设数量的所述第一关键词联合
形成的联合关键词 词集, 所述预设数量小于或者 等于所述第一预设阈值;
基于任一个所述第二关键词、 所述第二关键词中各所述第一关键词的第一相关度数
值, 确定任一个所述第二关键词 与对应的一个或多个所述文档的第二相关度数值, 其中, 所
述第一相关度数值表征任一个所述第一关键词与所述第一关键词 所在的所述文档的相关
度, 所述第二相关度数值表征任一个所述第二关键词 与所述第二关键词中各所述第一关键
词所在的一个或多个所述文档的相关度;
基于每个所述文档对应的所述特征关键词词集、 各所述第 二关键词与 各所述第 二相关
度数值确定各 所述文档对应的加密 索引向量;
采用第一对称密钥对各 所述文档进行加密获得对应的各密文 文档;
将各所述加密 索引向量以及各 所述密文 文档传送至云服 务器。
2.如权利要求1所述的方法, 其特征在于, 基于任一个所述第二关键词、 所述第二关键
词中各所述第一关键词的第一相关度数值, 确定任一个所述第二关键词与对应的一个或多
个所述文档的第二相关度数值, 包括:
获取各所述第一关键词的所述第一相关度数值;
基于所述文档的所述特征关键词词集与 所述联合关键词词典, 获得所述文档对应的所
述第一关键词所属的所述第二关键词;
基于所述第 二关键词的各所述第 一关键词的所述第 一相关度数值之和, 确定任一个所
述第二关键词与对应的一个或多个所述文档的第二相关度数值。
3.如权利要求2所述的方法, 其特征在于, 获取任一个所述第 一关键词的所述第 一相关
度数值, 包括:
基于任一个所述第一关键词的数据属性权重、 缩放调 节系数、 所述文档的长度、 所述第
一文档集的各所述文档的平均长度、 所述第一关键词的词频、 所述第一关键词的反词频, 采
用第一相关度数值计算式确定任一个所述第一关键词与对应的所述文档的第一相关度数
值。
4.如权利要求3所述的方法, 其特 征在于, 所述第一相关度数值计算式为:
其中,Y (gi,b, Fi)为所述第一关键词 gi,b与对应的所述文档 Fi的所述第一相关度数值;
gi,b为所述联合关键词词典中第 i个所述第二关键词的第 b个所述第一关键词, 1≦ i且i
为正整数, 1≦ b≦T1且b为整数,T1为所述第一预设阈值;
Fi为所述第一文档集中第 i个所述文档;权 利 要 求 书 1/3 页
2
CN 115391492 A
2TF为所述第一关键词 gi,b的词频;IDF为所述第一关键词 gi,b的反词频;
α为所述第一关键词 gi,b的数据属性的权 重;
β为缩放调节系数;
L为所述文档 Fi的长度;
Lavg为所述第一文档集的各 所述文档的平均长度。
5.如权利要求1所述的方法, 其特征在于, 所述预设数据属性包括药物名称、 方案名称、
试验时间、 第一 姓名、 第二 姓名、 试验阶段、 试验效果、 试验地 点、 组织名称中至少一个。
6.如权利要求1至5中任一项所述的方法, 其特征在于, 所述基于每个所述文档对应的
所述特征关键词词集、 各所述第二关键词 与各所述第二相关度数值确定各所述文档对应的
加密索引向量, 包括:
基于所述文档对应的所述特征关键词词集、 各所述第 二关键词与各所述第 二相关度 数
值, 确定所述文档对应的索引向量, 其中, 所述索引向量的每个维度的值为所述第二相关度
数值;
基于各所述文档对应的所述索引向量构建所述第一文档集的索引结构;
采用第二对称密钥加密所述索引结构的所述索引向量形成各所述文档对应的加密索
引向量。
7.一种可搜索加密的装置, 其特 征在于, 包括:
第一获取模块, 用于获取第一文档集, 所述第一文档集包括临床试验的多个文档以及
与各所述文档对应的特征关键词词集, 所述特征关键词词集包括表征所述文档的特征的预
设数据属性的多个第一关键词, 所述预设数据属性的数量小于或者 等于第一预设阈值;
构建模块, 用于基于所述第 一文档集的各所述文档与 各所述第 一关键词构建联合关键
词词典, 所述联合关键词词典包括多个第二关键词, 所述第二关键词为将预设数量的所述
第一关键词联合形成的联合关键词 词集, 所述预设数量小于或者 等于所述第一预设阈值;
第二获取模块, 用于基于任一个所述第二关键词、 所述第二关键词中各所述第一关键
词的第一相关度数值, 确定任一个所述第二关键词 与对应的一个或多个所述文档的第二相
关度数值, 其中, 所述第一相关度数值表征任一个所述第一关键词与所述第一关键词 所在
的所述文档的相关度, 所述第二相关度数值表征任一个所述第二关键词与所述第二关键词
中各所述第一关键词所在的一个或多个所述文档的相关度;
第一加密模块, 用于基于每个所述文档对应的所述特征关键词词集、 各所述第二关键
词与各所述第二相关度数值确定各 所述文档对应的加密 索引向量;
第二加密模块, 用于采用第一对称密钥对各所述文档进行加密获得对应的各密文文
档;
第一发送模块, 用于将所述加密 索引向量以及各 所述密文 文档传送至云服 务器。
8.一种可搜索加密的系统, 其特征在于, 包括供应端、 终端和云服务器, 其中, 所述供应
端用于执 行上述权利要求1至 6中任一项所述的方法;
其中, 所述终端被配置为: 用于向所述云服务器发送加密查询向量和待返回的密文文
档数量, 其中, 加密查询向量为采用第二对称密钥对待查询关键词的查询向量进行加密而
形成; 接收所述云服务器返回的查询结果, 所述查询结果包括所述密文文档数量的多个密
文文档, 各所述密文文档为与所述待查询关键词的所述第二相关度数值大于或者等于第二权 利 要 求 书 2/3 页
3
CN 115391492 A
3
专利 一种可搜索加密的方法、装置、电子设备及存储介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-24 00:44:53上传分享