(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210865150.3
(22)申请日 2022.07.22
(71)申请人 国网江西省电力有限公司信息通信
分公司
地址 330000 江西省南昌市青山湖区昌东
大道7077号科研通信楼821室
(72)发明人 褚红亮 余腾龙 彭谦 黄康
胡兵 胡潇 王璠
(74)专利代理 机构 北京众合诚成知识产权代理
有限公司 1 1246
专利代理师 王焕巧
(51)Int.Cl.
G06V 10/762(2022.01)
G06V 10/28(2022.01)
G06F 21/62(2013.01)
(54)发明名称
基于离群点检测的差分隐私直方图发布方
法及装置
(57)摘要
本发明涉及一种基于离群点检测的差分隐
私直方图发布方法及装置, 属于直方图数据发布
领域, 与现有技术相比解决了直方图数据发布中
离群点过多导致分组划分不准确, 进而导致发布
数据误差较大的问题。 本发明包括以下步骤: 噪
声扰动; 离群点 分组集合生成; K ‑means聚类分组
集合生成; 对离群点分组集合和K ‑means聚类分
组集合进行分组合并; 对合并后的分组集合求取
均值; 阈值处理; 最后, 恢复直方图顺序并得到待
发布的差分隐私直方图。 本发明能够有效地对直
方图进行合理划分, 降低了发布数据的误差, 在
满足差分隐私的前提下, 提升 了数据的可用性。
权利要求书3页 说明书6页 附图2页
CN 115082720 A
2022.09.20
CN 115082720 A
1.一种基于 离群点检测的差分隐私直方图发布方法, 其特 征在于, 包括以下步骤:
S1, 对原始直方图数据进行噪声扰动 后得到初始差分隐私直方图;
S2, 对初始差分隐私直方图离群点检测后得到离群点分组集合, 并将离群点从初始差
分隐私直方图中剔除;
S3, 对剔除离群点的差分隐私直方图进行 K‑means聚类得到K ‑means聚类分组集 合;
S4, 将离群点分组集合和K ‑means聚类分组集合合并后进行阈值处理后得到最终发布
的差分隐私直方图。
2.根据权利要求1所述的一种基于离群点检测的差分隐私直方图发布方法, 其特征在
于, S1中, 对原始直方图
添加大小为
的Laplace噪声, 形成初始差分隐
私直方图
, 其中:
表示原始直方图中 的桶;
表示含
噪声的桶;
为直方图中桶的总数, 并且原 始直方图与初始差分隐私直方图桶总数相同。
3.根据权利要求2所述的一种基于离群点检测的差分隐私直方图发布方法, 其特征在
于, S2中, 利用LOF离群点检测算法对初始差分隐私直方图进行离群点检测, 计算出每个数
据的局部离群因子, 将局部离群因子大于1的数据标记为一个单独的分组, 并入到离群点分
组集合中, 通过对初始差分隐私直方图进行离群点检测, 得到离群点分组集合
, 同时将检测出的离群点从初始差分隐私直方图中剔除 , 其中:
表示离群点分组集合中的分组, 并且这些分组由单个离群点桶组成;
表示离
群点分组数。
4.根据权利要求3所述的一种基于离群点检测的差分隐私直方图发布方法, 其特征在
于, 离群点分组集 合生成包括:
S2.1计算初始差分隐私直方图
中单个桶
的第
距离邻域内的第
可达距离
:
其中,
为邻域点
到
第
可达距离,
为邻域点
到
的真实距离;
S2.2计算
的局部可达密度:
其中,
为
点的第
距离邻域;
S2.3计算
的第
局部离群因子:
权 利 要 求 书 1/3 页
2
CN 115082720 A
2其中,
为邻域点
的局部可达密度;
S2.4将局部离群因子大于1的每个桶视为一个单独的分组, 划分到离群点分组中得到
离群点分组集 合
;
S2.5 将检测到的离群点从初始差分隐私直方图中剔除。
5.根据权利要求4所述的一种基于离群点检测的差分隐私直方图发布方法, 其特征在
于, S3中, 对剔除离群点的差分隐私直方图利用K ‑means进行最优聚类划分, 得到K ‑means聚
类分组集 合
, 具体包括
S3.1 设置
个聚类中心数,
;
S3.2在剔除离群点的差分隐私直方图数据中随机选取
个点得到中心点集合
, 其中:
表示集合中的所有中心点,
表示第
个中心点;
S3.3 利用得到的中心点集合
对剔除离群点的差分隐私直方图数据进
行K‑means聚类分组, 得到K ‑means聚类分组集 合
。
6.根据权利要求5所述的一种基于离群点检测的差分隐私直方图发布方法, 其特征在
于, S4中, 将离群点 分组集合
与K‑means聚类分组集合
进
行合并, 得到最终分组集 合
; 其中, 最终分组数为
。
7.根据权利要求6所述的一种基于离群点检测的差分隐私直方图发布方法, 其特征在
于, 将最终分组集 合
求取均值得到均值分组集 合
;
设置阈值
, 将
中小于
的数据作0处 理。
8.根据权利要求7所述的一种基于离群点检测的差分隐私直方图发布方法, 其特征在
于, 阈值处 理中,
,
, 是一个调节参数,
为直方图中桶的总数。
9.根据权利要求1所述的一种基于离群点检测的差分隐私直方图发布方法, 其特征在
于, 阈值处理后恢复原始直方图顺序得到降噪后的差分隐私直方图
, 即
为最终发布的差分隐私直方图;
其中:
表示降噪直方图的桶;
为直方图中桶的总数。
10.一种基于 离群点检测的差分隐私直方图发布装置, 其特征在于, 包括:
第一模块:被 配置为对原 始直方图数据进行噪声扰动 后得到初始差分隐私直方图;
第二模块:被配置为对初始差分隐私直方图离群点检测后得到离群点分组集合, 并将
离群点从初始差分隐私直方图中剔除;
第三模块:被配置为对剔除离群点的差分隐私直方图进行K ‑means聚类得到K ‑means聚
类分组集 合;权 利 要 求 书 2/3 页
3
CN 115082720 A
3
专利 基于离群点检测的差分隐私直方图发布方法及装置
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:52上传分享