(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210792299.3
(22)申请日 2022.07.05
(71)申请人 东北大学
地址 110169 辽宁省沈阳市和平区文化路3
号
(72)发明人 易波 钟琪 高世昌 白经纬
程子秋 何强
(74)专利代理 机构 沈阳优普达知识产权代理事
务所(特殊普通 合伙) 21234
专利代理师 陈曦
(51)Int.Cl.
G06K 9/62(2022.01)
G06F 21/62(2013.01)
(54)发明名称
一种基于改进ID3决策树的敏感数据分类方
法
(57)摘要
本发明的一种基于改进ID3决策树的敏感数
据分类方法, 包括: 步骤1: 采集具有相同条件属
性的敏感数据构成样本数据集合, 将样本数据集
合按照一定比例划分为样本训练集和样本测试
集, 并进行数据预处理; 步骤2: 基于信息增益理
论, 选出样 本训练集中的样本数据的具有最大加
权信息增益的条件属性; 步骤3: 以具有最大加权
信息增益的条件属性作为决策树的分裂节点属
性, 构建改进 ID3决策树并进行模型验证; 步骤4:
利用改进ID3决策树进行敏感数据分类。 本发明
通过改进ID3决策树模型对敏感数据进行分类,
改进ID3决策树模型在保持简明结构的同时也能
够很好地综合多方面的数据特征来决策数据最
后的分类, 且具有较高的准确性。
权利要求书3页 说明书7页 附图1页
CN 115018007 A
2022.09.06
CN 115018007 A
1.一种基于改进ID3决策树的敏感数据分类方法, 其特 征在于, 包括:
步骤1: 采集具有相同条件属性的敏感数据构 成样本数据集合, 将样本数据集合按照一
定比例划分为样本训练集和样本测试集, 并进行 数据预处 理;
步骤2: 基于信 息增益理论, 选出样本训练集中的样本数据的具有最大加权信 息增益的
条件属性;
步骤3: 以具有最大加权信息增益的条件属性作为决策树的分裂节点属性, 构建改进
ID3决策树并进行模型验证;
步骤4: 利用改进ID3决策树进行 敏感数据分类。
2.如权利要求1所述的基于改进ID3决策树的敏感数据分类方法, 其特征在于, 所述步
骤1具体为:
步骤1.1: 采集具有相同条件属性的敏感数据构成样本数据集合, 每条敏感数据都已具
有敏感等级标签, 具体包括四个敏感等级: 公开数据、 外部敏感、 内部部门间敏感和内部部
门内敏感数据;
步骤1.2: 按照7:3的比例将 样本数据集 合划分为样本训练集和样本测试集;
步骤1.3: 将样本训练集和样本测试集中的敏感数据的非数值型的属性值转化为数值
型特征参数属性 值;
步骤1.4: 将敏感等级作为决策属性, 则四个敏感等级: 公开数据、 外部敏感、 内部部门
间敏感和内部部门内敏感数据分别为决策属性的一个属性值, 将决策属性的文本型属性值
转化为数值型属性 值。
3.如权利要求2所述的基于改进ID3决策树的敏感数据分类方法, 其特征在于, 所述步
骤2具体为:
步骤2.1: 计算样本训练集依据某个条件属性进行划分前后的信息熵变化值, 即为该条
件属性的信息增益;
步骤2.2: 引入属性权值, 对每 个条件属性的信息增益进行加权;
步骤2.3: 选出样本训练集中的样本数据的具有最大加权信息增益的条件属性。
4.如权利要求1所述的基于改进ID3决策树的敏感数据分类方法, 其特征在于, 所述步
骤2.1具体根据下式计算信息增益:
Gain(B)=Ent(D) ‑EntB(D) (1)
其中, Gain(B)为依据条件属性B进行划 分的信息增益, Ent(D)为按照属性划 分前的样
本训练集D的信息熵; EntB(D)为按属性B划分后的各样本训练子集的信息熵的加权和;
其中, m为样本训练集D中决策属性Ad的属性值个数; pi为决策属性Ad中的某个属性值在
决策属性Ad中出现的概 率;
设经过条件属性B划分后生成了n个样本训练子集Dj(j=1,2, ..., n), 各样本训练子集
所包含的数据条 数分别为s1, s2, ..., sn, 则EntB(D)根据下式计算:
权 利 要 求 书 1/3 页
2
CN 115018007 A
2其中, Ent(Dj)为样本训练子集Dj的信息熵, μj为各样本训练子集的信息熵的加权系数。
5.如权利要求4所述的基于改进ID3决策树的敏感数据分类方法, 其特征在于, 所述步
骤2.2具体为:
步骤2.2.1: 设Bq为一个条件属性, 具有k个属性值, 其中q=1 ……N, N为样本 数据所具有
的条件属性的总数; Ad为决策属性, 具有m个属性值; 根据下式计算条件属性Bq和决策属性Ad
的相关系数ρ(Bq,Ad):
其中, cov(Bq,Ad)为Bq与Ad的协方差, D(Bq)为Bq的方差, D(Ad)为Ad的方差;
cov(Bq,Ad)=E[BqAd]‑E[Bq]E[Ad] (6)
其中, E[Bq], E[Ad]分别为Bq与Ad的期望;
步骤2.2.2: 根据下式计算条件属性Bq对决策属性Ad的相关性权值:
步骤2.2.3: 将式(1)经 过属性加权后改进为式(9):
其中, Gai n(Bq)为条件属性Bq加权后的信息增益。
6.如权利要求5所述的基于改进ID3决策树的敏感数据分类方法, 其特征在于, 所述步
骤2.3具体为:
依据步骤2.2计算的每个条件属性加权后的信息增益, 选取加权后的信息增益最大的
条件属性:
其中, Bo为加权后的信息增益最大的条件属性, Gain(Bo)为条件属性Bo经属性加权后的
信息增益。
7.如权利要求1所述的基于改进ID3决策树的敏感数据分类方法, 其特征在于, 所述步
骤3具体为:
步骤3.1: 构造节点: 按照步骤2得到具有最大加权信息增益的条件属性, 将其作 为当前
所有非叶节点的分裂属性;
步骤3.2.创建分支: 对步骤3.1中所选取的条件属性中的每一个属性值创建一个分支,
然后划分数据样本;
步骤3.3.进行迭代: 除去已选取的作为分裂属性的条件属性外, 在剩余条件属性中重权 利 要 求 书 2/3 页
3
CN 115018007 A
3
专利 一种基于改进ID3决策树的敏感数据分类方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:35:04上传分享