专利 一种基于改进ID3决策树的敏感数据分类方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210792299.3 (22)申请日 2022.07.05 (71)申请人东北大学地址 110169 辽宁省沈阳市和平区文化路3 号 (72)发明人易波　钟琪　高世昌　白经纬　程子秋　何强　 (74)专利代理机构沈阳优普达知识产权代理事务所(特殊普通合伙) 21234 专利代理师陈曦 (51)Int.Cl. G06K 9/62(2022.01) G06F 21/62(2013.01) (54)发明名称一种基于改进ID3决策树的敏感数据分类方法 (57)摘要本发明的一种基于改进ID3决策树的敏感数据分类方法，包括：步骤1：采集具有相同条件属性的敏感数据构成样本数据集合，将样本数据集合按照一定比例划分为样本训练集和样本测试集，并进行数据预处理；步骤2：基于信息增益理论，选出样本训练集中的样本数据的具有最大加权信息增益的条件属性；步骤3：以具有最大加权信息增益的条件属性作为决策树的分裂节点属性，构建改进 ID3决策树并进行模型验证；步骤4：利用改进ID3决策树进行敏感数据分类。本发明通过改进ID3决策树模型对敏感数据进行分类，改进ID3决策树模型在保持简明结构的同时也能够很好地综合多方面的数据特征来决策数据最后的分类，且具有较高的准确性。权利要求书3页说明书7页附图1页 CN 115018007 A 2022.09.06 CN 115018007 A 1.一种基于改进ID3决策树的敏感数据分类方法，其特征在于，包括：步骤1：采集具有相同条件属性的敏感数据构成样本数据集合，将样本数据集合按照一定比例划分为样本训练集和样本测试集，并进行数据预处理；步骤2：基于信息增益理论，选出样本训练集中的样本数据的具有最大加权信息增益的条件属性；步骤3：以具有最大加权信息增益的条件属性作为决策树的分裂节点属性，构建改进 ID3决策树并进行模型验证；步骤4：利用改进ID3决策树进行敏感数据分类。 2.如权利要求1所述的基于改进ID3决策树的敏感数据分类方法，其特征在于，所述步骤1具体为：步骤1.1：采集具有相同条件属性的敏感数据构成样本数据集合，每条敏感数据都已具有敏感等级标签，具体包括四个敏感等级：公开数据、外部敏感、内部部门间敏感和内部部门内敏感数据；步骤1.2：按照7:3的比例将样本数据集合划分为样本训练集和样本测试集；步骤1.3：将样本训练集和样本测试集中的敏感数据的非数值型的属性值转化为数值型特征参数属性值；步骤1.4：将敏感等级作为决策属性，则四个敏感等级：公开数据、外部敏感、内部部门间敏感和内部部门内敏感数据分别为决策属性的一个属性值，将决策属性的文本型属性值转化为数值型属性值。 3.如权利要求2所述的基于改进ID3决策树的敏感数据分类方法，其特征在于，所述步骤2具体为：步骤2.1：计算样本训练集依据某个条件属性进行划分前后的信息熵变化值，即为该条件属性的信息增益；步骤2.2：引入属性权值，对每个条件属性的信息增益进行加权；步骤2.3：选出样本训练集中的样本数据的具有最大加权信息增益的条件属性。 4.如权利要求1所述的基于改进ID3决策树的敏感数据分类方法，其特征在于，所述步骤2.1具体根据下式计算信息增益： Gain(B)＝Ent(D) ‑EntB(D) (1) 其中， Gain(B)为依据条件属性B进行划分的信息增益， Ent(D)为按照属性划分前的样本训练集D的信息熵； EntB(D)为按属性B划分后的各样本训练子集的信息熵的加权和；其中， m为样本训练集D中决策属性Ad的属性值个数； pi为决策属性Ad中的某个属性值在决策属性Ad中出现的概率；设经过条件属性B划分后生成了n个样本训练子集Dj(j＝1,2， ...， n)，各样本训练子集所包含的数据条数分别为s1， s2， ...， sn，则EntB(D)根据下式计算：权　利　要　求　书 1/3 页 2 CN 115018007 A 2其中， Ent(Dj)为样本训练子集Dj的信息熵， μj为各样本训练子集的信息熵的加权系数。 5.如权利要求4所述的基于改进ID3决策树的敏感数据分类方法，其特征在于，所述步骤2.2具体为：步骤2.2.1：设Bq为一个条件属性，具有k个属性值，其中q＝1 ……N， N为样本数据所具有的条件属性的总数； Ad为决策属性，具有m个属性值；根据下式计算条件属性Bq和决策属性Ad 的相关系数ρ(Bq,Ad)：其中， cov(Bq,Ad)为Bq与Ad的协方差， D(Bq)为Bq的方差， D(Ad)为Ad的方差； cov(Bq,Ad)＝E[BqAd]‑E[Bq]E[Ad] (6) 其中， E[Bq]， E[Ad]分别为Bq与Ad的期望；步骤2.2.2：根据下式计算条件属性Bq对决策属性Ad的相关性权值：步骤2.2.3：将式(1)经过属性加权后改进为式(9)：其中， Gai n(Bq)为条件属性Bq加权后的信息增益。 6.如权利要求5所述的基于改进ID3决策树的敏感数据分类方法，其特征在于，所述步骤2.3具体为：依据步骤2.2计算的每个条件属性加权后的信息增益，选取加权后的信息增益最大的条件属性：其中， Bo为加权后的信息增益最大的条件属性， Gain(Bo)为条件属性Bo经属性加权后的信息增益。 7.如权利要求1所述的基于改进ID3决策树的敏感数据分类方法，其特征在于，所述步骤3具体为：步骤3.1：构造节点：按照步骤2得到具有最大加权信息增益的条件属性，将其作为当前所有非叶节点的分裂属性；步骤3.2.创建分支：对步骤3.1中所选取的条件属性中的每一个属性值创建一个分支，然后划分数据样本；步骤3.3.进行迭代：除去已选取的作为分裂属性的条件属性外，在剩余条件属性中重权　利　要　求　书 2/3 页 3 CN 115018007 A 3

专利 一种基于改进ID3决策树的敏感数据分类方法

专利一种基于改进ID3决策树的敏感数据分类方法