专利 一种基于深度神经网络信息熵估计的熵优化方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210924688.7 (22)申请日 2022.08.03 (71)申请人清华大学地址 100084 北京市海淀区清华园1号 (72)发明人张新钰　张世焱　李骏　杨昊波　杨卓异　吴新刚　 (74)专利代理机构北京三聚阳光知识产权代理有限公司 1 1250 专利代理师张建纲 (51)Int.Cl. G06V 10/44(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/764(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于深度神经网络信息熵估计的熵优化方法 (57)摘要本发明公开了一种基于深度神经网络信息熵估计的熵优化方法，所述方法包括：步骤1）对待优化的深度神经网络的输入数据与输出数据基于通信理论进行建模，得到对于信息熵的期望与约束；所述深度神经网络包括n个网络层，第n 层网络层为输出层；步骤2）根据所述深度神经网络的各层网络结构，对深度神经网络的训练过程建立概率模型；步骤3）采用K ‑近临熵估计方法计算训练过程中所述深度神经网络每层网络层输出的信息熵；步骤4）依据信息熵的期望与约束，建立信息熵的损失函数，指导深度神经网络的训练过程与优化方向。本发明提高了对深度神经网络训练过程的可解释性，使训练过程更加透明，并可以量化评价。权利要求书2页说明书8页附图2页 CN 115019061 A 2022.09.06 CN 115019061 A 1.一种基于深度神经网络信息熵估计的熵优化方法，其特征在于，所述方法包括：步骤1）对待优化的深度神经网络的输入数据与输出数据基于通信理论进行建模，得到对于信息熵的期望与约束；所述深度神经网络包括 n层网络层，第n层网络层为输出层；步骤2）根据所述深度神经网络的各层网络结构，对深度神经网络的训练过程建立概率模型；步骤3）采用K ‑近临熵估计方法计算训练过程中所述深度神经网络每层网络层输出的信息熵；步骤4）依据信息熵的期望与约束，建立信息熵的损失函数，指导深度神经网络的训练过程与优化方向。 2.根据权利要求1所述的基于深度神经网络信息熵估计的熵优化方法，其特征在于，所述步骤1）信息熵的期望与约束包括：每轮次训练中，深度神经网络输出层的熵值递减；训练后的每层网络层的输出与该深度神经网络输入的信息熵相同。 3.根据权利要求2所述的基于深度神经网络信息熵估计的熵优化方法，其特征在于，所述步骤2）的概率模型包括：对于共有n层的深度神经网络，将每层网络层的输出作为一个多维连续随机变量，每层的第i个通道作为多维连续随机变量的一个采样样本xi，每个通道的像素点个数d为 xi的维数d，每层共有m个采样样本。 4.根据权利要求3所述的基于深度神经网络信息熵估计的熵优化方法，其特征在于，所述步骤3）的K ‑近临熵估计方法包括：根据下式计算采样样本xi的球体邻域半径：其中，为d维样本xi和最近的第k个样本点之间的欧氏距离， Vd为d维单位球体的体积，为函数；根据下式计算熵估计的修正项为：其中，表示样本xi附近半径为的邻域球体体积，表示随机变量的边界约束；根据下式得到每层网络层输出的信息熵为：其中，；是Digamma函数， (1) = − γ， γ为欧拉 ‑马舍罗尼常数， (m) ∼ lg(m − 1)，∼表示近似等于。 5.根据权利要求4所述的基于深度神经网络信息熵估计的熵优化方法，其特征在于，所权　利　要　求　书 1/2 页 2 CN 115019061 A 2述步骤3）包括：步骤3‑1）遍历n个多维连续随机变量；步骤3‑2）对于每个，遍历所在网络层的每个采样样本xi，确定每个样本xi的椭球体邻域；对于采样样本xi的d维椭球体的半径，按照由大到小进行排序，得到采样样本xi的修正项，结合每层网络层输出的信息熵，得到修正后的熵估计。 6.根据权利要求5所述的基于深度神经网络信息熵估计的熵优化方法，其特征在于，所述步骤3‑2）包括：步骤3‑2‑1）选取xi周围与其距离最近的k个样本点，对包含xi在内一共k+1个样本点进行PCA处理，用k+1个样本点计算d维随机变量的协方差矩阵，并计算协方差矩阵的d个特征向量；步骤3‑2‑2）将d个特征向量的方向作为d维椭球体的轴，在选取的k+1个样本中寻找沿每个特征向量方向距离最远的样本点，并以此样本点在这一方向的距离作为椭球体在该轴的半径，从而确定采样样本xi的椭球体邻域；步骤3‑2‑3）将d维椭球体的半径由大到小依次排序，则样本xi的修正项为：其中， D维椭球体的半径由大到小依次为；根据每层网络层的信息熵，得到修正后的熵估计为：。 7.根据权利要求6所述的基于深度神经网络信息熵估计的熵优化方法，其特征在于，所述步骤4）包括：设计损失函数：其中，为原始输入数据的信息熵，为深度神经网络第j层输出的信息熵， n为网络层数；根据每轮次训练中，深度神经网络输出层的熵值递减，判断如果第次训练后输出的信息熵大于第次，则增加损失函数：其中，分别为第次和第次训练后输出的信息熵；将、作为辅助项，结合网络的交叉熵损失构成深度神经网络训练的损失函数。权　利　要　求　书 2/2 页 3 CN 115019061 A 3

专利 一种基于深度神经网络信息熵估计的熵优化方法

专利一种基于深度神经网络信息熵估计的熵优化方法