专利 一种面向协同推理的抗数据审查属性推断攻击方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210946599.2 (22)申请日 2022.08.09 (71)申请人浙江大学地址 310058 浙江省杭州市西湖区余杭塘路866号申请人浙江大学嘉兴研究院 (72)发明人王志波　刘凯鑫　任奎　 (74)专利代理机构杭州中成专利事务所有限公司 33212 专利代理师李亦慈　唐银益 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/82(2022.01) G06N 5/04(2006.01) G06N 3/08(2006.01)G06N 3/04(2006.01) G06F 21/62(2013.01) (54)发明名称一种面向协同推理的抗数据审查属性推断攻击方法及装置 (57)摘要本发明公开了一种面向协同推理的抗数据审查属性推断攻击方法与装置，装置包括影子模型训练模块、图像特征解码器和恶意属性分类器，影子模型训练模块包括影子模型和辅助分类器；影子模型的输入端连接辅助公开数据集，输出端连有特征重建模块，重建模块的输出端连接属性推断模块；影子模型训练模块由卷积神经网络及全连接神经网络组成；图像特征解码器由反卷积神经网络组成，恶意属性分类器由卷积神经网络和全连接神经网络组成。本方案提出影子模型训练模拟目标脱敏模型的行为和输出，以获得有效的脆弱性辅助特征，提出特征重建，用于重建脱敏特征的脆弱性，使其包含更加丰富的敏感信息，使用属性推断模块对重建特征进行属性推断攻击。权利要求书3页说明书10页附图2页 CN 115019378 A 2022.09.06 CN 115019378 A 1.一种面向协同推理的抗数据审查属性推断攻击方法，其特征在于，包含以下步骤：云服务器向用户分发预先训练好的脱敏特征提取器，并将脱敏特征提取器下发给用户实现对人脸图像的脱敏图像特征的提取，同时作为攻击者的恶意用户也可访问该脱敏特征提取器；用户将人脸图像输入脱敏特征提取器，计算获得对象对应的脱敏图像特征，并上传该特征至云服务器进行目标属性推断；攻击者预先设定目标敏感属性，通过黑盒访问脱敏特征提取器训练获得影子模型、特征解码器以及恶意属性分类器；将训练完毕的特征解码器和恶意属性分类器部署在攻击者的装置上，攻击者捕获用户上传的脱敏图像特征，再通过特征解码器重建脱敏图像特征的脆弱性，获得重建特征，之后将重建特征输入恶意属性分类器计算用户数据的隐私属性信息，完成隐私属性推断攻击；所述的训练获得影子模型、特征解码器以及恶意属性分类器的具体步骤如下：步骤1.获取与用户的训练数据集同分布的辅助数据集，作为训练集，该数据集中图像具有目标属性标签以及隐私属性标签；步骤2.建立影子模型，并初始化模型参数；对影子模型参数和训练集归一化处理；步骤3.基于训练集进行前向传播计算，计算影子模型中间层的辅助图像特征和输出层的输出图像特征；同样的，将训练集作为输入，通过脱敏特征模型的特征提取、特征编码和特征汇聚操作，计算人脸图像的脱敏图像特征；攻击者在获得输出图像特征和脱敏图像特征后，计算两个图像特征的相似度作为模型的损失值，基于反向传播和梯度下降算法更新影子模型的参数；步骤4.建立辅助分类器，初始化辅助分类器的模型参数并归一化；步骤5.攻击者在获得步骤3 中的辅助图像特征后，基于辅助图像特征进行前向传播，计算辅助分类器的输出标签，计算输出标签与真实标签之间的交叉熵，基于反向传播和梯度下降算法更新辅助分类器和影子模型的参数；步骤6.基于训练集对影子模型进行前向传播，计算影子模型的中间层的辅助图像特征；步骤7.建立特征解码器，初始化特征解码器模型的参数并归一化；步骤8.攻击者在获得步骤3 中的脱敏图像特征和步骤6中的辅助图像特征后，基于辅助特征进行前向传播，计算特征解码器的输出层图像特征；并计算该特征与脱敏特征之间的相似度，基于反向传播和梯度下降算法更新特征解码模型的参数；步骤9.基于训练集对脱敏特征模型和特征解码器模型依次进行前向传播，计算特征解码器输出的重建图像特征；步骤10.建立恶意属性分类器，初始化该分类器模型的参数并归一化；步骤11.攻击者在获得步骤10中的重建特征之后，基于该特征对恶意属性分类器进行前向传播，计算恶意属性分类器的输出标签，然后计算输出标签和真是标签之间的交叉熵，基于反向传播和梯度下降算法更新恶意属性分类器的模型参数。 2.根据权利1要求的面向协同推理的抗数据审查属性推断攻击方法，其特征在于，所述步骤3具体步骤如下：权　利　要　求　书 1/3 页 2 CN 115019378 A 21）从辅助数据集中采样一批数据，将其输入影子模型获得近似的脱敏图像特征； 2）攻击者期望影子模型的行为尽可能地近似于图像特征提取器，以产生相似的输出，故计算脱敏图像特征表示与近似图像特征表示之间的图像特征空间相似度，并最小化该值，损失函数如下：；其中表示图像特征相似度损失，由距离实现，其值越小两种图像特征表示的相似度越高； 3）在训练过程中，该影子模型的优化目标通过更新模型参数来最小化上述的相似度损失函数：。 3.根据权利1要求的面向协同推理的抗数据审查属性推断攻击方法，其特征在于，所述步骤5的具体步骤为： 1）基于步骤3中的辅助图像特征，计算辅助分类器输出层的预测值，计算辅助分类器输出隐私属性预测值与真实标签之间的交叉熵； 2）在优化阶段对最小化该交叉熵以获得更易攻击的辅助图像特征表示，损失函数如下：其中时影子模型的浅层神经网络，参数为，为辅助属性分类器，参数为，代表对于隐私属性的预测置信度，用来衡量影子模型的浅层网络产生的辅助图像特征是否保留了足够的隐私信息，最终由产生辅助图像特征向量； 3）在训练过程中，该辅助分类器和影子模型应该联合训练以保证辅助图像特征的敏感信息，整体的优化目标为最小化上述的交叉熵损失函数，基于反向传播与梯度下降技术来更新二者的模型参数：。 4.根据权利1要求的面向协同推理的抗数据审查属性推断攻击方法，其特征在于，所述步骤8的具体步骤为： 1）将步骤6中的辅助特征输入图像特征解码器计算重建图像特征，采用 Mean Square error作为度量函数评估重建图像特征与步骤3中的脱敏图像特征之间的相似度； 2）将重建图像特征和脱敏图像特征在欧式距离上的期望值，即，作为重建误差值：；其中, 表示脱敏特征模型产生的脱敏图像特征，为图像特征重构器，为模型参数，表示随机变量的二范数， MSE均方误差是用于衡量脱敏图像特征以及重建图像特征权　利　要　求　书 2/3 页 3 CN 115019378 A 3

专利 一种面向协同推理的抗数据审查属性推断攻击方法及装置

专利一种面向协同推理的抗数据审查属性推断攻击方法及装置