后门攻击入门

前言

本博客范老师会持续不定时更新（鼠标置于右侧可以翻阅博客目录），便于大家入门学习人工智能中的后门攻防（后门攻击和后门防御），并了解范老师的研究领域。范老师后续会开通B站账号，为同学们分享科研心得，包括如何从高中及本科的学生思维（做题思维）转变为研究生应有的学者思维（自主发现问题+解决问题）、如何高效阅读文献、如何发现研究领域的现存问题、如何进行实验设计、如何动手写一篇科研文章，等等。

欢迎同学们随时就科研问题联系范老师，同时欢迎有科研理想的同学加入范老师的研究团队E-mail: [email protected]，个人主页：www.aisecuritylab.cn，B站主页：https://space.bilibili.com/429606310

如果你对深度学习没有基础，请先入门深度学习，参考https://speech.ee.ntu.edu.tw/~hylee/ml/2022-spring.php，只需学习2/18，2/25，3/04，3/25，4/22，4/29，5/06这几日的课程，其余课程内容目前不用学习。建议七天时间内完成上述课程。

1 后门攻击基本概念

后门攻击于2019年被首次提出，近些年逐渐成为人工智能领域的研究热点。在可以预想的未来3-5年内，后门攻防（后门攻击与对应的后门防御）仍是一片肥沃的科研油田，有很多问题亟待解决，很多工作可以进一步推进，其主要宏观原因包括：

① 人工智能已经被深入应用在人们生产生活的方方面面，包括但不限于自动驾驶、人脸识别、三维点云分类分割、视频处理、自然语言处理、视频处理和当下流行的生成式任务。这些领域都会发生后门风险，且后门攻防方法的设计与该领域的任务特点强相关，因此每个现有的任务赛道都需要设计特定的后门攻击\后门防御方法，而每个赛道都需要提出很多新的方法。

② 随着大模型取得突出的成果，现有深度神经网络的参数越来越多结构越来越大，导致深度神经网络的黑盒性越来越强，进而导致后门安全风险逐渐增大。确保深度神经网络的后门安全性需要更多的研究人员和研究资源的倾斜，因此，研究人工智能后门安全是一条越走越宽的科研道路。

③ “没有网络安全，就没有国家安全”（习近平总书记语录）。政府的政策指引是我们经济社会发展的主要风向标，近年来我国政府多次强调网络安全（包括人工智能安全）对国家安全的重要性。因此，进行人工智能的安全研究是人工智能发展的重要趋势。下图展示了神经网络后门攻防相关研究论文数量趋势图[1]。

[1]汪旭童,尹捷,刘潮歌,等.神经网络后门攻击与防御综述[J].计算机学报,2024,47(08):1713-1743.

1.1 人工智能的安全风险

人工智能指依赖计算机技术模拟人类处理问题的手段的相关技术的总称。深度神经网络是此类技术的核心。经过近十余年的发展，深度神经网络已经在诸多工业领域取得瞩目的成就，并在一些特定任务上取得了超越人类的效果。近年来，随着多模态大模型的不断涌现，通用人工智能呼之欲出。

深度神经网络通过模拟人脑的运行机制，由诸多的神经元和神经元之间的链接组成。运行过程中，深度神经网络通过输入信号激活深度神经网络中的神经元以得到最终的输出。深度神经网络的运行机制导致其具有很强的黑盒性，当深度神经网络决策时，我们无法获知其依据的原理。该特性导致深度神经网络运行过程中存在很多安全风险。挖掘并解决这些风险对人工智能的长远发展具有十分重要的研究意义。

1.2 基本概念

后门攻击是研究者们2019年首次发现的安全威胁[1]，其具有隐蔽性强、危害性大的特点。后门攻击的主要目的是在深度神经网络中植入后门。被植入后门的深度神经网络与正常的深度神经在正常样本上的性能不会产生较大影响，因此不会对用户的正常使用产生影响。同时该攻击会通过后门特征在决策边界之间建立起一条快捷通路，当后门特征出现在输入样本中时，模型中的快捷通路被激活，模型的决策会忽略其他的输入特征而仅关注后门特征，导致模型表现出攻击者设定好的目标行为。

以针对手写数字的识别任务的后门攻击为例。作为攻击者，我们首先需要设计一种后门触发器并指定一个目标类别，本例中的后门触发器为图片右下角的黑色块，目标标签为“0”，如下图所示。

之后，攻击者将后门触发器附加到深度训练样本中，并将带有后门触发器的样本的标签改为目标标签，本例中的目标标签为“0”。为了对训练数据集进行污染，攻击者将带后门触发器并更改了标签的样本插入到训练数据集中并引导受害者深度神经网络在其上进行训练。训练后的深度神经网络便会被植入后门，如下图所示。