“随着深度学习应用越来越广泛,越来越多的人工智能安全问题也开始暴露出来。”南京理工大学计算机学院教授李千目说,深度学习框架中的软件实现漏洞、对抗机器学习的恶意样本生成、训练数据的污染等都可能导致人工智能所驱动的识别系统出现混乱,形成漏判、误判,甚至导致系统崩溃或被劫持,并可以使智能设备变成僵尸攻击工具。
对于人工智能潜在的造假“作恶”,由李千目带领的研究团队所开展的“面向人工智能对抗性恶意样本的监测技术”,可以有效提高在对抗环境中对恶意软件监测的可靠性和安全性,让攻击仿佛打在“棉花”上一样绵软无力。这项研究成果已在人工智能国际学术会议AAAI2019上发表,算法及其实验获得大会“挑战问题赢家”奖,这也是中国信息安全学者首次获得该奖项。
在李千目看来,人工智能系统的攻击技术主要包含对抗性输入、数据中毒攻击及模型窃取技术三个方面。他说,对抗性输入攻击是一种专门设计的输入,确保被误分类以躲避检测。当前,这一手段已被大量使用在专门用来躲避防病毒程序的恶意文档、试图逃避垃圾邮件过滤器的电子邮件等多种场景。数据中毒攻击涉及向分类器输入对抗性训练数据,最常见的攻击类型是模型偏斜,攻击者以这种方式污染训练数据,使得分类器在归类好数据和坏数据时向自己的偏好倾斜。模型窃取攻击则是通过黑盒来探测/窃取(即复制)模型或恢复训练数据身份,比如,可以用来窃取某股市预测模型或者某垃圾邮件过滤模型。
李千目指出,对抗攻击的理论基础是神经网络的两个“bug”:一是高维神经网络的神经元并不是代表着某一个特征,而是所有特征混杂在所有神经元中;二是在原样本点上加上一些针对性的、不易察觉的扰动,从而导致神经网络的分类错误。
针对典型智能算法训练过程中存在的数据来源未知和算法参数被污染的安全风险,李千目团队开始研究对抗性攻击样本生成模型,并设计相应的对抗性样本算法,来实现对抗性攻击样本生成。“我们尝试增强深度学习模型,主要利用人工智能分类器对恶意软件进行分类,以恶意软件为输入样本,分为训练数据集和测试数据集两部分。”他介绍说,在训练阶段,训练多个人工智能分类器的集合,在每个分类器上都将所提出的原则系统化地加以运用;在测试阶段,将样本输入至每个分类器,最后根据所有分类器的投票结果确定样本是否为对抗性恶意软件。
李千目介绍,该领域的研究在国内外都处于起步阶段,相信在两年内会有突破性成果出现,“就目前来说,我们的研究处于国际同类研究的先进水平。比如,可用于规范工业互联网、智能无人系统等领域的顶层安全设计,通过统一智能系统的安全体系架构,增强无人系统等智能系统的安全互联互通互操作能力,提升智能系统的信息防御能力;也可用于指导智能平台、工业互联网的产品安全研制,通过通用化、标准化、组件化,使得各种安全功能构件可重用、可替换,大量减少采购费用等。”
“不过,这项研究和其他研究不同,即便是阶段性成果,也可以在领域里面进行应用。”李千目说,因为恶意监测就像医生治病一样,一个医生不可能治愈所有疾病,但拥有一种有效治疗手段就可以将其用于临床。“目前,我们正牵头制定某项工业互联网安全的标准,其中就涉及部分研究成果,同时我们也在某示范项目中推动了该成果的应用。”记者 王 拓