APP下载

IBM提出一种对抗式攻击的新防御方法,找出AI误判干扰手法来训练侦测模组,第一时间拦截攻击行为

消息来源:baojiabao.com 作者: 发布时间:2024-05-21

报价宝综合消息IBM提出一种对抗式攻击的新防御方法,找出AI误判干扰手法来训练侦测模组,第一时间拦截攻击行为

IBM Security资安研发实验室工程师张櫂闵表示,要抵抗对抗式攻击,可以先训练一个对抗式侦测模组(ADM),先过滤资料、找出骇客生成的对抗例,来降低AI模型遭到攻击的概率。

图片来源: 

图/iThome

随着AI技术日渐成熟,资安人员也开始用AI侦测资安攻击,来达到比传统方式更好的防御效果,但同样的,骇客也可以训练AI模型生成对抗式攻击(Adversarial Attack),让防御方的AI模型失效。“要如何保护AI模型不受骇客发动的对抗式攻击,甚至去察觉是哪些骇客在攻击我?”IBM Security资安研发实验室工程师张櫂闵在一场活动上表示,除了重新对原本的AI模型进行对抗式训练(Adversarial Training),先训练一个对抗式侦测模组(Adversarial Detection Module,ADM)来拦截骇客攻击,也不失为一个可行的方法。

对抗式攻击,是指以算法生成能干扰特定AI模型的对抗例(Adversarial Example,也称为对抗样本),以此来引发AI误判的一种攻击手法,各领域的AI模型都可能遭受攻击。如在熊猫的图片中加上噪声(Noise),让AI模型错把熊猫认成长臂猿,就是一个常被用来说明的案例,而被加入噪声的熊猫图片,就是骇客生成的对抗例。

张櫂闵也举不同例子来说明对抗式攻击的应用场景。比如用于自驾车的影像辨识模型,可能受到对抗例影响,将横向且有人的道路误判成直向,带来致命性的严重后果;又或是语音辨识模型,误将“How are you?”误判为“Open the door.”;就连语意理解技术,都可能受到对抗式攻击,比如原先被侦测为垃圾邮件的信件内容,只要将其中几个单字替换为语意相似的单字,就能影响AI将该封信判读成正常邮件。

由于一般模型的训练资料不包含对抗例,以此训练而成的AI模型,就难以防范对抗式攻击。因此,张櫂闵指出,最直觉且有效的防御方法,就是先自己生成对抗例并标记正确答案,再喂给AI模型学习,让AI遇到对抗例时也能做出正确判断,“就跟疫苗很像,在遇到没看过的病毒时,先让身体产生抗体,就可以对病毒免疫。”而这个针对对抗例重新训练模型的过程,就是对抗式训练的概念。

不过,张櫂闵也点出这个做法的三个问题。第一,是企业在实际应用AI模型时,如何得知AI已经遭到攻击、进而展开对抗式训练?第二,当遭到攻击时,企业能否进一步知道攻击者是谁?第三,企业侦测到攻击后,会需要一段时间对AI进行对抗式训练,是否有方法在这段期间降低遭到零日攻击(Zero-day Attack)的机会?

为了解决上述的问题,张櫂闵与研究团队从去年9月开始展开一项研究,试图找出一种侦测并拦截骇客攻击的方法,也就是在进行对抗式训练之前,另外训练一个对抗式侦测模组(ADM),在原先的AI模型判读前,先过滤每一笔输入资料,若发现该笔资料为骇客生成的对抗例,就拦截并记录(Log)下来,只提供正常资料给原先的AI预测。如此一来,就能在对抗式训练完成之前,先挡住对抗式攻击。

IBM研究团队也实际验证这个想法的可行性,并以侦测DGA(Domain Generation Algorithm,域名生成算法)的AI模型来试验。DGA是骇客可以使用的网域名称(Domain Name),因此,AI模型的任务,就是要辨识出网域名称是正常或是DGA。

张櫂闵指出,这个DGA辨识模型,原先准确率高达96%,但受到对抗式攻击后,该模型的准确率大幅下降到37%,这个数值意味着,被攻击后的AI模型表现,甚至比乱猜的概率还低,因为判断为正常或异常域名的方式,乱猜也有二分之一概率猜中正确答案。不过,在训练了ADM模型来挡住这些攻击后,在AI模型受保护的情况下,辨识率仅从96%下降到88%,说明ADM的机制确实能降低对抗式攻击对AI造成的危害。

而且,张櫂闵更说明,研究团队用一百万笔的训练资料量,重新对DGA辨识模型进行对抗式训练,需要花上一天的时间,但将同样的资料用来训练一个ADM侦测器,只需要15分钟即可。换句话说,“在新攻击发生时,不需要花一天时间修复模型,才能对抗攻击,可以先花15分钟训练ADM挡在模型前面。”而不同AI模型也会因模型复杂度与训练资料种类不同,需要不同的对抗式训练及ADM训练时间。

ADM靠对抗例两大特性先拦截可疑输入资料

要了解ADM的作法,张櫂闵首先以资料分布图,来说明对抗式攻击骗过AI模型的方法。

若将正常域名与DGA资料样本以分布图的方式呈现,以O代表正常域名,X代表DGA,以虚线作为两种样本的分界,并将AI模型的判读结果,以另一条实线分界来表示。由于AI的判断可能产生误差,在实现分界之下,可能发生O、X样本分错阵营的情形。

张櫂闵表示,对抗式攻击,就是设法让AI判断错误,也就是说,骇客设法将靠近实线的样本资料,推到实线的另一边,使其落在实线与虚线的中间,这意味着,虽然该样本本质上的分类不变,但对AI模型来说,就会判断错误,而这些被推到实线与虚线中间的样本就是对抗例,数量越多,模型就越不准。

不过,也因为对抗例需要移动到实线另一边,“任何对抗例,都会在实线的附近。”张櫂闵表示,对抗例与大多训练资料不同,训练资料大多聚集在一起且远离界线,接近界线且分散的样本,为对抗例的概率较高,ADM就是透过这个特性来侦测对抗例。

对抗例的另一个特性,则是在经过AI判读时,Bayesian Uncertainty的不确定性偏高,由于正常样本较不会有这个问题,就能依此特性来找对抗例。张櫂闵表示,研究团队在研究中运用上述两种方法,为ADM带来良好的对抗例预测,准确率甚至可达9成以上。

2020-09-09 17:48:00

相关文章