IBM提出一种对抗式攻击的新防御方法，找出AI误判干扰手法来训练侦测模组，第一时间拦截攻击行为最新消息

IBM Security资安研发实验室工程师张櫂闵表示，要抵抗对抗式攻击，可以先训练一个对抗式侦测模组（ADM），先过滤资料、找出骇客生成的对抗例，来降低AI模型遭到攻击的概率。

图片来源:

图/iThome

随着AI技术日渐成熟，资安人员也开始用AI侦测资安攻击，来达到比传统方式更好的防御效果，但同样的，骇客也可以训练AI模型生成对抗式攻击（Adversarial Attack），让防御方的AI模型失效。“要如何保护AI模型不受骇客发动的对抗式攻击，甚至去察觉是哪些骇客在攻击我？”IBM Security资安研发实验室工程师张櫂闵在一场活动上表示，除了重新对原本的AI模型进行对抗式训练（Adversarial Training），先训练一个对抗式侦测模组（Adversarial Detection Module，ADM）来拦截骇客攻击，也不失为一个可行的方法。

对抗式攻击，是指以算法生成能干扰特定AI模型的对抗例（Adversarial Example，也称为对抗样本），以此来引发AI误判的一种攻击手法，各领域的AI模型都可能遭受攻击。如在熊猫的图片中加上噪声（Noise），让AI模型错把熊猫认成长臂猿，就是一个常被用来说明的案例，而被加入噪声的熊猫图片，就是骇客生成的对抗例。

张櫂闵也举不同例子来说明对抗式攻击的应用场景。比如用于自驾车的影像辨识模型，可能受到对抗例影响，将横向且有人的道路误判成直向，带来致命性的严重后果；又或是语音辨识模型，误将“How are you?”误判为“Open the door.”；就连语意理解技术，都可能受到对抗式攻击，比如原先被侦测为垃圾邮件的信件内容，只要将其中几个单字替换为语意相似的单字，就能影响AI将该封信判读成正常邮件。

由于一般模型的训练资料不包含对抗例，以此训练而成的AI模型，就难以防范对抗式攻击。因此，张櫂闵指出，最直觉且有效的防御方法，就是先自己生成对抗例并标记正确答案，再喂给AI模型学习，让AI遇到对抗例时也能做出正确判断，“就跟疫苗很像，在遇到没看过的病毒时，先让身体产生抗体，就可以对病毒免疫。”而这个针对对抗例重新训练模型的过程，就是对抗式训练的概念。

不过，张櫂闵也点出这个做法的三个问题。第一，是企业在实际应用AI模型时，如何得知AI已经遭到攻击、进而展开对抗式训练？第二，当遭到攻击时，企业能否进一步知道攻击者是谁？第三，企业侦测到攻击后，会需要一段时间对AI进行对抗式训练，是否有方法在这段期间降低遭到零日攻击（Zero-day Attack）的机会？

为了解决上述的问题，张櫂闵与研究团队从去年9月开始展开一项研究，试图找出一种侦测并拦截骇客攻击的方法，也就是在进行对抗式训练之前，另外训练一个对抗式侦测模组（ADM），在原先的AI模型判读前，先过滤每一笔输入资料，若发现该笔资料为骇客生成的对抗例，就拦截并记录（Log）下来，只提供正常资料给原先的AI预测。如此一来，就能在对抗式训练完成之前，先挡住对抗式攻击。

IBM研究团队也实际验证这个想法的可行性，并以侦测DGA（Domain Generation Algorithm，域名生成算法）的AI模型来试验。DGA是骇客可以使用的网域名称（Domain Name），因此，AI模型的任务，就是要辨识出网域名称是正常或是DGA。

张櫂闵指出，这个DGA辨识模型，原先准确率高达96%，但受到对抗式攻击后，该模型的准确率大幅下降到37%，这个数值意味着，被攻击后的AI模型表现，甚至比乱猜的概率还低，因为判断为正常或异常域名的方式，乱猜也有二分之一概率猜中正确答案。不过，在训练了ADM模型来挡住这些攻击后，在AI模型受保护的情况下，辨识率仅从96%下降到88%，说明ADM的机制确实能降低对抗式攻击对AI造成的危害。

而且，张櫂闵更说明，研究团队用一百万笔的训练资料量，重新对DGA辨识模型进行对抗式训练，需要花上一天的时间，但将同样的资料用来训练一个ADM侦测器，只需要15分钟即可。换句话说，“在新攻击发生时，不需要花一天时间修复模型，才能对抗攻击，可以先花15分钟训练ADM挡在模型前面。”而不同AI模型也会因模型复杂度与训练资料种类不同，需要不同的对抗式训练及ADM训练时间。