AI趋势周报第157期：自驾车，鬼飘移？加州大学揭露自驾车定位AI算法漏洞最新消息

加州大学Irvine分校发现，自驾车用的定位MSF算法虽能阻挡GPS干扰，却有着接管漏洞。团队研发一套攻击FusionRipper，在模拟环境中以91.3％的成功率改变自家车的轨迹。

图片来源:

UCI

重点新闻(0122～0128)

自驾系统 MSF算法 FusionRipper

自驾上路出现鬼飘移？加州大学揭露自驾车定位AI算法有漏洞

全球吹起自驾风，Google Waymo One和百度Apollo Go就分别在美国和中国，提供高度自驾的Level 4自驾计程车服务。这种高度自驾的系统，不只要能感知周遭障碍物，还要能以公分等级的精确度，在地图上定位自己。这种定位对自驾车来说至关重要，因为定错位会导致开错车道或走错路。

这种定位系统的关键是MSF算法，也就是融合多种感测器资讯的算法，早期用来防范GPS干扰攻击（GPS Spoofing），但现在却少有人讨论它在自驾车的安全性。

于是，加州大学Irvine分校研究了MSF算法用于自驾车的安全性，发现MSF算法虽能有效防止GPS干扰攻击，但却有个致命缺陷，也就是接管漏洞（Take-over vulnerability）。因此，团队设计一套新式的通用攻击FusionRipper，来评估它对MSF算法的影响。

FusionRipper分为两阶段攻击，首先是观察漏洞出现的时机，再来借机干扰。团队发现，在Trace-based实验和模拟测试中，FusionRipper的成功概率分别是97％和91.3％，都能让自驾车偏离道路。目前，团队已与29家自驾车业者联络，有17家开始调查，1家开始修复。（详全文）

ImageNet 胸部X光片 SaMD

吴恩达花4年学到的一件事：ImageNet预训练表现越好，并不会让DL模型更擅长X光判读

4年前，AI大师吴恩达带领史丹佛大学团队，打造出让人惊艳的医疗AI模型CheXNet，可在胸部X光片上标出肺炎病灶，准确度高过放射科医生。4年后，用来侦测胸部X光片的深度学习（DL）模型，大多靠迁移学习来完成训练，也就是先以大型资料集ImageNet来预训练，再用少量医疗资料来训练、优化模型。这就是假定ImageNet预训练模型的参数，可让模型表现更好，而且用ImageNet训练出的模型架构，一定更会判读胸部X光片。

不过，吴恩达与史丹佛大学学生发现，事实并非如此。他们用16种热门的CNN模型和CheXpert资料集中的5种X光片判读任务，来评估ImageNet迁移学习和参数效率，这些模型包括DenseNet、ResNet、Inception、MNASNet和EfficientNet。

他们得出4个结论：首先，不管有没有预训练，模型在ImageNet上的表现和在CheXpert的表现，都没有任何关联，也就是说，以ImageNet改善的架构，并不会改善模型在胸部X光片的判读表现。再来，在没有预训练的情况下，模型家族类别其实比模型大小，更容易影响表现；第三，ImageNet预训练可提升整体架构性能，特别是小型模型架构。最后，若舍弃ImageNet预训练模型的最终层数，来缩小模型，在统计学上并不影响模型X光判读表现，且平均可提高3.25倍的参数效率。（详全文）

MLaaS 电商 模型稳定性

林守德：训练数据难完美，MLaaS要支援数千个模型，不断反复建模是最大挑战

为了加快开发和翻新AI应用的速度，来因应快速变化的顾客行为，越来越多企业开始建置自家的机器学习即服务（MLaaS），将机器学习模型变成一个容易重复利用的服务架构。

不过，Appier首席资料科学家林守德指出，打造MLaaS的挑战是模型建构。通常，ML的模型研发多聚焦于单一模型的设计，也就是用一组数据来训练模型，再用测试数据来预测。但现实状况是，为满足真实世界中不断变动的顾客需求，企业用来训练和测试的数据不能清楚地一分为二，因为，今天用来测试的数据，很可能成为明天用来训练的数据。除了来源不完整，训练资料也存在一定的偏见，比如，用来训练推荐模型的数据，通常来自另一个推荐系统搜集到的反馈；正因为训练模型的数据存有另一个模型的影子，偏见不可能消失。

此外，用来预测结果的数据，非常复杂。以电商为例，常见的用户旅程是点击商品、查看商品、加入购物车、购买商品，但系统纪录的轨迹并非如此简单。因为，消费者可能在不同设备上多次查看某件商品，也可能将商品从购物车移除后，再重新加入，甚至，得知用户是否购买，会比取得其点击或浏览的数据更加困难，因为顾客可能在别的平台上结账。

因此，模型训练数据不可能完美，也难以用完全干净的资料来预测。林守德认为，对打造MLaaS的企业来说，每天得维持数千个模型在线上提供服务，且须不断再训练模型、更新数据，好让模型因应现实中不断变化的任务。也就是说，模型开发者不仅要完善模型自动训练的流程，还得确保模型发生局部误差的概率接近零，才能持续满足客户的业务目标。他总结，这是非常有挑战的任务，需仰赖不断的投资、研究和实验才能办到。（详全文）

文字生成 表格文字 ToTTo

如何让NLG更精准？Google最新NLG表格文字资料集有方法

Google近日发布一套表格转文字的自然语言生成（NLG）资料集ToTTo，以新颖的标注方法和特殊的文字生成任务所打造，可用来评估NLG模型幻觉程度（Hallucination，也就是模型产生出可读的文字，但不忠于源语），帮助NLG模型产生更精准的文字。

Google指出，过去几年，NLG研究有长足的进展，比如文字摘要。虽然NLG类神经网络系统能以流畅的文字表达，但仍会产生幻觉，让这些系统难以用于讲究文字精确性的领域。为改善这个问题，Google用结构化表格，来评估生成文字是否终于源语，并要求注释者分阶段修改现有维基百科的句子，让句子干净又自然。

进一步来说，ToTTo目前有121,000个训练样本，还有7,500个用于开发、测试的样本，也就是除了多组表格和相对应的文字，还有一系列受控的生成任务，该任务会提供维基百科表格和一组选定的资料格，作为生成摘要的材料。由于ToTTo资料集拥有高精确性的标注，因此很适合当作Benchmark，用来测试高精确文字生成研究成果。目前，ToTTo资料集和程式码已于GitHub上开源。（详全文）

脸书 文字生成 图片说明

脸书AI不只解读图片，还能念给视障同胞听

为让视障同胞更理解图片内容，脸书改善了用来说明图片的自动替代文字（AAT）技术，将能侦测和辨识的概念扩大10倍，可对更多类型的图片加上描述，而且描述也多了许多细节，包括相对位置、主要和次要物体等额外资讯。

脸书在2016年导入AAT技术，透过影像辨识来产生照片描述，让视障同胞也能理解脸书上的图片。而这次改版，可生成相对位置资讯等额外描述，比如，过去照片描述可能简单地以一栋房子和一座山，来描述风景优美的照片，而新AAT技术能够强调山和房子的相对大小，来强调山才是照片中的主体。

这次新模型采弱监督方法，以数十亿张Instagram公开照片和Hashtag组成的资料训练而成，有别于过往的监督式学习。脸书也微调模型，从所有地理位置采样训练用照片和多种语言的主题标签，同时，脸书还评估了性别、肤色和年龄来评估概念，让模型更加准确。新版AAT模型可辨识1,200多种概念，是2016年版本的10倍多，即便AAT模型仅会提供高阈值的结果，但仍存在误差，因此脸书会在每个描述的开头，都加上“可能”字样。（详全文）

图片来源／加州大学Irvine分校、史丹佛大学、Google、脸书

AI趋势近期新闻

1. Amazon对外输出Alexa技术，供企业打造客制化智慧助理

2. 脸书与纽约大学合作以AI预测COVID-19患者病情发展

资料来源：iThome整理，2021年1月