AI趋势周报第121期：通吃自然语言和程式语言！微软发表CodeBERT模型让程式码搜寻更便利最新消息

CodeBERT为双模态预训练模型，以BERT和RoBERTa的架构为基础，利用自然语言和6种程式语言来训练，可进行自然语言搜寻程式码的任务，也可进行程式码文党建立的任务。

重点新闻(0221～0228)

GitHub 程式撰写 CodeBERT

通吃自然语言和程式语言！微软发表CodeBERT模型让程式码搜寻更便利

微软亚洲研究院日前发表一套双模态预训练模型CodeBERT，可处理自然语言和6种程式语言，像是Python、Go、PHP等，目的是要让程式语言的搜寻更便利。自Google前年发表超大型自然语言预训练模型BERT以来，改写了AI在自然语言的表现，许多团队也以它为基础，发表青出于蓝胜于蓝的变形模型。

这次，微软团队以BERT和自家去年发表的RoBERTa架构为基础，用两种资料来训练CodeBERT，首先是自然语言文本，再来是不同语言的程式码，包括Go、Ruby、Python、Java、JavaScript、PHP等。训练资料来自GitHub上的公开数据库，包含210万个双模态资料点（Data points），以及来自6种程式语言的640万个单模态程式码。接着，团队先微调CodeBERT，再让它从GitHub的开源资料集CodeSearchNet中，寻找程式码，并针对预训练阶段没遇过的程式码，来建立文档（Documentation）。

后来，团队也测试CodeBERT表现，发现CodeBERT在自然语言搜寻程式码任务，以及产生程式码文档任务中，皆达到SOTA等级。（详全文）

DeepMind 强化学习 JAX

瞄准强化学习，DeepMind释出两款JAX函式库

DeepMind日前释出两款JAX函式库Haiku和RLax，分别要简化模型参数管理，以及提高强化学习模型表现。JAX是Google两年前发布的数值运算函式库，结合了NumPy函式库、自动差分、GPU和TPU支援等，可加速机器学习作业。

其中，Haiku能简化参数和模型状态的管理，也可与JAX函式库中其他函式共用。Haiku以TensorFlow函式库Sonnet为基础，保留了Sonnet中管理模型状态的模组，同时也具JAX函数转换的使用权限；此外，Haiku的API和抽象（Abstraction）也与Sonnet相似，让使用者更容易从TensorFlow和Sonnet过渡到JAX和Haiku。团队指出，Haiku在大规模的影像和语言处理、生成式模型和强化学习等任务，表现特别好。至于RLax，则建于JAX之上，可助于强化学习代理的执行。（详全文）

艾伦AI研究院 电脑视觉 模型评估

AI2发表电脑视觉模型评比工具，网罗多种SOTA模型供评估

由微软共同创办人成立的艾伦人工智能研究院AI2，日前发表了电脑视觉模型资源工具AI2 Computer Vision Explorer，网罗多种热门、SOTA等级的影像辨识模型，供使用者来尝试、比较和评估，找出最适合自己资料集或研究用的模型。

虽然电脑视觉在近年已有长足进步，但就算是有经验的研究员，仍难以评估热门的模型是否适合自己的资料，因此，AI2的感知推理与互动研究团队（PRIOR）决定展开这项专案，搜集多种模型，特别是在热门电脑视觉任务中达SOTA或近乎SOTA的模型，比如影像分类、物件侦测、影像问答、人体姿势预测等。

以影像问答（VQA）来说，使用者可选择4种现有场景的照片，或是上传自己的照片并输入问题。接着，使用者可用2018年VQA挑战赛的冠军模型Pythia来执行任务。目前，PRIOT团队也陆续新增其他模型，至AI2 Computer Vision Explorer中。（详全文）

eBay 影像辨识 商品去背

eBay推出新AI照片编辑工具，可自动帮商品照片去背

eBay近日释出新工具Image Clean-up，可透过AI自动帮卖家的商品照片去背。团队指出，这项功能利用电脑视觉算法，直接透过卖家手机的处理器来执行，让商品背景呈白底，但有两个先决条件，首先是影像的边框像素需为背景，再来，前景和后景要有足够的对比，以不同颜色凸显两者差异。

在技术上，团队也建立了色彩模型，利用鉴别式概率模型中的CRF，来解决遮罩中无法理解的像素。此外，团队也采分离性（Separability），来衡量将前后背景移除的难度，也就是说，当分离性接近最大值100％时，算法就越容易将离。团队利用这个方法，来决定是否要自动移除背景，或是通知使用者以手动方式，来自行移除背景。（详全文）

Google 虚拟客服 Dialogflow

Google虚拟客服AI引擎Dialogflow再升级，可更聪明回答问题

Google发布自然语言理解平台Dialogflow更新，要来改善客服中心AI（Contact Center AI）服务，提供了10倍意图数量的Mega Agent，并新增代理验证功能，可自动检查代理设计错误，让使用者能简单建立多版本的代理、部署到不同环境。

其中，Mega Agent可回答的问题数量，是一般Dialogflow代理人的10倍。目前测试版的Dialogflow Mega Agent，可将多个代理人整合为一，将意图数量扩充为2万，可更准确回答客户问题。此外，Dialogflow也可验证代理设计，替使用者辨识错误，提高互动品质。最后，Dialogflow也新增一站式功能，涵盖建立、测试与代理部署，也可助使用者管理版本。（详全文）

莱斯大学 CapsNet 极端天气预测

莱斯大学采CapsNet，预测寒流热浪8成精准

莱斯大学研究团队开发一套深度学习天气预测系统，可预测5天后的极端天气事件，精准度达8成。传统预测天气方法，仰赖数值天气预测（NWP）模型，若要预测极端天气，更耗费大量运算资源与时间。

而研究团队发现，影像辨识可以派上用场。当极端天气如热浪或寒流出现时，天气图通常会出现不寻常的喷射气流，像是大量或不移动的高压系统等。因此，团队采用CNN和胶囊神经网络（CapsNet），以1920年至2005年的历史天气资料，如地表温度、环流模式Z500等来训练模型。结果显示，模型能够预测寒流或热浪的发生和出现区域，准确率达88％。（详全文）

甲骨文 机器学习开发自动化 资料科学平台

甲骨文跟进AutoML风，推出云端资料科学平台

甲骨文日前推出可让企业快速建立、训练、管理和部署机器学习模型的云端资料科学平台，以自家云端基础设施资料科学服务为核心，自动化部分的模型开发流程，要加速机器学习模型开发和应用。

首先，该平台可自动选择合适的机器学习模型，透过多种算法和配置来测试、挑选。此外，平台还有特征工程自动化与模型评估工具，会产生一套评估指标与视觉化图表，让资料科学家能够评估模型效能与调校。另一方面，平台也提供模型解释工功能，可自动产生对应权重和预测因素的重要性说明。此外，甲骨文也提供团队协作功能，让组织可以共享专案，并进行版本控制，还能共享资料与笔记本连线对话（Session）。（详全文）

Google地图 机器学习 文字侦测

Google地图靠ML自动清除千万笔不良评论

Google地图上约有2亿个兴趣点，每日会新增2千多万条评论、评分或其他内容，为确保内容正当，Google要在不当内容上传后，被其他用户看到之前就先删掉。为此，Google利用机器学习自动侦测系统，每天扫描数百万笔的贡献，来维护平台内容的品质，甚至还能在评论发布到Google地图之前，先逐一检查，找出虚假讯息特征，比如特定的单字和短语、比对使用者账户过去贡献内容的类型，并侦测可疑的评论模式。

此外，Google也聘请操作员和分析师团队，来审核Google地图上的评论、照片、商业档案和其他类型内容，同时Google也让所有使用者标记评论，作为删除不当内容和误导性地点的依据。光是去年，该系统就自动删除了7,500万笔违反规定的评论。（详全文）

图片来源／艾伦AI研究院、eBay、莱斯大学、微软亚洲研究院

AI趋势近期新闻

1. Google Cloud AI自动移除性别标签，来降低偏见

2. MIT用深度学习找出强效抗生素，成果收录权威期刊《Cell》

3. MIT开发能修改维基百科文章错误的自动系统

4. 丽台整合Nvidia GPU与深度学习软件套件，推出新款AI工作站

资料来源：iThome整理，2020年2月