APP下载

AI趋势周报第121期:通吃自然语言和程式语言!微软发表CodeBERT模型让程式码搜寻更便利

消息来源:baojiabao.com 作者: 发布时间:2024-04-26

报价宝综合消息AI趋势周报第121期:通吃自然语言和程式语言!微软发表CodeBERT模型让程式码搜寻更便利

CodeBERT为双模态预训练模型,以BERT和RoBERTa的架构为基础,利用自然语言和6种程式语言来训练,可进行自然语言搜寻程式码的任务,也可进行程式码文党建立的任务。

重点新闻(0221~0228)

GitHub     程式撰写     CodeBERT  

通吃自然语言和程式语言!微软发表CodeBERT模型让程式码搜寻更便利

微软亚洲研究院日前发表一套双模态预训练模型CodeBERT,可处理自然语言和6种程式语言,像是Python、Go、PHP等,目的是要让程式语言的搜寻更便利。自Google前年发表超大型自然语言预训练模型BERT以来,改写了AI在自然语言的表现,许多团队也以它为基础,发表青出于蓝胜于蓝的变形模型。

这次,微软团队以BERT和自家去年发表的RoBERTa架构为基础,用两种资料来训练CodeBERT,首先是自然语言文本,再来是不同语言的程式码,包括Go、Ruby、Python、Java、JavaScript、PHP等。训练资料来自GitHub上的公开数据库,包含210万个双模态资料点(Data points),以及来自6种程式语言的640万个单模态程式码。接着,团队先微调CodeBERT,再让它从GitHub的开源资料集CodeSearchNet中,寻找程式码,并针对预训练阶段没遇过的程式码,来建立文档(Documentation)。

后来,团队也测试CodeBERT表现,发现CodeBERT在自然语言搜寻程式码任务,以及产生程式码文档任务中,皆达到SOTA等级。(详全文)

  DeepMind     强化学习    JAX  

瞄准强化学习,DeepMind释出两款JAX函式库

DeepMind日前释出两款JAX函式库Haiku和RLax,分别要简化模型参数管理,以及提高强化学习模型表现。JAX是Google两年前发布的数值运算函式库,结合了NumPy函式库、自动差分、GPU和TPU支援等,可加速机器学习作业。

其中,Haiku能简化参数和模型状态的管理,也可与JAX函式库中其他函式共用。Haiku以TensorFlow函式库Sonnet为基础,保留了Sonnet中管理模型状态的模组,同时也具JAX函数转换的使用权限;此外,Haiku的API和抽象(Abstraction)也与Sonnet相似,让使用者更容易从TensorFlow和Sonnet过渡到JAX和Haiku。团队指出,Haiku在大规模的影像和语言处理、生成式模型和强化学习等任务,表现特别好。至于RLax,则建于JAX之上,可助于强化学习代理的执行。(详全文)

  艾伦AI研究院    电脑视觉    模型评估  

AI2发表电脑视觉模型评比工具,网罗多种SOTA模型供评估

由微软共同创办人成立的艾伦人工智能研究院AI2,日前发表了电脑视觉模型资源工具AI2 Computer Vision Explorer,网罗多种热门、SOTA等级的影像辨识模型,供使用者来尝试、比较和评估,找出最适合自己资料集或研究用的模型。

虽然电脑视觉在近年已有长足进步,但就算是有经验的研究员,仍难以评估热门的模型是否适合自己的资料,因此,AI2的感知推理与互动研究团队(PRIOR)决定展开这项专案,搜集多种模型,特别是在热门电脑视觉任务中达SOTA或近乎SOTA的模型,比如影像分类、物件侦测、影像问答、人体姿势预测等。

以影像问答(VQA)来说,使用者可选择4种现有场景的照片,或是上传自己的照片并输入问题。接着,使用者可用2018年VQA挑战赛的冠军模型Pythia来执行任务。目前,PRIOT团队也陆续新增其他模型,至AI2 Computer Vision Explorer中。(详全文)

  eBay    影像辨识     商品去背 

eBay推出新AI照片编辑工具,可自动帮商品照片去背

eBay近日释出新工具Image Clean-up,可透过AI自动帮卖家的商品照片去背。团队指出,这项功能利用电脑视觉算法,直接透过卖家手机的处理器来执行,让商品背景呈白底,但有两个先决条件,首先是影像的边框像素需为背景,再来,前景和后景要有足够的对比,以不同颜色凸显两者差异。

在技术上,团队也建立了色彩模型,利用鉴别式概率模型中的CRF,来解决遮罩中无法理解的像素。此外,团队也采分离性(Separability),来衡量将前后背景移除的难度,也就是说,当分离性接近最大值100%时,算法就越容易将离。团队利用这个方法,来决定是否要自动移除背景,或是通知使用者以手动方式,来自行移除背景。(详全文)

  Google    虚拟客服    Dialogflow  

Google虚拟客服AI引擎Dialogflow再升级,可更聪明回答问题

Google发布自然语言理解平台Dialogflow更新,要来改善客服中心AI(Contact Center AI)服务,提供了10倍意图数量的Mega Agent,并新增代理验证功能,可自动检查代理设计错误,让使用者能简单建立多版本的代理、部署到不同环境。

其中,Mega Agent可回答的问题数量,是一般Dialogflow代理人的10倍。目前测试版的Dialogflow Mega Agent,可将多个代理人整合为一,将意图数量扩充为2万,可更准确回答客户问题。此外,Dialogflow也可验证代理设计,替使用者辨识错误,提高互动品质。最后,Dialogflow也新增一站式功能,涵盖建立、测试与代理部署,也可助使用者管理版本。(详全文)

莱斯大学   CapsNet     极端天气预测  

莱斯大学采CapsNet,预测寒流热浪8成精准

莱斯大学研究团队开发一套深度学习天气预测系统,可预测5天后的极端天气事件,精准度达8成。传统预测天气方法,仰赖数值天气预测(NWP)模型,若要预测极端天气,更耗费大量运算资源与时间。

而研究团队发现,影像辨识可以派上用场。当极端天气如热浪或寒流出现时,天气图通常会出现不寻常的喷射气流,像是大量或不移动的高压系统等。因此,团队采用CNN和胶囊神经网络(CapsNet),以1920年至2005年的历史天气资料,如地表温度、环流模式Z500等来训练模型。结果显示,模型能够预测寒流或热浪的发生和出现区域,准确率达88%。(详全文)

甲骨文   机器学习开发自动化     资料科学平台  

甲骨文跟进AutoML风,推出云端资料科学平台

甲骨文日前推出可让企业快速建立、训练、管理和部署机器学习模型的云端资料科学平台,以自家云端基础设施资料科学服务为核心,自动化部分的模型开发流程,要加速机器学习模型开发和应用。

首先,该平台可自动选择合适的机器学习模型,透过多种算法和配置来测试、挑选。此外,平台还有特征工程自动化与模型评估工具,会产生一套评估指标与视觉化图表,让资料科学家能够评估模型效能与调校。另一方面,平台也提供模型解释工功能,可自动产生对应权重和预测因素的重要性说明。此外,甲骨文也提供团队协作功能,让组织可以共享专案,并进行版本控制,还能共享资料与笔记本连线对话(Session)。(详全文)

Google地图     机器学习      文字侦测  

Google地图靠ML自动清除千万笔不良评论

Google地图上约有2亿个兴趣点,每日会新增2千多万条评论、评分或其他内容,为确保内容正当,Google要在不当内容上传后,被其他用户看到之前就先删掉。为此,Google利用机器学习自动侦测系统,每天扫描数百万笔的贡献,来维护平台内容的品质,甚至还能在评论发布到Google地图之前,先逐一检查,找出虚假讯息特征,比如特定的单字和短语、比对使用者账户过去贡献内容的类型,并侦测可疑的评论模式。

此外,Google也聘请操作员和分析师团队,来审核Google地图上的评论、照片、商业档案和其他类型内容,同时Google也让所有使用者标记评论,作为删除不当内容和误导性地点的依据。光是去年,该系统就自动删除了7,500万笔违反规定的评论。(详全文)

图片来源/艾伦AI研究院、eBay、莱斯大学、微软亚洲研究院

 AI趋势近期新闻 

1. Google Cloud AI自动移除性别标签,来降低偏见

2. MIT用深度学习找出强效抗生素,成果收录权威期刊《Cell》

3. MIT开发能修改维基百科文章错误的自动系统

4. 丽台整合Nvidia GPU与深度学习软件套件,推出新款AI工作站

资料来源:iThome整理,2020年2月

2020-02-27 17:53:00

相关文章