AI趋势周报第70期：韩研究员开发图像转换系统InstaGAN，让照片人物长裤换短裙最新消息

图片来源:

Sangwoo Mo et al

重点新闻(1228～0103)

GAN InstaGAN 图像转换

韩研究员用生成对抗网络，让照片人物的长裤变短裙

韩国科学技术研究院（KAIST）和浦项工科大学的研究员，利用生成对抗网络（GAN）打造一套图像转换系统InstaGAN，能将原本照片人物的裤装，转换为真实度高的裙装，或是将风景图中的羊群，变成一群长颈鹿。一般运用于图像的GAN，由2套互相竞争的神经网络组成，包括生成样本的生成器，以及评鉴生成样本和真实样本的鉴别器，但若要生成变化大的图像，则不易成功。而InstaGAN整合了多种目标物件的实例讯息，也就是物件分割掩码（Object segmentation masks，即同个物件的画素组），完好地结合目标物件的边界，忽略颜色等细节，同时转换图像及相对应的实例属性集，并保留背景。

为测试InstaGAN，研究员采用了多种数据集（包括微软图像数据集COCO、Multi-Human Parsing和）的两类图像，与公认的图像转换系统CycleGAN比较。结果显示，InstaGAN较能保留背景，并生成合理的图像。（详全文）

微软 AI Labs AI基因分析

迈向精准医疗！台湾微软与台湾人工智能实验室发表AI基因分析平台

台湾微软和台湾人工智能实验室（AI Labs）近日发表AI基因分析平台TaiGenomics，来进一步发展精准医疗。精准医疗有别于传统医疗，除了一般性检测，还需透过基因检测和生物检测，来达到个人化的治疗。而AI Labs研究全基因定序和变异分析已有6个多月，采用微软Azure服务，开发出TaiGenomics，借助AI来进行全基因体定序、序列分析、基因变异分析、文献比对，建立出模组化分析流程，而基因分析的变异资料，能协助医生判断和预测患病概率。这一做法，也预计将大幅减少人工比对资料的时间，以及降低基因检测成本。（详全文）

AI Maximum Entropy RL 机器人运动

Google Brain科学家联合加州柏克莱大学，设计一套能教机器人走路的算法

Google Brain科学家与加州柏克莱大学研究员，开发一套算法，能教四只脚的机器人，来爬行已知与未知的陆面。研究员首先表示，近来深度增强式学习广泛用于模拟世界中的运动策略，再转移到真实世界的机器人上，但由于模拟落差，导致表现不佳。研究员因而采用最大熵法则的增强式学习（Maximum Entropy RL），不需模拟训练，就能学习运动技能。

在真实世界测试时，研究员将AI模型套用到4只脚的机器人Minitaur上，利用工作站(Workstation)更新神经网络、下载Minitaur资料和上传policy，并放置一台Nvidia Jetson TX2于机器人上，来执行policy、搜集和上传资料。经过2小时16万步的训练，Minitaur能在平面地形行走，也能上坡、上阶梯，以及经过有木头路障的平面，这些场景在训练时并未出现。（详全文）

滴滴 增强式学习 派车

滴滴设计新RL算法，来提高派车效率

中国叫车龙头滴滴日前设计一套新算法，能加强分派司机的效率。这个算法以增强式学习（RL）为基础，RL透过奖惩让AI代理人来完成目标，而在滴滴的例子中，AI代理人就是司机，奖励则是载客后得到的车费。滴滴原本的派车算法有2个部分，分别是预测乘车人需求变化的系统，以及依照这些预测来派车的系统。但这个方式无法因应供需变化，还需重新训练预测系统，以达到更精准的预测。而新方法则是将2个部分合而为一，算法能根据每项后续资料，来学习更有效率地派车，能根据供需变化自动调整，不需要重新训练。滴滴计划采用该算法，但尚未公布确切时间。（详全文）

科技部 AI 医疗影像数据库

国内首个跨院所医疗影像标注数据库上线，加速医疗影像的AI应用

科技部日前与台湾大学、台北荣总和台北医学大学三大医疗团队，共同宣布国内第一个跨院所的医疗影像数据库正式启动。这个数据库的诞生，来自2017年科技部启动的“医疗影像专案计划”，当时医界与学界AI团队合作，结合医疗人员标注影像资料，要开发能自动分析医疗影像的算法。经过一年，这个医疗影像标注数据库集结了46540个病例的医疗影像，超过500万张的医疗影像，涵盖脑转移瘤、肺癌、心脏冠状动态脉等重大疾病。科技部表示，未来藉医疗影像标注资料开发出AI分析工具，能快速协助医生判读医学影像，也能帮助人力不足的偏乡医疗。（详全文）

AI 指甲感应器 疾病追踪

IBM科学家以指甲感应器及AI来追踪疾病

IBM科学家日前展示了一指甲感应器原型，能侦测指甲的弯曲与移动，并传送到执行机器学习模型的智慧手表上，以用来侦测人体的健康状态与疾病的进展。该指甲感应器包括一个应变计（Strain Gauges）与一个小型运算器，能够持续测量手指的弯曲与移动，并将所搜集的数据传送到智慧手表上，让这个能执行多种机器学习模型的智慧手表，来评估这些数据，以判断是否有运动迟缓、颤抖及运动障碍等帕金森氏症症状。该研究已刊登在《科学报告》（Scientific Reports）期刊上。（详全文）

脸书 语音辨识 开源

脸书开源第一个使用CNN的端到端语音辨识系统

脸书近日释出自动语音辨识的卷积方法，也开源端到端语音辨识系统wav2letter++。这个自动语音辨识方法使用卷积神经网络（CNN）进行声音建模和语言建模，好处是可以轻松扩展到其他语言，而直接从原始语音学习，也是解决音讯品质变化大的好方法。脸书释出全新自动语音辨识的卷积方法的同时，也释出了快速且灵活的独立机器学习函式库Flashlight和wav2letter++开发框架，让其他开发者也能实作出相同的成果。（详全文）

Twilio Autopilot Chatbot

Twilio聊天机器人平台Autopilot开始支援脸书，加速企业打造Chatbot应用

提供云端通讯服务的Twilio，先前释出AI平台Autopilot，加速企业用户开发客制化的Chatbot服务。近日，该公司进一步扩大Autopilot的产品布局，开始支援脸书Messenger，方便使用者打造Chatbot应用。Twilio Autopilot透过单一API，存取多个通讯管道，能将Chatbot应用部署至多平台，包括简讯、语音，或是智慧助理如Alexa、Google Assistant。该公司认为，借此能提高终端用户的一致性体验。不过，支援脸书Messenger的Autopilot，还只在Beta阶段。（详全文）

Google Google Lens 影像辨识

10亿种产品都认得！Google Lens影像辨识力超强

Google日前宣布其AI影像辨识技术Google Lens已能辨识10亿多个物件。Google Lens于前年5月首次亮相，是以AI和电脑视觉为基础的影像文字辨识技术，让用户可以手机拍摄食谱后，将其食材加入购物清单，或拍摄名片后加入联络人名单。为训练Google Lens，开发小组打造了光学字元辨识（OCR）引擎，再结合由Google 搜寻和知识图谱（Knowledge Graph）累积的语言知识，再以Google Books扫描而来的不同字元、语言、字体、及图画来训练机器学习算法。 Google表示，Google Lens现在的表现是首次推出时的4倍。现在，Google利用自家OCR引擎做其他用途，像是读取产品标签。（详全文）

图片来源／Sangwoo Mo et al.、台湾微软、Tuomas Haarnoja、IBM、Google

AI趋势近期新闻

1. 脸书开源可即时模糊VR背景的AI系统DeepFocus

2. 台湾人工智能学校1岁了！学员大秀年度成果，甚至有能及时预警病情恶化的系统

3. 美高中生靠机器学习辨识地面易燃物，助加州政府防范森林野火

资料来源：iThome整理，2019年1月