AI趋势周报第154期：OpenAI零样本学习新作CLIP，不靠128万样本就完胜ResNet50最新消息

OpenAI以Transformer架构打造自然语言-图片预训练模型CLIP，具零样本学习能力，在一次试验中，CLIP模型无须以ImageNet中128万个样本来优化，就能达到与ResNet50同等的表现，且稳健性差距缩小了75％。

图片来源:

OpenAI

重点新闻(0101～0107)

自然语言 图像 CLIP

OpenAI发布预训练模型CLIP，可从自然语言学习视觉概念

OpenAI近日不仅发表超大图像生成模型DALL·E，也同时发布了一套文字和图像预训练模型CLIP，可根据自然语言，来学习视觉概念。OpenAI指出，使用者只要提供图像类别名称，就可直接将CLIP应用于任何影像分类的基准测试（Benchmark），无须优化。这点类似于OpenAI先前开发的超大NLP模型GPT-2和GPT-3的零样本学习能力（Zero-shot learning）。

OpenAI指出，尽管深度学习颠覆了电脑视觉领域，但目前的学习方法仍存在诸多问题，比如，要建立大型电脑视觉资料集，需耗费大量人力，而且这些大型资料集，多半只用于少数特定任务。再来，主流的电脑视觉模型，只对单一项任务有极好的表现，若要让模型学习新任务，还得花大量时间调校；此外，在基准测试上表现良好的模型，往往在压力测试上让人失望。

为克服这些挑战，OpenAI利用网络上各式各样的文字和图片，来训练类神经网络CLIP，让模型在文字的监督下，来执行各种电脑视觉分类的基准测试任务。OpenAI指出，CLIP的特点在于，能从未过滤、多样且高度噪声的资料中学习，而且CLIP模型比ImageNet的模型还更灵活，在一场试验中，CLIP模型无须针对基准测试优化，也就是不必利用ImageNet上128万个样本来优化，就能达到与经典模型ResNet50相当的表现，且两者的稳健性差距缩小了75％。（详全文）

OpenAI DALL·E 图像生成

GPT-3也有影像生成版！OpenAI的Transformer新作DALL·E靠百亿参数准确望文生图

OpenAI近日发表最新影像生成类神经网络DALL·E，拥有120亿个参数，可根据文字叙述来产生相对应的图片。OpenAI在去年6月发表基于Transformer架构的超大自然语言处理（NLP）模型GPT-3，多达1,750亿个参数，可根据自然语言输入值来产生新文本，而今，OpenAI以Transformer打造DALL·E。这个AI模型不只是GPT-3的影像生成版，OpenAI更直言“现已能透过文字来操控视觉概念了。”

DALL·E功能强大，不需额外训练，就能进行视觉推理（也就是Zero-shot零样本学习）。它也能控制物件属性，将文字中不相关的概念，以合理图像呈现，像是以图呈现“绿色五角形的时钟”的叙述；又比如，DALL·E能控制多个物件及其属性和空间关系，像是准确在图中呈现“绿色大积木和叠在上面的红色小方块”的空间分布，或是“穿着黄裤子、绿上衣，戴红手套和蓝帽子的企鹅宝宝表情符号”。另一个例子则是DALL·E可控制场景视角和渲染场景的3D模式，像是能呈现“由立体像素构成的水豚，坐在田野中”的图像。不过，OpenAI也表示，模型某些功能的精准度，还有赖于文字叙述的结构。（详全文）

食药署 医材新法 法规松绑

5月医材新法上路，食药署研拟3指引松绑AI智慧医材软件上市前验证流程

卫福部食药署署长吴秀梅日前在生策会年会上指出，为配合今年5月1日即将上路的医材新法，食药署将研订三项新指引和原则，来简化智慧医材产品上市前的验证流程，甚至符合特定情况者，不需提出申请。

进一步来说，这些指引，包括了对医疗影像AI应用的规范，也就是电脑辅助侦测（CADe）审查要点指引，以及制定原则，来让特定医疗器材软件（SaMD）不须向食药署提出变更申请，最后要定义出不需向食药署提出申请的无显著风险（NSR）医材临床试验类别。如此一来，就能加速产业进行临床试验的过程。

与此同时，食药署也准备成立专案办公室，来协助产业因应将上路的新法，快速推出产品，并推动医疗业与其他产业的跨域整合。（详全文）

IBM AI工具 云端运算

IBM国际调查：95％IT主管盼藉AI和自动化工具来改造IT

IBM近日释出一份针对英国和美国的CIO与CTO大调查报告，310位受访者中，95％希望藉云端工具如AI、自动化和资料分析等，来推动企业IT现代化发展。

但报告也指出，虽然云端运算和数据驱动策略一直是企业讨论的热门话题，但许多大型和中型企业，仍未做好数位转型准备。因为60％受访者指出，其IT现代化专案仍不足以因应未来状况，甚至每4人中，就有1人表示其公司才刚展开IT基础设施的现代化作业。（详全文）

Uber AI语音助理 自然语言

Uber让AI语音助理说话更有礼貌

Uber研究显示，AI代理使用的社交语言，与使用者的反应和任务完成度息息相关，因此Uber希望打造更有礼貌的对话代理模型，要让模型使用恰当的社交语言，且兼顾回复内容。

Uber将研究重点放在客户服务，可分为两部分，第一是探讨客户服务代表，以友善言语时所获得的驾驶回应，还有与第一趟车程的关联；第二部分以第一部分为基础，包括23万多笔资料，来训练社交语言理解、语言生成元件的语言模型，并由人类评估人员，标记礼貌与正向标签。Uber总结，改变语言模型输出讯息的礼貌程度，确实可让驾驶更快回应，并且遵循最佳作法，包括行为举止更礼貌，并且使用更正向的语言。（详全文）

Nvidia 增强学习 模拟环境

Nvidia靠GPU助力，推出增强学习模拟环境Isaac Gym

Nvidia发布增强学习（Reinforcement Learning）研究用的物理模拟环境Isaac Gym预览版，借着GPU的平行运算能力，可将过去需要数千个CPU核心参与训练的任务，移到GPU上，靠单个GPU就能完成训练。

Isaac Gym采用Nvidia的PhysX GPU加速模拟引擎，不只能更快执行物理模拟，还能让增强学习的观察和奖励运算，得以在GPU上执行，解决运算效能瓶颈，特别是GPU和CPU之间高成本的资料传输。Isaac Gym透过实作这两大功能，提供了完整端到端GPU增强学习工作流程。（详全文）