APP下载

AI趋势周报第154期:OpenAI零样本学习新作CLIP,不靠128万样本就完胜ResNet50

消息来源:baojiabao.com 作者: 发布时间:2026-05-24

报价宝综合消息AI趋势周报第154期:OpenAI零样本学习新作CLIP,不靠128万样本就完胜ResNet50

OpenAI以Transformer架构打造自然语言-图片预训练模型CLIP,具零样本学习能力,在一次试验中,CLIP模型无须以ImageNet中128万个样本来优化,就能达到与ResNet50同等的表现,且稳健性差距缩小了75%。

图片来源: 

OpenAI

重点新闻(0101~0107)

 自然语言    图像    CLIP  

OpenAI发布预训练模型CLIP,可从自然语言学习视觉概念

OpenAI近日不仅发表超大图像生成模型DALL·E,也同时发布了一套文字和图像预训练模型CLIP,可根据自然语言,来学习视觉概念。OpenAI指出,使用者只要提供图像类别名称,就可直接将CLIP应用于任何影像分类的基准测试(Benchmark),无须优化。这点类似于OpenAI先前开发的超大NLP模型GPT-2和GPT-3的零样本学习能力(Zero-shot learning)。

OpenAI指出,尽管深度学习颠覆了电脑视觉领域,但目前的学习方法仍存在诸多问题,比如,要建立大型电脑视觉资料集,需耗费大量人力,而且这些大型资料集,多半只用于少数特定任务。再来,主流的电脑视觉模型,只对单一项任务有极好的表现,若要让模型学习新任务,还得花大量时间调校;此外,在基准测试上表现良好的模型,往往在压力测试上让人失望。

为克服这些挑战,OpenAI利用网络上各式各样的文字和图片,来训练类神经网络CLIP,让模型在文字的监督下,来执行各种电脑视觉分类的基准测试任务。OpenAI指出,CLIP的特点在于,能从未过滤、多样且高度噪声的资料中学习,而且CLIP模型比ImageNet的模型还更灵活,在一场试验中,CLIP模型无须针对基准测试优化,也就是不必利用ImageNet上128万个样本来优化,就能达到与经典模型ResNet50相当的表现,且两者的稳健性差距缩小了75%。(详全文)

OpenAI     DALL·E     图像生成  

GPT-3也有影像生成版!OpenAI的Transformer新作DALL·E靠百亿参数准确望文生图

OpenAI近日发表最新影像生成类神经网络DALL·E,拥有120亿个参数,可根据文字叙述来产生相对应的图片。OpenAI在去年6月发表基于Transformer架构的超大自然语言处理(NLP)模型GPT-3,多达1,750亿个参数,可根据自然语言输入值来产生新文本,而今,OpenAI以Transformer打造DALL·E。这个AI模型不只是GPT-3的影像生成版,OpenAI更直言“现已能透过文字来操控视觉概念了。”

DALL·E功能强大,不需额外训练,就能进行视觉推理(也就是Zero-shot零样本学习)。它也能控制物件属性,将文字中不相关的概念,以合理图像呈现,像是以图呈现“绿色五角形的时钟”的叙述;又比如,DALL·E能控制多个物件及其属性和空间关系,像是准确在图中呈现“绿色大积木和叠在上面的红色小方块”的空间分布,或是“穿着黄裤子、绿上衣,戴红手套和蓝帽子的企鹅宝宝表情符号”。另一个例子则是DALL·E可控制场景视角和渲染场景的3D模式,像是能呈现“由立体像素构成的水豚,坐在田野中”的图像。不过,OpenAI也表示,模型某些功能的精准度,还有赖于文字叙述的结构。(详全文)

  食药署    医材新法       法规松绑 

5月医材新法上路,食药署研拟3指引松绑AI智慧医材软件上市前验证流程

卫福部食药署署长吴秀梅日前在生策会年会上指出,为配合今年5月1日即将上路的医材新法,食药署将研订三项新指引和原则,来简化智慧医材产品上市前的验证流程,甚至符合特定情况者,不需提出申请。

进一步来说,这些指引,包括了对医疗影像AI应用的规范,也就是电脑辅助侦测(CADe)审查要点指引,以及制定原则,来让特定医疗器材软件(SaMD)不须向食药署提出变更申请,最后要定义出不需向食药署提出申请的无显著风险(NSR)医材临床试验类别。如此一来,就能加速产业进行临床试验的过程。

与此同时,食药署也准备成立专案办公室,来协助产业因应将上路的新法,快速推出产品,并推动医疗业与其他产业的跨域整合。(详全文)

  IBM     AI工具     云端运算  

IBM国际调查:95%IT主管盼藉AI和自动化工具来改造IT

IBM近日释出一份针对英国和美国的CIO与CTO大调查报告,310位受访者中,95%希望藉云端工具如AI、自动化和资料分析等,来推动企业IT现代化发展。

但报告也指出,虽然云端运算和数据驱动策略一直是企业讨论的热门话题,但许多大型和中型企业,仍未做好数位转型准备。因为60%受访者指出,其IT现代化专案仍不足以因应未来状况,甚至每4人中,就有1人表示其公司才刚展开IT基础设施的现代化作业。(详全文)

 Uber     AI语音助理    自然语言  

Uber让AI语音助理说话更有礼貌

Uber研究显示,AI代理使用的社交语言,与使用者的反应和任务完成度息息相关,因此Uber希望打造更有礼貌的对话代理模型,要让模型使用恰当的社交语言,且兼顾回复内容。

Uber将研究重点放在客户服务,可分为两部分,第一是探讨客户服务代表,以友善言语时所获得的驾驶回应,还有与第一趟车程的关联;第二部分以第一部分为基础,包括23万多笔资料,来训练社交语言理解、语言生成元件的语言模型,并由人类评估人员,标记礼貌与正向标签。Uber总结,改变语言模型输出讯息的礼貌程度,确实可让驾驶更快回应,并且遵循最佳作法,包括行为举止更礼貌,并且使用更正向的语言。(详全文)

Nvidia   增强学习    模拟环境 

Nvidia靠GPU助力,推出增强学习模拟环境Isaac Gym

Nvidia发布增强学习(Reinforcement Learning)研究用的物理模拟环境Isaac Gym预览版,借着GPU的平行运算能力,可将过去需要数千个CPU核心参与训练的任务,移到GPU上,靠单个GPU就能完成训练。

Isaac Gym采用Nvidia的PhysX GPU加速模拟引擎,不只能更快执行物理模拟,还能让增强学习的观察和奖励运算,得以在GPU上执行,解决运算效能瓶颈,特别是GPU和CPU之间高成本的资料传输。Isaac Gym透过实作这两大功能,提供了完整端到端GPU增强学习工作流程。(详全文)

 

 

摄影/王若朴

图片来源/OpenAI、Nvidia

 AI趋势近期新闻 

1. 不求奖励的RL代理就更像人类吗?Google Brain联手多伦多大学来解答

2. 康乃尔大学打造新模型,可从不同相机视角重建3D人体

3. 自驾车虚拟环境模拟器有新工具了,商汤发表PGDrive来改善自驾代理的通用能力

资料来源:iThome整理,2021年1月

2021-01-07 15:49:00

相关文章