DALL-E 2 语文水平被吐槽:金子和鱼画成真金・鱼,遇到一词多义就拉胯,失误率超 80%
消息来源:baojiabao.com 作者: 发布时间:2024-05-15
以画画水平高超而风靡全球的 DALL-E 2,语文水平被质疑了。
比如 bat 这个多义词,就把它给考住了。
a bat is flying over a baseball stadium(一只蝙蝠 / 球棍从棒球场上飞过)。
结果它画出来的图,蝙蝠和球拍都在天上飞。
而且这不是偶然的失误,如果输入"a person is hearing a bat",画出来的还是蝙蝠和球棒都存在。
换成另一种情况,输入 a fish and a gold ingot(一条鱼和一个金锭)。
好嘛,直接把两种东西都铸金了,变成真金・鱼。
可不能低估了这些失误,因为它们意味着 DALL-E 2 在根据文本生成图像的过程中,对语言中符号到实体的基本映射关系。
即一个词对应一个实体。
以 bat 举例,画出蝙蝠或者球棍,都算 DALL-E 2 理解正确,但是如果两个都给,那就有问题了。
这就好比本身是单选题,填 A 或 B 都对,可是把两个都写上就违反了规则。
更何况有时候它还把不同物体的修饰词弄错,"上一道题的解法用在下一道上"。
发现这一问题的,是来自巴伊兰大学、艾伦人工研究智能所的学者们,并且专门写了篇论文分析。
有趣的是,研究人员约阿夫・高柏(Yoav Goldberg)还提到,这种情况在 mini DALL-E 和 Stable Diffusion 中并不常见。
我猜这可能是因为所谓的逆规模现象(inverse scaling)。
简单理解就是"模型越大性能越差"。
论文具体说了啥?
几位学者在发现问题后,又反复进行了多次试验,并把问题主要划分为三种情况:
第一、一个单词被解释为两个不同的事物
第二、一个单词被解释为两个不同事物的修饰词
第三、一个单词在被解释为一个事物的同时,又被理解成另一种事物的修饰词
前两种情况开头已经提过。
第三种情况举例来说,输入"一匹斑马和一条街道",输出的结果中一直都有斑马线。
在这里,DALL-E 2 把斑马同时解释了两次。
在针对这些情况都重复试验后,作者计算出 DALL-E 2 在三种情况下,出现失误的概率都超过 80%。
其中第二种情况的失误率最高,达到 97.2%。
第三种情况下,如果给另一个名词前加上新的修饰词,可以避免失误发生。
即输入一匹斑马和一条碎石路,路面上就没有斑马线出现了。
而在用 DALL-E mini 和 Stable Diffusion 时,这些重复解释的情况并不常见。
作者解释,未来可以考虑研究模型的文本编解码器来追溯这些问题,并且可以研究这些问题和模型大小、框架是否有关系。
作者之一 Yoav Goldberg 是巴伊兰大学的杰出教授,也是艾伦人工智能研究院以色列分院的研究主任。
之前,他在纽约的谷歌研究中心做博士后。研究兴趣方向为 NLP 和机器学习,尤其对语法解析感兴趣。
还曾发现 DALL-E 2 自创语言
不过就在几个月之前,一位计算机专业的博士小哥发现,给 DALL-E 2 喂一些奇怪的语言,它也能生成同一类的图像。
而这些词,正是来自 DALL-E 2 生成图像中的。
比如输入"两个农民谈论蔬菜,带字幕(Two farmers talking about vegetables, with subtitles)"后,DALL-E 2 给出的图像中,出现了一些"乱码"的词汇。
而如果再把图像中的新词 Vicootes"当作描述丢给模型,没想到,出来这样一堆图像:
有萝卜、有南瓜、有小柿子…… 难道"Vicootes"就代表蔬菜?
如果再把上图气泡中一串"Apoploe vesrreaitais"扔给 DALL-E 2,一堆鸟图出现了:
"难道说,这个单词代表'鸟',所以农民们似乎在谈论影响他们蔬菜的鸟类?"
当时,这位博士小哥把自己的发现发布在网络上后,立刻引起热议。
有人试图分析 DALL-E 2 是如何加密语言的,还有人觉得这只是噪声。
不过总的来说,在语言理解方面,DALL-E 2 总能搞出点让人意想不到的事。
你觉得这背后原因到底是什么呢?
论文地址:
https://arxiv.org/pdf/2210.10606.pdf
参考链接:
https://twitter.com/yoavgo/status/1583088957226881025
本文来自微信公众号:量子位 (ID:QbitAI),作者:明敏
2022-12-21 17:52:25相关文章
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩
2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万9
2023-12-28 19:41:57
- 国家新闻出版署:认真研究《网络游戏管理办法(草桉徵求意见稿)》关切 实行前进一步完善
2023-12-28 19:14:56
- 天猫新规可以无条件申请“仅退款”了?淘宝天猫又离狗多多零元购近了一步
2023-12-28 18:57:55
- 印度以打击金融犯罪为由逮捕了两名 vivo 高管
2023-12-26 16:49:01
- 在国外微信收不到国内信息?微信和WeChat将被拆分
2023-12-15 10:40:15
- 苹果iPhone15 系列手机发布最新消息 预计上市发布时间9月
2023-08-06 23:21:02
- 华为将发布鸿蒙HarmonyOS4操作系统 功能五大升级支持设备清单
2023-08-06 23:17:37
- 整治自媒体网红账号 400万粉丝网红发布擦边视频被无限期封禁
2023-07-12 09:56:09
- 网传微信文件传输助手是真人是真的吗?微信官方回应
2023-06-27 15:53:32
- 电信移动送手机成了“信用购”?你上了运营商的贷款套路了吗?
2023-06-12 17:18:55
- 中国电信广东地区崩了无信号 客服回应已在核实处理
2023-06-08 15:39:04
- 消息称小米新能源汽车价格表正讨论定价区间:双版本不同配置,高配或超 35 万元
2023-03-06 12:56:03
- 华为因制裁被传或分拆剥离手机业务? 内部人士回应:可能性不大.
2023-03-05 23:26:41
- OPPO正式发布安第斯智能云,让终端更智能
2023-02-24 16:02:27
- 华为与OPPO签订全球专利交叉许可协议 包括5G蜂窝通信专利
2023-02-24 16:02:26
- 老蛙将推MINI镜头新品:目前未知具体规格 官宣将于12月20日发布
2023-02-24 16:02:26
- 首发全新35mm定制光学系统 努比亚Z50性能同样强悍
2023-02-24 16:02:25
- Redmi K60屏幕细节曝光:全系标配2K护眼柔性直屏+5000mAh大容量电池
2023-02-24 16:02:25
- OPPO Find N2今天发 合金金属折叠屏更轻了
2023-02-24 16:02:24