442 个作者,100 页论文一半都是参考文献,谷歌耗时 2 年发布开源大模型新基准 BIG-Bench
消息来源:baojiabao.com 作者: 发布时间:2024-05-20
一篇 AI 论文,442 个作者,其中还专门留了一章节写作者贡献,100 页里超过一半都是参考文献……
谷歌最新发布的论文 --Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models 作者那一栏就变成了这样……
来自 132 个机构的研究学者,耗时两年提出了一个大语言模型新基准 BIG-bench。并在此基础上评估了 OpenAI 的 GPT 模型,Google-internal dense transformer 架构等,模型规模横 6 个数量级。
最终结果显示,模型性能虽然随着规模的扩大而提高,但跟人类的表现相差还很远。
对于这项工作,Jeff Dean 转发点赞:Great Work。
大语言模型新基准
来康康这篇论文究竟说了什么。
随着规模的扩大,模型的性能和质量都有一定的改进,这当中可能还存在一些变革性影响,但这些性能此前都没有很好的描述。
现存的一些基准都有一定的局限性,评估范围比较狭窄,性能分数迅速达到饱和。
比如 SuperGLUE,在该基准推出后的 18 个月内,模型就实现了"超过人类水平"的性能。
基于这样的背景,BIG-bench 就诞生了。
目前它由 204 个任务组成,内容涵盖语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等方面的问题。
此外还有个人类专家评审团,也执行了所有任务,以提供基线水平。
为了方便更多机构使用,研究人员还给出了 BIG-bench Lite,一个小型但有代表性的任务子集,方便更快地评估。
以及开源了实现基准 API 的代码,支持在公开可用的模型上进行任务评估,以及新任务的轻量级创建。
最终评估结果可以看到,规模横跨六个数量级,BIG-bench 上的总体性能随着模型规模的扩大、训练样本数量的增加而提高。
但跟人类基线水平相比,还是表现得比较差。
具体在一些任务上,模型性能会随着规模的增加而平稳地提高。但有时候,会在特定规模上突然出现突破性表现。
此外,它还可以评估模型存在的社会偏见。
此外,他们还意外发现模型还可以 get 一些隐藏技能。比如,如何在国际象棋中合乎规则的移动。
作者贡献写了 14 页
值得一提的是,可能因为作者过多,论文最后还专门留了一章写作者贡献。洋洋洒洒的写了 14 页,其中包括核心贡献者、Review 的、提供任务的……
剩下的,还有 50 页的参考文献。
好了,感兴趣的旁友可戳下方链接康康论文。
论文链接:
https://arxiv.org/abs/2206.04615
GitHub 链接:
https://github.com/google/BIG-bench
2022-12-19 18:01:04相关文章
- 美国法院裁定阿里须为Squishmallows玩具侵权案答辩
2023-12-28 19:59:34
- 小米汽车传员工3700人 雷军称小米汽车不可能卖9万9
2023-12-28 19:41:57
- 国家新闻出版署:认真研究《网络游戏管理办法(草桉徵求意见稿)》关切 实行前进一步完善
2023-12-28 19:14:56
- 天猫新规可以无条件申请“仅退款”了?淘宝天猫又离狗多多零元购近了一步
2023-12-28 18:57:55
- 印度以打击金融犯罪为由逮捕了两名 vivo 高管
2023-12-26 16:49:01
- 在国外微信收不到国内信息?微信和WeChat将被拆分
2023-12-15 10:40:15
- 苹果iPhone15 系列手机发布最新消息 预计上市发布时间9月
2023-08-06 23:21:02
- 华为将发布鸿蒙HarmonyOS4操作系统 功能五大升级支持设备清单
2023-08-06 23:17:37
- 整治自媒体网红账号 400万粉丝网红发布擦边视频被无限期封禁
2023-07-12 09:56:09
- 网传微信文件传输助手是真人是真的吗?微信官方回应
2023-06-27 15:53:32
- 电信移动送手机成了“信用购”?你上了运营商的贷款套路了吗?
2023-06-12 17:18:55
- 中国电信广东地区崩了无信号 客服回应已在核实处理
2023-06-08 15:39:04
- 消息称小米新能源汽车价格表正讨论定价区间:双版本不同配置,高配或超 35 万元
2023-03-06 12:56:03
- 华为因制裁被传或分拆剥离手机业务? 内部人士回应:可能性不大.
2023-03-05 23:26:41
- OPPO正式发布安第斯智能云,让终端更智能
2023-02-24 16:02:27
- 华为与OPPO签订全球专利交叉许可协议 包括5G蜂窝通信专利
2023-02-24 16:02:26
- 老蛙将推MINI镜头新品:目前未知具体规格 官宣将于12月20日发布
2023-02-24 16:02:26
- 首发全新35mm定制光学系统 努比亚Z50性能同样强悍
2023-02-24 16:02:25
- Redmi K60屏幕细节曝光:全系标配2K护眼柔性直屏+5000mAh大容量电池
2023-02-24 16:02:25
- OPPO Find N2今天发 合金金属折叠屏更轻了
2023-02-24 16:02:24