报价宝 > 资讯 >

AI 解数学题，答案是对的过程却是错的？DeepMind 新研究改进谷歌思维链方法

消息来源:baojiabao.com 作者: 发布时间：2024-05-09

报价宝综合消息AI 解数学题，答案是对的过程却是错的？DeepMind 新研究改进谷歌思维链方法

AI 做数学题的成绩又又又被刷新了！

众所周知，随着谷歌思维链（chain of thought）概念的提出，AI 做题时已经能像人类一样生成解题步骤。

这次，来自 DeepMind 的科学家提出了一个切实的问题：如何确保解题步骤和答案的双重正确率？

为此，他们在 GSM8K 数据集上全面对比了基于过程和基于结果的监督方法，并结合二者优势训练出一个最佳模型。

结果表明，新模型的答案错误率从 16.8% 降低到 12.7%，解题步骤的错误率也从 14.0% 降低到了 3.4%。

步骤 + 答案双重保障

在介绍新研究前，不得不先提到谷歌今年 1 月在论文中提出的思维链概念。

简单来说，思维链提示就是一种特殊的上下文学习，不同于标准提示只是给出输入-输出对的示例，思维链提示还会额外增加一段推理的过程。

该方法在 LaMDA-137B、GPT-3 175B、PaLM-540B 三个大型语言模型上都得到了验证：对比标准提示，新方法在一系列算术推理等任务上的准确率都有了明显的提高。

但该方法存在的一个问题是，在某些情况下，AI 能生成正确答案，但推理过程却是错误的。

现在，来自 DeepMind 的研究人员，针对这一点做出了改进：不仅只关注最终结果，也注重推理过程的准确性。

为此，他们对自然语言处理任务中基于过程和结果的方法进行了首次全面比较。

具体来说，包括以下不同场景：少样本提示、有监督的微调、通过专家迭代的强化学习以及重排序和强化学习的奖励模型。

而之所以选择 GSM8K 数据集，一来因为它是由小学数学应用题组成，答案都是整数解，方便准确性统计；

二是 GSM8K 数据集具有对推理步骤的离线监督，以及在线人工标注。

从结果上看，第一，基于过程和基于结果的方法在最终答案错误率上近乎一致。这也意味着，仅靠结果监督就足以实现较低的答案错误率。

第二，推理步骤准确率的提升则需要过程监督或模仿它的奖励模型。尽管最终答案错误率相似，但从下图可以看出，结果监督（19.8%）比过程监督（11.4%）的推理错误率明显要高。

除此之外，研究人员还结合二者优势，训练出一个最佳模型，即将监督学习与基于奖励模型的强化学习相结合。

新模型的答案错误率从以前的最佳水平 16.8% 降低到 12.7%，并且，答案正确、推理过程却错误的情况也从 14.0% 降低到了 3.4%。

当允许模型对 30% 的问题进行回避时，最终答案的错误率甚至能达到 2.7%。

研究团队

本篇论文的研究团队来自 DeepMind，共同一作有三位：Jonathan Uesato、Nate Kushman、Ramana Kumar。

论文链接：

https://arxiv.org/pdf/2211.14275.pdf

本文来自微信公众号：量子位（ID：QbitAI），作者：羿阁

2022-12-21 11:40:57

美国法院裁定阿里须为Squishmallows玩具侵权案答辩
2023-12-28 19:59:34
小米汽车传员工3700人雷军称小米汽车不可能卖9万9
2023-12-28 19:41:57
国家新闻出版署:认真研究《网络游戏管理办法(草桉徵求意见稿)》关切实行前进一步完善
2023-12-28 19:14:56
天猫新规可以无条件申请“仅退款”了？淘宝天猫又离狗多多零元购近了一步
2023-12-28 18:57:55
印度以打击金融犯罪为由逮捕了两名 vivo 高管
2023-12-26 16:49:01
在国外微信收不到国内信息？微信和WeChat将被拆分
2023-12-15 10:40:15
苹果iPhone15 系列手机发布最新消息预计上市发布时间9月
2023-08-06 23:21:02
华为将发布鸿蒙HarmonyOS4操作系统功能五大升级支持设备清单
2023-08-06 23:17:37
整治自媒体网红账号 400万粉丝网红发布擦边视频被无限期封禁
2023-07-12 09:56:09
网传微信文件传输助手是真人是真的吗?微信官方回应
2023-06-27 15:53:32
电信移动送手机成了“信用购”？你上了运营商的贷款套路了吗？
2023-06-12 17:18:55
中国电信广东地区崩了无信号客服回应已在核实处理
2023-06-08 15:39:04
消息称小米新能源汽车价格表正讨论定价区间：双版本不同配置，高配或超 35 万元
2023-03-06 12:56:03
华为因制裁被传或分拆剥离手机业务? 内部人士回应:可能性不大.
2023-03-05 23:26:41
OPPO正式发布安第斯智能云，让终端更智能
2023-02-24 16:02:27
华为与OPPO签订全球专利交叉许可协议包括5G蜂窝通信专利
2023-02-24 16:02:26
老蛙将推MINI镜头新品：目前未知具体规格官宣将于12月20日发布
2023-02-24 16:02:26
首发全新35mm定制光学系统努比亚Z50性能同样强悍
2023-02-24 16:02:25
Redmi K60屏幕细节曝光：全系标配2K护眼柔性直屏+5000mAh大容量电池
2023-02-24 16:02:25
OPPO Find N2今天发合金金属折叠屏更轻了
2023-02-24 16:02:24

AI 解数学题，答案是对的过程却是错的？DeepMind 新研究改进谷歌思维链方法

步骤 + 答案双重保障

研究团队

品牌选车