ChatGPT 大战司法考试,无需微调一类试题达到人类水平,医学化学公务员试题都能答
消息来源:baojiabao.com 作者: 发布时间:2026-05-19
ChatGPT 的下一个新身份 -- 做题家!
这不,它已经在人类各个考试中开"卷"了。
律师、医生、注会什么的,它都开始纷纷展露身手。
比如,全球考生都头疼的司法考试,现在 ChatGPT 在两项试题达到了合格率,其中一项还跟人类水平持平。(还是在没有任何微调的基础上)
"成绩"一出,瞬间引发巨大关注,网友:Amazing~
还有人表示,要是让它来参加 SAT 或 AP 考试,应该会很有趣。
咳咳,要是公务员考试呢?
咱们结尾见分晓!
两项法考试题合格
具体就先来看看 ChatGPT 在司法考试中的表现如何。
美国大多数州统一的司法考试(UBE),有三个组成部分:选择题(多州律师考试,MBE)、作文(MEE)、情景表现(MPT)。
选择题部分,由来自 8 个类别的 200 道题组成,通常占整个律师考试分数的 50%。
在这项研究中,研究人员对 OpenAI 的 text-davinci-003 模型(通常被称为 GPT-3.5)在 MBE 的表现进行评估。
(ChatGPT 正是 GPT-3.5 面向公众的聊天机器人版本。)
为了测试实际效果,研究人员购买了官方组织提供的标准考试准备材料,包括练习题和模拟考试。每个问题的正文都是自动提取的,其中有四个多选选项,并与答案分开存储,答案仅由每个问题的正确字母答案组成,也没有对正确和错误的答案进行解释。
随后,研究人员分别对 GPT-3.5 进行了提示工程、超参数优化以及微调的尝试。结果发现,超参数优化和提示工程对 GPT-3.5 的成绩表现有积极影响,而微调没有任何效果。
在提示工程中,他们共测试了 7 种提示类型。
1、只做单项选择;
2、单项选择和解释;
3、只做前两个选择;
4、前两个选择和解释;
5、前两个选择和重新提示;
6、对所有选择进行排序;
7、对前三个选择进行排序。
研究人员在上述的提示和参数值中执行了 107 次样本考试。结果在这些提示中,提示风格#7 的前三个选项排序表现最好,他们共收集了 41 个样本,对这个提示进行参数组合。
超参数优化中,他们评估了包括温度系数、top p、best of、max tokens 等参数。
最终在完整的 MBE 练习考试中达到了 50.3% 的平均正确率,大大超过了 25% 的基线猜测率,并且在证据和侵权行为两个类型都达到了平均通过率。尤其是证据类别,与人类水平持平,保持着 63% 的准确率。
在所有类别中,GPT 平均落后于人类应试者约 17%。在证据、侵权行为和民事诉讼的情况下,这一差距可以忽略不计或只有个位数。
但总的来说,这一结果都大大超出了研究人员的预期。
因为它对答案排序与正确性有很强的相关性,Top2 和 Top3 的选择分别有 71% 和 88% 的正确率。其中"Top2"的准确率全都超过了极限,有五个类别均超过了人类平均水平。而"Top3"的准确度更高,在证据这一表现中甚至达到了 98%。
这也证实了它对法律领域的一般理解,而非随机猜测。接下来他们将进一步对法考的其他两部分:作文和情景表现进行上述的研究。
ChatGPT 能当考霸吗?
谷歌资深软件工程师肯尼斯・古德曼(Kenneth S. Goodman)就拿 ChatGPT 做了一系列测试,涉及司法、医学、会计学、化学等多个领域。
分数最高的一门是纽约州高中毕业英语语言艺术考试,ChatGPT 正确率达到了 91.6%。
因为是 2022 年 8 月的考试,所以 ChatGPT 数据库中肯定不包含考试内容。对于陌生的 24 道考题,它只错了 2 题。
物理 / 化学考试中,ChatGPT 的表现也不错,正确率达到了 77.7%,45 道题目中答对了 35 道。
前不久,谷歌医疗大模型 Med-PaLM 通过美国医师执照试题(USMLE)验证。
ChatGPT 也不甘于落后,同样挑战了 USMLE 的第一阶段基础医学考试。
去掉有图像的题目后(因无法输入对话框),ChatGPT 正确率达 70%。
其余则是在司法方面,工程师肯尼斯老哥让 ChatGPT 尝试了一些非正式题目。
比如美国律师职业道德考试(MPRE)的示例题目(共 15 道),ChatGPT 答对了 9 道,正确率 60%。
面对 50 道律师资格考试模拟试题,ChatGPT 的正确率也维持在了 70%,答对 35 道。
此外,在佛罗里达农工大学法学院的入学考试中,ChatGPT 取得了 149 分,排名在前 40%。其中阅读理解类题目表现最好。
表现最差的,还是数学题。
在 CPA 注会考试中,ChatGPT 的正确率只有 40%。肯尼斯老哥还在尝试一些调教方法,让它更聪明一些。
总之,ChatGPT 在各种考试中的表现,还是让人有些意外。
有网友已经产生危机感了:
damn,我的工作要被抢了!
有人分析,如果直接让 AI 来插手司法相关的判断,风险真的很大,但如果后期有专人来审核它的输出结果,那么 AI 将能够很好提升律师的工作效率。
还有人表示,如果能保证任何数据都不泄露的话,那 ChatGPT 将能够推动更多行业平民化。
或许正如肯尼斯老哥说的那样,人类 + 电脑的组合已经超越了人类自身能力,这就是计算机当下正在进行的突破。
One More Thing
最后,我们也让 ChatGPT 试了试国内法考的题目~
先说结果,3 道选择题,ChatGPT 都没有答对…… 虽然解释得头头是道,但它应该确实没有读过我国的法条。
换成公务员行测试题呢?没想到 ChatGPT 的答案对了,可是过程和答案似乎完全没关系……
这…… 怎么感觉 AI 秒算结果,但随便编了个过程来糊弄人类啊
参考链接:
[1]https://twitter.com/_akhaliq/status/1609734525461975040
[2]https://github.com/mjbommar/gpt-takes-the-bar-exam
[3]https://arxiv.org/abs/2212.14402
[4]https://twitter.com/pythonprimes/status/1601664776194912256
本文来自微信公众号:量子位 (ID:QbitAI),作者:杨净 明敏
2023-01-06 14:43:17相关文章
炒港股要补交多少税?我也接到催交补税特别行动的电话了2025-07-23 17:36:43
淘宝天猫仅退款属于诈骗吗?淘宝天猫开始部分取消仅退款2024-10-01 13:01:28
哈啰app借钱|哈啰借钱app下载安装免费小小上当和电话骚扰2024-10-01 11:22:38
白嫖党|山西大同大学学生网购申请“仅退款”被拒骂客服一小时2024-09-27 09:10:44
北大数学教授袁新意《姜萍事件的疑点分析》点评姜萍板书 阿里巴巴竞赛受质疑2024-06-28 10:07:40
天猫新规可以无条件申请“仅退款”了?淘宝天猫又离狗多多零元购近了一步2024-06-28 09:27:13
美国法院裁定阿里须为Squishmallows玩具侵权案答辩2023-12-28 19:59:34
小米汽车传员工3700人 雷军称小米汽车不可能卖9万92023-12-28 19:41:57
国家新闻出版署:认真研究《网络游戏管理办法(草桉徵求意见稿)》关切 实行前进一步完善2023-12-28 19:14:56
印度以打击金融犯罪为由逮捕了两名 vivo 高管2023-12-26 16:49:01
在国外微信收不到国内信息?微信和WeChat将被拆分2023-12-15 10:40:15
苹果iPhone15 系列手机发布最新消息 预计上市发布时间9月2023-08-06 23:21:02
华为将发布鸿蒙HarmonyOS4操作系统 功能五大升级支持设备清单2023-08-06 23:17:37
整治自媒体网红账号 400万粉丝网红发布擦边视频被无限期封禁2023-07-12 09:56:09
网传微信文件传输助手是真人是真的吗?微信官方回应2023-06-27 15:53:32
电信移动送手机成了“信用购”?你上了运营商的贷款套路了吗?2023-06-12 17:18:55
中国电信广东地区崩了无信号 客服回应已在核实处理2023-06-08 15:39:04
消息称小米新能源汽车价格表正讨论定价区间:双版本不同配置,高配或超 35 万元2023-03-06 12:56:03
华为因制裁被传或分拆剥离手机业务? 内部人士回应:可能性不大.2023-03-05 23:26:41
OPPO正式发布安第斯智能云,让终端更智能2023-02-24 16:02:27














