当前滚动:GPT-4满分通过MIT本科数学考试！这套提示词火了

时间：2023-06-17 15:05:12 来源：量子位

万万想不到啊，MIT数学考试，被GPT-4攻破了？！

(相关资料图)

突然有人在最新论文工作中高调宣布：

GPT-4在MIT的数学和EECS（电气工程和计算机科学系）本科学位考试中，表现出的能力完全满足毕业要求。

而且妥妥地拿下满分！

要知道，测出这个结果的不是别人，正是来自MIT和波士顿大学、康奈尔大学的研究团队。

而且强如上一代王者GPT-3.5，在同样的测试中，只成功搞定了三分之一。

△GPT-3.5考试成绩

论文一出，无数目光迅速被吸引过来。

GPT-4这样看似开挂的行为，自然引发了不少网友的感慨。

还有网友展现了自己网上冲浪的“前沿性”，玩了个这两天Yann LeCun吐槽“GPT-4智商不如狗”的梗：

GPT-4开挂MIT考试

具体来说，GPT-4这次是参与了这样一场测试：

研究团队策划了一个数据集，其中包含4550个问题和解决方案。

这4550个问题和解决方案，来自MIT数学系和EECS的学生获得本科学位，需要学习的课程问题集、期中考试和期末考试。

包括：

6-1：电气科学与工程；
6-2：电气工程与计算机科学；
6-3：计算机科学与工程；
6-4：人工智能与决策；
18-1：普通数学；
18-2：应用数学；
18-3：纯数学；
18-C：数学与计算机科学。

△每个专业的详细分类总结

题目统统出自MIT的数据集，从中随机生成228个问题，不涉及图像和已有解决方案的问题。

题目的难度等级由易到难依次为：练习、习题、期中考试、期末考试、实验和专题。

按答案类型排序，题目的难度由易到难依次为：编程、开放、选择题、数值、表达式和图像。

这一次，参与考试的不只有GPT-4和GPT-3.5，还有StableVicuna-13B、LLaMA-30B和LLaMA-60B。

选择让这4个大模型作为考试参赛选手，原因是它们是“最先进的大语言模型”。

△最终考试成绩

通过表格里的数据可以看到，得分最高的是经过调优后的GPT-4，得分率100%；表现最一般的是LLaMA-30B，只拿下了30%的分数。

值得关注的是，原始版本的GPT-4开箱即用，完全不经过调优，在本次MIT考试中也拿到了90%的分数。

调优流程，包括Few-Shot+CoT+Self-critique+Experts。

从最终考试成绩的表格数据可以看到，从左到右每增加一个环节，调优后的GPT-4得分都会更上一层楼。

此外，研究团队还在提示框里进行了工程优化，具体的“咒语”如下：

等等，评分人是GPT-4自己？

看到这样的结果，不少网友心生感慨，LLM在数学考试上的进步，未免有些神速了哈。

2年前，AI还在苦苦挣扎小学数学问题。

类似“小明种了5棵柠檬树，每年从每棵树上得到6个柠檬，10年间他总共得到多少柠檬”这种。

去年年初，MIT+哈佛+哥伦比亚大学+滑铁卢大学的联合研究表示，把数学问题转换成等价的编程问题，就可以让GPT-3的同门师兄弟——OpenAI的Codex掌握高数，达到MIT本科水平。

学了6门MIT本科基础数学课里随机抽取的例题，6门课程每门随机出25道题，再加上一个ACT水平（美国高考）的数据集里的60道题。

总计210道题，AI全部答对。

不过有人提出，AI达到的“MIT本科水平”，实际是Codex在做语言题而非数学题——

因为当时的评测中，Codex负责读写，并不包括求解。

所以，这一回GPT-4表现奇佳，怎一个妙字了得～

好了，知道你很着急夸它，但你先别着急夸它，因为很快有人发现了一些“诡异”。

主要有2大槽点。

第一个值得质疑一番的，就是OpenAI的训练数据集没有完全公布。

这也就意味着，无法证明数据集中的4550个问题和解决方案，在GPT-4的训练集中不存在。

换句话说，如果GPT-4在预训练阶段已经接触到了这次的考题们，那最终拿下完美得分，就没什么好惊喜的了。

也难怪乎有网友毫不客气地yygq，认定GPT-4拿到这样的结果，一定是数据集已经包含在训练数据里了。

第二个槽点，就是GPT-4最后100%的得分率，似乎哪里不对劲？？？

定睛一看，在论文的第2.6节有一句很关键的点：

团队在数据集上微调开源大模型，“给定问题Q、基本事实解S和LLM答案A，我们使用GPT-4自动对模型响应进行评分”。

实际操作上，就是每个大模型生成这次考试的答案，然后派出GPT-4打分，分值在0-5之间。

所以给GPT-4打出满分的，实际上是GPT-4自己。

啊这……很难说没有王婆卖瓜自卖自夸的嫌疑。

此外，关于要给GPT-4提供“好的提示”，才能让它达到满分成绩，也让许多人抱有微词。

到底什么算“好的提示”呢？似乎无法定义。

甚至有人喊着，应该把这些题丢给MIT数学和EECS的学生去做，并不断给他们“好的提示”，这样人类学生也能拿下100%的吧……

One More Thing

一个小小的彩蛋：

整个测试中，基本上可以在笔记本电脑上部署运行的StableVicuna-13B，也有48%的得分率。

这个成绩，不仅比模型更大的LLaMA-65B高出近10个百分点，就连MIT fine-tuing过后的LLaMA-30B，还要高。

让人不得不陷入一些关于模型规模与能力相关性的思考

。

参考链接：
[1]https://arxiv.org/abs/2306.08997
[2]https://twitter.com/johnjnay/status/1669687958960586753
[3]https://twitter.com/arankomatsuzaki/status/1669528841629601792
[4]https://twitter.com/emollick/status/1669742473097228292

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

当前滚动:GPT-4满分通过MIT本科数学考试！这套提示词火了

GPT-4开挂MIT考试

等等，评分人是GPT-4自己？

One More Thing

当前滚动:GPT-4满分通过MIT本科数学考试！这套提示词火了

世界今热点：南凌科技：凌云边缘计算产品暂未部署GPU处理器

委内瑞拉寻求押注天然气出口 以求振兴本国经济 焦点简讯

女导游被质疑色情营销，谁为她付出的沉重代价买单？

深圳将签订南方区域虚拟电厂首个并网调度协议|焦点观察

与人相处，能够做到这一点，就是人生赢家 当前独家

微资讯！全省“安全宣传咨询日”活动在郑举行

全球微动态丨金风送爽的意思是_金风送爽的意思

大兴调查研究丨旧管网改造，普陀这个小区如何做到“鱼和熊掌”兼得？ 环球最新

盂怎么读视频_盂怎么读

环球热推荐：药康生物：6月16日融券净卖出6.78万股，连续3日累计净卖出49.63万股

湘佳股份拟投资1400万设立控股子公司湖南湘佳沐洲能源科技有限公司 持股70%_环球聚焦

年末产能翻倍！存储龙头拟扩产AI芯片“标配” 刚获英伟达下一代样品请求

丁克家庭和二胎家庭，哪种父母晚年过得更舒坦？答案很明显|世界时讯

环球热议:试车日志｜静态体验大众朗逸新锐 10万元燃油车再添一员

一起shop（一起ps吧）

世界快资讯丨各种节日少不了喝酒，到底有什么方法可以解酒?

【介绍】神椿市建設中TRPG【A】技能部分（3）

【环球速看料】cgi美国签证网站_cgi美国签证官网

枫叶还能做什么（可以用枫叶做什么）

女子拆145个盲盒拒付款！父亲称其有精神病闹上法庭：结果出来了

2023郑州经开区小升初报名指南

一到十爱情表白顺口溜_一到十爱情表白顺口溜有哪些 新消息

热点！蓝丰生化最新公告：拟向控股股东定增募资不超4.028亿元

【夜谈会】鹈鹕需要认真考虑交易锡安吗？

2023年中考考试时间 具体什么时候考试

“近视防控三十问答”发布 全球热头条

药明康德：对今年全年指引和未来发展充满信心

全球视点！2k和1080p分辨率是多少（1080p分辨率是多少）

渝北古路开展禁毒宣传教育活动，增强辖区群众的禁毒意识 当前关注

全球热资讯！《向往的生活》赖声川、谢娜老友重聚

安置楼小区 世界时讯

云创数据云存储专利荣获“江苏专利奖优秀奖”

全球观点：激发国内市场活力 二季度消费市场有望保持平稳增长态势

电解水核心材料和组件研发商合肥动量守恒完成种子轮融资|环球观察

公子成双 溪畔茶_公子成

迎峰度夏又至 中国统调电厂存煤达历史新高 当前关注

A股日报 | 6月16日沪指收涨0.63%，两市成交额达10677亿元-全球热推荐

全球快资讯丨速腾快递单号查询官网下载_速腾快递单号查询官网

环球最资讯丨现实题材大戏《初生》：彰显从制造大国迈向品牌强国的中国力量

响水爆炸事故环境损害赔偿总额逾4亿，5家担责环评机构已达成赔偿协议

民航局：预计今年暑运每日有近195万旅客通过航空出行

要闻速递：小米第一！Brandz 中国全球化品牌2023公布

江铃乐行新能源品牌发布，首款纯电轻卡E路达全球首发

每日关注!水贴怎么用

dota6.83改动_DOTA6.76英雄改动详情-全球看点

A股午评：三大指数震荡走强，央企改革板块多股涨停

焦点要闻：长葛市市场监督管理局组织开展创建全国网络市场监管与服务示范区调研指导

韩城市气象台发布大风蓝色预警【Ⅳ级/一般】【2023-06-16】 环球热门

【天天报资讯】让孩子亲近阅读，源初公益幼儿园图书室捐助行动开启

武汉大学黄明东（黄静 武汉大学经济与管理学院教授）_精彩看点

618升级党，入手Intel Arc A750实现显卡自由！-世界微动态

天天观察：定边县气象台继续发布大风蓝色预警【Ⅳ级/一般】【2023-06-16】

全球观点：故宫发布《参观须知》 倡导游客文明有序参观

滚动：汕头推出多项奖补措施支持纺织服装产业发展

世界微动态丨双向12车道！全程无红绿灯！湘府东路跨浏阳河大桥完成建设

“我的国家公园丛书”新书发布暨蒙语、印地语版权输出签约仪式在京举行_天天百事通

钱包丢失群众急 民警找回暖人心

“太不是人干的事了！”西安偷老人杏女子被抓 警方：偷杏系三人团伙作案|世界报道

世界微动态丨怎样打好乒乓球基本功视频_怎样打好乒乓球基本功

蓝光和绿光的频率-蓝光 绿光 黄光 紫光的波长是多少 环球新资讯

2023甘肃高考分数线预测 各批次分数线预计是多少

当前关注：荷兰计划今年关闭欧洲最大天然气田

全球速看：芝华仕618头等舱服务全面升级，助力不菲战绩

环球快报:小学四年级作文我的老师_小学四年级作文：梳头

突发！证监会出手，贾跃亭被限制消费！2.4亿罚款还没交！-每日精选

定陶：中考遇"高温"，社会各界多措并举，为考生及家长"送清凉"

盘湾镇：织密反诈防骗“安全网”

新消息丨收盘信息：外资大买近百亿！创业板指涨超3% 两市成交再破万亿

100家奢品推出618直降，上半年这五天在天猫买大牌最划算|观天下

全新幻夜套件酷炫来袭，2024款奥德赛智能进阶上市|全球快资讯

全球今热点：合伙企业合伙人可以是公司吗

环球视点！2023上海国际残疾人、老年人康复护理用品展览会将于6月底举行

世界献血者日丨三分钟、200毫升，一座城市的温暖相助 当前焦点

湖南攸县农商银行：“兴农贷”为乡村振兴注入发展活力|重点聚焦

世界焦点！故宫：行李箱可免费寄存转运，滑板车等禁入

委内瑞拉寻求押注天然气出口以求振兴本国经济焦点简讯

与人相处，能够做到这一点，就是人生赢家当前独家

大兴调查研究丨旧管网改造，普陀这个小区如何做到“鱼和熊掌”兼得？环球最新

湘佳股份拟投资1400万设立控股子公司湖南湘佳沐洲能源科技有限公司持股70%_环球聚焦

一到十爱情表白顺口溜_一到十爱情表白顺口溜有哪些新消息

2023年中考考试时间具体什么时候考试

“近视防控三十问答”发布全球热头条

渝北古路开展禁毒宣传教育活动，增强辖区群众的禁毒意识当前关注

安置楼小区世界时讯

全球观点：激发国内市场活力二季度消费市场有望保持平稳增长态势

公子成双溪畔茶_公子成

迎峰度夏又至中国统调电厂存煤达历史新高当前关注

韩城市气象台发布大风蓝色预警【Ⅳ级/一般】【2023-06-16】环球热门

武汉大学黄明东（黄静武汉大学经济与管理学院教授）_精彩看点

全球观点：故宫发布《参观须知》倡导游客文明有序参观

钱包丢失群众急民警找回暖人心

“太不是人干的事了！”西安偷老人杏女子被抓警方：偷杏系三人团伙作案|世界报道

蓝光和绿光的频率-蓝光绿光黄光紫光的波长是多少环球新资讯

2023甘肃高考分数线预测各批次分数线预计是多少

世界献血者日丨三分钟、200毫升，一座城市的温暖相助当前焦点

电子行业点评：MXC500测试完成沐曦加速AI训练布局每日聚焦

南阳交警现身啤酒节现场“喊麦”提醒喝酒不开车世界百事通

西藏开展信用提升行动助企纾困当前焦点

广州印发人才绿卡制度实施办法十类人可申领人才绿卡，享受落户教育购房等多项待遇_世界热文

老白干酒：公司没有上述计划。

米家旅行箱惊艳亮相具多重卖点焦点速看

湖南应用技术学院：戏曲进校园经典共传承-环球即时

「热点排名」杭州肤康皮肤病医院怎么样？预约挂号医生收费高吗？--肤康医院口碑评价分析「前十排名公布」世界快资讯

髓质海绵肾影像表现天天实时

96年属鼠2024正缘桃花生肖一见钟情牛虎狗

lnk是什么格式环球新动态

出口数据表明，西安、成都和郑州的强省会战略很成功每日聚焦

温州平阳经48轮竞拍成功出让1宗商住地需配建2.9万平安置房天天观察

与非遗相伴和传统同行快看点

9.999万元起，500万国民家轿品质新选择——朗逸新锐上市世界快资讯

普京签署法令废除俄罗斯与乌克兰签署的亚速海和刻赤海峡合作使用条约-环球看点

出版专业资格考试《出版专业基础知识(中级)》历年真题：数字出版产品策划世界看点

侠客风云传存档位置找不到侠客风云传存档位置

手动挡真的应该被淘汰吗？当然不是，你不知道它的优势其实有太多世界热推荐

天天消息！乘联会：5月份皮卡市场销售4.6万辆同比增长4.3%

【制度创新看自贸】构建“信用+”电力市场全国首个以信用为基础的电力市场管理模式环球报资讯

中轴线文化遗产有了常设讲堂当前速递

《暗黑破坏神4》移动类威能怎么获得？移动类威能获取攻略

2024款起亚K5与2023款车型相比有一个小改动比以前贵了300美元世界新消息

菱电电控：6月12日融资买入162.77万元，融资融券余额6226.45万元每日简讯

玉环这一省“千项万亿”重大项目取得新进展环球热文