为了确保高考的公平性,很多知名的AI模型,比如腾讯的混元、通义千问、Kimi和豆包等,在今年的高考期间暂停了图片识别和问答的功能。对此,小雷有点疑惑,之前他测试这些AI大模型解高考题的表现,感觉都不太理想,暂停这些功能似乎对它们的能力评估过于乐观了。
截至目前,2025年高考的全国一卷只公布了语文、英语和数学三科试卷。语文的考试题目曝光后,很多媒体也开始测试AI大模型的作文能力。但这些评测的结果并不一致,小雷看到的几篇评测基本都是直接展示AI写的作文,缺少深入的点评,文章的质量就得让读者自己来判断了。
(图源:百度搜索截图)
为了更稳妥,小雷选择了数学这门有标准答案的科目来测试AI大模型的能力。他选了DeepSeek、豆包、讯飞星火、文心一言、Kimi和通义千问,想看看它们能否考上985、211。
六款AI大模型对决,谁能成为高考状元?
先来聊聊测试的环境和题目。由于某些AI大模型无法手动切换联网模式,所以所有模型都开启了联网搜索功能,深度思考的选项也全都打开了。
选的数学题包含一道单选题、一道多选题、一道填空题和一道简答题,最后会根据题目的分数来进行评分。
第一题(5分):
若双曲线C的虚轴长是实轴长的√7倍,则C的离心率为(正确答案:D)
A:√6 B:2 C:√7 D:2√2
这道题目算是个开胃菜,难度不高,参与测试的六款AI大模型都没有让小雷失望,全部正确解出答案,还提供了详细的推理过程。最终,这道题所有AI大模型均获得满分5分。(图片从左到右依次为:DeepSeek、讯飞星火、豆包、Kimi、文心一言、通义千问,下面的图也是如此)
(图源:App截图)
虽然这道题不算特别难,但这六款AI大模型的表现让小雷惊艳。之前测试它们的数学能力时,遇到稍微复杂一点的问题,它们可真是绞尽脑汁也难以得出准确答案呢。
仅仅经过一轮测试,DeepSeek、讯飞星火、豆包、文心一言、Kimi、通义千问这六款AI大模型就展现了它们的实力,甚至有被高考生用来作弊的潜力,因此暂停图片识别问答功能可绝不是为了博取高考热度。
第二题(6分):
若cos 2A+cos 2B+2sin C=2,SΔABC=1/4,cos Acos Bsin C=1/4,则(正确答案:ACD)
A:sin C=sin²A+sin²B B:AC²+BC²=3 C:AB=√2 D:sin A+sin B=(√6)/2
这道题的难度可不小,只有豆包在两分钟内算出了正确答案,而讯飞星火和通义千问则稍微慢了一点,其他几款AI大模型则花了更多时间,尤其是DeepSeek,竟然耗费了572秒,接近10分钟呢。
(图源:App截图)
如果这些AI大模型像考生一样,每次只做一道题,推理较慢的那三款,可能会在两个小时内做不完题哦。
虽然这轮测试中所有AI大模型都正确回答了问题,但从推理耗时来看,豆包、讯飞星火和通义千问的表现确实不错。
第三题(5分):
若一个等比数列的前4项和为4,前8项和为68,则该等比数列的公比为(正确答案:±2)
这道题相对简单一些,讯飞星火、文心一言、Kimi、通义千问和DeepSeek这五款大模型都很快找到了正确答案,文心一言几乎是秒解。虽然豆包也算出了正确答案,但在输出时却搞错了,排除了-2,结果小雷只能给豆包扣掉三分,这一题豆包最终得了2分。
比学霸更牛,但大模型做题能力已拉开差距
(图源:App截图)
这次测试中,DeepSeek的服务器有点忙,导致小雷不得不求助于其他应用。不过也幸好,现在不少AI工具都已经整合了DeepSeek,小雷用的腾讯元宝App,不管是推理速度还是稳定性,都比DeepSeek的网页版和App强太多了。
第四题(17分):
设数列{an}满足a₁=3,(an+1)/n=(an/(n+1))+(1/(n(n+1)))
(1)证明:{n an}是等差数列;(正确答案:n an是an=3,公差为1的等差数列)
(2)设f(x)=a₁X+a₂X²+a₃X³+...+amX^m,求f′(-2)。(正确答案:f′(-2)=(7/9)-((3m+7)/9)·(-2^m))
前面三道题,各种AI工具的表现差不多,能力上没有太大差异。但到了第四道题,难度一下子提高了,简直是对AI大模型能力的重大考验。
在这次测试中,豆包、讯飞星火、Kimi、文心一言和DeepSeek都表现得很不错,顺利找出了两道题的答案。而通义千问在解答时,第一小题没问题,但第二小题却闹了个大乌龙,只拿到了7分,成绩稍显逊色。
(图源:App截图)
豆包、讯飞星火、文心一言、Kimi和DeepSeek这几款工具在测试中都拿到了满分17分,而通义千问因为第二道小题出错,只能得到7分。
说实话,数学题本身就很适合AI来处理,但在往年的评测中,AI大模型在阅读理解和写作文方面的表现更为突出,面对复杂的数学题时往往会遇到困难。
光明网去年6月提到复旦大学的NLP实验结果,显示AI大模型在2024年高考题的语文部分表现优于数学,甚至有些数学题连个正确答案都算不出来,碰到多选题时也是错误频出。为什么会这样呢?原因在于,数学需要精确,哪怕是一点点小错误也可能导致完全错误,而文史类内容则容许一些模糊的答案。
不过,经过一年的时间,AI大模型的进步真是让人惊艳,深度思考模式的加入以及对数学题的专项优化,让它们在处理高考数学题时变得更加游刃有余。
经过四道题的测试,最终得分如下:
- DeepSeek:33分;
- 讯飞星火:33分;
- 豆包:30分;
- Kimi:33分;
- 文心一言:33分;
- 通义千问:23分。
### AI大模型的高考数学表现大揭秘
经过一番测试,DeepSeek、讯飞星火、Kimi和文心一言四款AI都获得了满分,豆包虽表现良好,但因为小失误,遗憾丢掉了三分,没能拿到高考状元。而通义千问在面对简单问题时表现稳定,但在解决复杂题目时却出现了计算错误,看来还需加把劲。
(图源:豆包AI生成)
苹果总是对AI行业持保留态度,最近在一篇论文中提到,AI推理模型其实只是“假思考”,完全没有那种稳定和可理解的推理过程,反而更像是记忆,在面对复杂任务时容易崩溃。不过,AI研究者Lisan al Gaib在复刻苹果的测试方法后指出,模型失败的原因并不是推理能力不足,而是因为苹果限制了输出的token。
虽然AI大模型的推理能力可能还有一些限制,但我们确实见证了它们的成长。去年的时候,复旦大学NLP实验室测试AI大模型时,它们在高考数学题面前的表现非常糟糕,而小雷在几次AI大模型的横向评测中也得到了差不多的结果。然而在今年的测试中,这些AI大模型几乎都能准确解答问题,曾经让它们头疼的多选题也不再是问题。
AI大模型在数学题解答能力上的提升,最大的受益者可能就是学生们。国内的学习机厂商和教育辅导平台已纷纷开始引入AI答题功能,但不少设备的AI大模型仍然只能处理中小学的问题,比如小猿搜题这样的行业先锋,其题库并不包含大学课程。
这六款AI大模型的优异表现,展现了国内顶尖AI企业的实力,高考数学题已被征服,未来高等数学的挑战也将不再遥远。学习机生产商和教辅平台可以与这些头部AI公司合作,进一步增强产品的AI答题能力,为AI教育硬件的市场注入新的活力。
夏日的六月,正是金榜题名的时刻。
又是一年高考季,雷科技推出了“高考毕业季”专题,以满足学生粉丝的信息需求,涵盖搜索、AI工具推荐以及手机和PC的选购攻略。
敬请关注!
Please specify source if reproduced六款AI大模型数学对决:谁将成为AI界的高考赢家? | AI工具导航
