六款AI大模型数学对决：谁将成为AI界的高考赢家？

AI快讯 8months ago AICAT

0 0 6

为了确保高考的公平性，很多知名的AI模型，比如腾讯的混元、通义千问、Kimi和豆包等，在今年的高考期间暂停了图片识别和问答的功能。对此，小雷有点疑惑，之前他测试这些AI大模型解高考题的表现，感觉都不太理想，暂停这些功能似乎对它们的能力评估过于乐观了。

截至目前，2025年高考的全国一卷只公布了语文、英语和数学三科试卷。语文的考试题目曝光后，很多媒体也开始测试AI大模型的作文能力。但这些评测的结果并不一致，小雷看到的几篇评测基本都是直接展示AI写的作文，缺少深入的点评，文章的质量就得让读者自己来判断了。

（图源：百度搜索截图）

为了更稳妥，小雷选择了数学这门有标准答案的科目来测试AI大模型的能力。他选了DeepSeek、豆包、讯飞星火、文心一言、Kimi和通义千问，想看看它们能否考上985、211。

六款AI大模型对决，谁能成为高考状元？

先来聊聊测试的环境和题目。由于某些AI大模型无法手动切换联网模式，所以所有模型都开启了联网搜索功能，深度思考的选项也全都打开了。

选的数学题包含一道单选题、一道多选题、一道填空题和一道简答题，最后会根据题目的分数来进行评分。

第一题（5分）：

若双曲线C的虚轴长是实轴长的√7倍，则C的离心率为（正确答案：D）

A：√6 B：2 C：√7 D：2√2

这道题目算是个开胃菜，难度不高，参与测试的六款AI大模型都没有让小雷失望，全部正确解出答案，还提供了详细的推理过程。最终，这道题所有AI大模型均获得满分5分。（图片从左到右依次为：DeepSeek、讯飞星火、豆包、Kimi、文心一言、通义千问，下面的图也是如此）

（图源：App截图）

虽然这道题不算特别难，但这六款AI大模型的表现让小雷惊艳。之前测试它们的数学能力时，遇到稍微复杂一点的问题，它们可真是绞尽脑汁也难以得出准确答案呢。

仅仅经过一轮测试，DeepSeek、讯飞星火、豆包、文心一言、Kimi、通义千问这六款AI大模型就展现了它们的实力，甚至有被高考生用来作弊的潜力，因此暂停图片识别问答功能可绝不是为了博取高考热度。

第二题（6分）：

若cos 2A+cos 2B+2sin C=2，SΔABC=1/4，cos Acos Bsin C=1/4，则（正确答案：ACD）

A：sin C=sin²A+sin²B B：AC²+BC²=3 C：AB=√2 D：sin A+sin B=(√6)/2

这道题的难度可不小，只有豆包在两分钟内算出了正确答案，而讯飞星火和通义千问则稍微慢了一点，其他几款AI大模型则花了更多时间，尤其是DeepSeek，竟然耗费了572秒，接近10分钟呢。

（图源：App截图）

如果这些AI大模型像考生一样，每次只做一道题，推理较慢的那三款，可能会在两个小时内做不完题哦。

虽然这轮测试中所有AI大模型都正确回答了问题，但从推理耗时来看，豆包、讯飞星火和通义千问的表现确实不错。

第三题（5分）：

若一个等比数列的前4项和为4，前8项和为68，则该等比数列的公比为（正确答案：±2）

这道题相对简单一些，讯飞星火、文心一言、Kimi、通义千问和DeepSeek这五款大模型都很快找到了正确答案，文心一言几乎是秒解。虽然豆包也算出了正确答案，但在输出时却搞错了，排除了-2，结果小雷只能给豆包扣掉三分，这一题豆包最终得了2分。

比学霸更牛，但大模型做题能力已拉开差距

（图源：App截图）

这次测试中，DeepSeek的服务器有点忙，导致小雷不得不求助于其他应用。不过也幸好，现在不少AI工具都已经整合了DeepSeek，小雷用的腾讯元宝App，不管是推理速度还是稳定性，都比DeepSeek的网页版和App强太多了。

第四题（17分）：

设数列{an}满足a₁=3，（an+1）/n=（an/（n+1））+（1/（n（n+1）））

（1）证明：{n an}是等差数列；（正确答案：n an是an=3，公差为1的等差数列）

（2）设f（x）=a₁X+a₂X²+a₃X³+...+amX^m，求f′（-2）。（正确答案：f′（-2）=(7/9）-（（3m+7）/9）·（-2^m））

前面三道题，各种AI工具的表现差不多，能力上没有太大差异。但到了第四道题，难度一下子提高了，简直是对AI大模型能力的重大考验。

在这次测试中，豆包、讯飞星火、Kimi、文心一言和DeepSeek都表现得很不错，顺利找出了两道题的答案。而通义千问在解答时，第一小题没问题，但第二小题却闹了个大乌龙，只拿到了7分，成绩稍显逊色。

（图源：App截图）

豆包、讯飞星火、文心一言、Kimi和DeepSeek这几款工具在测试中都拿到了满分17分，而通义千问因为第二道小题出错，只能得到7分。

说实话，数学题本身就很适合AI来处理，但在往年的评测中，AI大模型在阅读理解和写作文方面的表现更为突出，面对复杂的数学题时往往会遇到困难。

光明网去年6月提到复旦大学的NLP实验结果，显示AI大模型在2024年高考题的语文部分表现优于数学，甚至有些数学题连个正确答案都算不出来，碰到多选题时也是错误频出。为什么会这样呢？原因在于，数学需要精确，哪怕是一点点小错误也可能导致完全错误，而文史类内容则容许一些模糊的答案。

不过，经过一年的时间，AI大模型的进步真是让人惊艳，深度思考模式的加入以及对数学题的专项优化，让它们在处理高考数学题时变得更加游刃有余。

经过四道题的测试，最终得分如下：

DeepSeek：33分；

### AI大模型的高考数学表现大揭秘

讯飞星火：33分；
豆包：30分；
Kimi：33分；
文心一言：33分；
通义千问：23分。

经过一番测试，DeepSeek、讯飞星火、Kimi和文心一言四款AI都获得了满分，豆包虽表现良好，但因为小失误，遗憾丢掉了三分，没能拿到高考状元。而通义千问在面对简单问题时表现稳定，但在解决复杂题目时却出现了计算错误，看来还需加把劲。

（图源：豆包AI生成）

苹果总是对AI行业持保留态度，最近在一篇论文中提到，AI推理模型其实只是“假思考”，完全没有那种稳定和可理解的推理过程，反而更像是记忆，在面对复杂任务时容易崩溃。不过，AI研究者Lisan al Gaib在复刻苹果的测试方法后指出，模型失败的原因并不是推理能力不足，而是因为苹果限制了输出的token。

虽然AI大模型的推理能力可能还有一些限制，但我们确实见证了它们的成长。去年的时候，复旦大学NLP实验室测试AI大模型时，它们在高考数学题面前的表现非常糟糕，而小雷在几次AI大模型的横向评测中也得到了差不多的结果。然而在今年的测试中，这些AI大模型几乎都能准确解答问题，曾经让它们头疼的多选题也不再是问题。

AI大模型在数学题解答能力上的提升，最大的受益者可能就是学生们。国内的学习机厂商和教育辅导平台已纷纷开始引入AI答题功能，但不少设备的AI大模型仍然只能处理中小学的问题，比如小猿搜题这样的行业先锋，其题库并不包含大学课程。

这六款AI大模型的优异表现，展现了国内顶尖AI企业的实力，高考数学题已被征服，未来高等数学的挑战也将不再遥远。学习机生产商和教辅平台可以与这些头部AI公司合作，进一步增强产品的AI答题能力，为AI教育硬件的市场注入新的活力。

夏日的六月，正是金榜题名的时刻。

又是一年高考季，雷科技推出了“高考毕业季”专题，以满足学生粉丝的信息需求，涵盖搜索、AI工具推荐以及手机和PC的选购攻略。

敬请关注！

来源：今日头条

原文标题：六款AI大模型高考数学PK：AI界“高考状元”，太让人意外了 - 今日头条

原文链接：https://toutiao.com/group/7514504810948674075/

声明：

文章来自网络收集后经过ai改写发布，如不小心侵犯了您的权益，请联系本站删除，给您带来困扰，深表歉意！

Copyrights:AICAT Posted on 2025-11-07 18:18:48。
Please specify source if reproduced六款AI大模型数学对决：谁将成为AI界的高考赢家？ | AI工具导航

No comments

No comments...

六款AI大模型数学对决：谁将成为AI界的高考赢家？

掌握AI大模型训练原理，告别你的“翻车”提示词！

探讨AI大模型未来发展的三大核心特质：主动性、项目性与互动性

No comments