如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_河南省南阳市淅川县提红工作站有限合伙企业

发布时间：2025-06-20 08:50:16

摘要： 如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_河南省南阳市淅川县提红工作站有限合伙企业

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果，突出了一个政治正确，6款大模型，OpenAI的o3倒数第一，我当时看到的时候就觉得很奇怪，o3好歹也是曾经的一代王者，高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下，因为这道题除了o3，其他的国产模型都答对了。

这是第五题的原题，正确答案是A. - 1/2。

这是之前的第三方的测试结果，6个模型…。

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？

上一篇 : 为什么上海暂时还没取代香港成为亚洲金融中心？还没取代纽约成为世界金融中心？

下一篇 : 我想知道女生有没有处男情结？

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_河南省南阳市淅川县提红工作站有限合伙企业如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_河南省南阳市淅川县提红工作站有限合伙企业如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_河南省南阳市淅川县提红工作站有限合伙企业如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_河南省南阳市淅川县提红工作站有限合伙企业

为什么现在亲戚越来越不亲了？

如何评价B站峰哥亡命天涯直播中说面包就是比馒头好吃，中国古代不吃面包是因为贫穷，没有足够的柴火？

海贼王为什么现在被全网黑?

我想知道女生有没有处男情结？

go 有哪些成熟点的后台管理框架？

AutoCAD和SolidWorks有什么区别？

你们都什么时候对男女之事开窍的？

AE如何渲染出mp4格式？

什么样的女主才能叫做「人间尤物」？

如何评价B站峰哥亡命天涯直播中说面包就是比馒头好吃，中国古代不吃面包是因为贫穷，没有足够的柴火？

真的有这种又苗条身材又爆炸的么？

有没有一款音乐播放器，能连接nas音乐，创建音乐库，自动匹配歌词封面等等？类似infuse的概念呢？

055一打一能不能打过阿利伯克？

为什么 Windows 系统上的安装包有 exe 和 msi 两种格式，有什么区别？

SpaceX 星舰 36 号火箭静态点火测试爆炸，爆炸的原因是什么？会对星舰发展产生什么影响？

AE如何渲染出mp4格式？

为什么都对TLC乃至未来的QLC嗤之以鼻呢?

为什么《长安的荔枝》中的李善德明明是受圣人敕封，却一点权利都没有？

坚持使用 PHP 的你，如今有什么感悟？

为什么有些***十岁的妇女还会很幼稚？

DNS 服务器是如何开发的？

为什么 Windows 系统上的安装包有 exe 和 msi 两种格式，有什么区别？

异性同办公室久了会不会日久生情？

为什么 macOS 上国产软件不流氓？

业民镇更多

■ 如何评价女明星梅根福克斯的身材？

■ 如何优化前端网站的性能？

■ 为什么macOS软件生态不敌Windows?

■ 为什么有些***十岁的妇女还会很幼稚？

■ 全平台应用框架会是趋势吗？flutter、tauri、maui你更看好哪一个？

杨林镇更多

■ 住在一个脏乱差的家里十几年是什么感受？

■ 扫黑风暴为什么他们费老大劲杀这么多人不如直接把督导组干掉？

■ 战场上用沙袋来防***，真的有用吗？

■ 如何优化前端网站的性能？

■ 央企的信创，是否有必要把 spring 替换成国产的 solon ？

姜庄乡更多

■ Web3需要用到哪些技术？

■ 为什么情侣在一起旅行后容易分手？

■ 家里想搞个服务器，有什么好的建议方案吗？

■ 扫黑风暴为什么他们费老大劲杀这么多人不如直接把督导组干掉？

■ 谷歌云服务宕机导致 OpenAI、Shopify 等服务中断，此次宕机的具体技术原因是什么？

白潭镇更多

■ 那你说什么样的是美女？

■ Linux内核代码大佬们如何观看的？

■ 为什么央视不再报道洛杉矶***了？

■ 为什么情侣在一起旅行后容易分手？

■ 只有我觉得.doc文件比.docx文件便捷吗？

播乐乡更多

■ 卸载迅雷后，***文件变成xunlei.bittorrent.6,怎么还原回去啊，心态炸了！?

■ 你卡过最厉害的bug是什么？

■ 只能选一个，你选谁？

■ Linux内核代码大佬们如何观看的？

■ 如果北京放开车牌，未来会怎样？

小满镇更多

■ 现在国内有哪些比较不错的 J***a 开源商城系统？

■ 人类有希望走出***系吗?

■ 初三画成这样算是有天赋吗？【正经求助】?

■ 你卡过最厉害的bug是什么？

■ NAS的盘是否需要一次性买齐？

推荐项目更多

如果看待林丹这句话 “网球的强度远远没有羽毛球大”?

代码：

梁朝伟和刘青云等人为什么都没要孩子？

代码：

从零写一个3D物理引擎难度多大?

代码：

人类有希望走出***系吗?

代码：

如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_河南省南阳市淅川县提红工作站有限合伙企业如何看待机器之心重测高考数学全卷，Gemini夺冠，豆包DeepSeek并列第二？_河南省南阳市淅川县提红工作站有限合伙企业

■黄一鸣为什么敢承认孩子是王思聪的？

■学生校服如何隐藏内衣痕迹?

■Flutter 为什么没有一款好用的UI框架？

■梁朝伟和刘青云等人为什么都没要孩子？

■前端如何设计网页？

业民镇更多

为什么说男人至死都是少年？

时间：2025-06-20

mysql 中如何进行联合索引优化？

时间：2025-06-20

是不是大部分女性到了 40 岁，活着特没意思？

时间：2025-06-20

异性同办公室久了会不会日久生情？

时间：2025-06-20

幼儿园小孩子中午不睡觉，用什么方法解决？

时间：2025-06-20

杨林镇更多

docker 容器启动后如何添加端口映射？

时间：2025-06-20

为什么 Mac 对游戏支持这么差？

时间：2025-06-20

怎么看待B站舞蹈区和某些风格比较暴露的up？

时间：2025-06-20

mysql 中如何进行联合索引优化？

时间：2025-06-20

golang总体上有什么缺陷？

时间：2025-06-20

姜庄乡更多

如何看待多地开展查摆年轻干部玩心重、混日子、说话随意、口大气粗等问题的行动？

时间：2025-06-20

以前大力推广的沼气池，怎么现在越来越少了？

时间：2025-06-20

核武器最小当量能做到多少？

时间：2025-06-20

为什么 Mac 对游戏支持这么差？

时间：2025-06-20

商业史上有哪些降维打击的经典案例？

时间：2025-06-20

白潭镇更多

为什么说中国是基建狂魔？

时间：2025-06-20

为什么他们可以闻出来我身上的穷酸味?

时间：2025-06-20

2025 年高考，为啥大家反应冷淡得出奇？

时间：2025-06-20

以前大力推广的沼气池，怎么现在越来越少了？

时间：2025-06-20

如何看待多地开展查摆年轻干部玩心重、混日子、说话随意、口大气粗等问题的行动？

时间：2025-06-20

播乐乡更多

PHP现在真的已经过时了吗？

时间：2025-06-20

DF-41已经可以打击美国本土，这是否相当于古巴导弹危机常态化？

时间：2025-06-20

小腿能粗到什么地步？

时间：2025-06-20

为什么他们可以闻出来我身上的穷酸味?

时间：2025-06-20

为什么openai的sdk只提供了python和js两个版本？

时间：2025-06-20

小满镇更多

如何评价Cursor？

时间：2025-06-20

山东临沂这个地方怎么样？

时间：2025-06-20

如果全球都停止出口粮食，中国能否自给自足？

时间：2025-06-20

DF-41已经可以打击美国本土，这是否相当于古巴导弹危机常态化？

时间：2025-06-20

Vim 有什么奇技淫巧？

时间：2025-06-20