两年前,GPT-4才出来的时候,大家纷纷给大模型出的题目是小学奥数,什么鸡兔同笼,都会有一定错误率,那时候人看大模型,就像看个傻子。
一年前,GPT-4o来了,模型变小了,性能提高,小学奥数以及普通的中考题正确率大幅度提高,但是中考的解答题仍然不会做。
半年多前,o1出现,首先提供的还是o1-preview和o1-mini,这两个模型已经能做中考解答题了,接下来只剩高考大题做不了。
然后今年,o3、o4-mini、gemini 2.5 pro……终于…。
代码:
曾经的班花,现在还多少人惦记?
北京日报点名批评“苏超”过度娱乐化,它是否管的太宽了?为什么无良媒体不会被查封取缔?
如果一个人有足够的钱让他一直***,那毒品对他的身体还有害吗?
鸿蒙电脑会在国内逐渐取代windows电脑吗?
为什么中国现在全球军事实力第一,但包括中国人在内很多人不认可?
韩国人在电影上非常凶猛能打,现实中韩国男人的战力如何?
如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架?
6 月 20 日,女篮热身赛,中国女篮 93-61大胜日本女篮,如何评价本场比赛?
我应该设置多少kb才能让他不能玩游戏?
华为自研的仓颉编程语言将于 7 月 30 日开源,这款语言将如何影响未来的开发趋势?
海贼王为什么现在被全网黑?
如果看待林丹这句话 “网球的强度远远没有羽毛球大”?
历史上,寒潮最南能影响到哪里?有北半球寒潮影响到南半球或南极寒潮影响到北半球的记录吗?
docker怎么修改拉取源从指定的国内仓库拉取镜像?
为什么出过国的人回来都不描述真实的西方百姓生活?
到底是时代选择了Nvidia,还是Nvidia选择了时代?
如何评价「尖叫」这种饮料?
女明星陪酒真的存在吗?
如何评价张靓颖刘宇宁《九万字》?
不看攻略游玩《艾尔登法环》是一种什么体验?
uni***真的很垃圾吗?
京东刘强东近期小范围分享怎么看?
2025年,歼16与美军机50分钟缠斗,为什么知乎上没有任何消息?
印度为什么一定要和中国作对?