当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
为什么欧美影视喜欢露点?
大三做的海报,离就业差多远?
如何评价前端框架 Solid?
公司已经裁掉我了,还在继续安排大量工作给我,这合适吗?
Rust 使用 Result 的错误处理方式与 Golang 使用 error 的方式有什么本质区别?
印度是真的烂还是咱们在信息茧房里面?
大家知道为什么艺术家都喜欢画女人体吗?
你见过最上进的人是怎样的?
为什么任天堂在NS2上没有选择使用OLED屏幕以提升续航能力和显示效果?
未来几年,市场对 AI 人才的需求会集中在哪几个方向?
都说时尚是一个轮回,有哪些老电视剧里面的穿搭到现在都还是很潮的呢?
我国的军工能力可以实现一天5000枚火箭弹连着炸三个月吗?
降维打击是什么?
最近看独立开发者,做记账 软件赚到很多钱,我也开发一个,会不会碾压?
哪个瞬间让你觉得编程只是一门技术?
哪些机械硬盘值得推荐?
postgresql也很强大,为何在中国大陆,mysql成为主流,postgresql屈居二线呢?
如何评价Cursor?
为什么女游泳运动员看起来大部分都是平胸?
如何评价“寡姐”斯嘉丽·约翰逊的身材?
黑客为什么可以做到无需知道源码的情况下找出系统漏洞?
理论上flutter性能应该非常高才对,为什么好些flutter应用性能一般?
你和你老婆是怎么认识的?
为什么台式 PC 还处在组装(DIY)阶段?
现在个人博客不能备案了吗?
M1 如此高的性能在 iPad 上究竟有什么用?
为什么现在的中国电影越来越烂?
为什么有些NAS用户弄那么多硬盘?
你从别人的旧硬盘里发现了什么有趣的东西?
为什么《长安的荔枝》中的李善德明明是受圣人敕封,却一点权利都没有?