OpenAI o3 被曝智商高达 157,比肩爱因斯坦,但却没法证明比人类聪明-灵析社区

AI资讯

一觉醒来,突然发现 AI 的智商比肩爱因斯坦了。根据外网疯传的一张图表,OpenAI 新模型 o3 在 Codeforces 上的评分为 2727,转换成人类智商的分数为 157,堪称万里挑一。更令人惊讶的是,从 GPT-4o 到 o3,AI 智商仅用 7 个月就飙涨了 42 分。 "Image 40" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/v2_cbfd088b549e45fdba9c86dd723113d6@46958_oswg56828oswg1080oswg424_img_000.jpg) OpenAI 的 o1 模型在门萨智商测试中的得分也高达 133,超过了大多数人类的智商。然而,这种用人类智商标准衡量 AI 是否恰当值得深思。智商测试是一种基于人类认知能力的评估体系,但将其套用到 AI 上时存在方法论偏差。 "Image 41" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/v2_1498198c720c45129a5df2c826c672d8@46958_oswg168421oswg1080oswg645_img_000.jpg) 聪明的 AI,也会犯最基础的错误 AI 在某些方面模仿了人类的认知功能,但本质上它仍然是一个概率机器,所有输出都源于对输入数据的程序化处理。GPT-4o 仍然会在处理简单的数值比较时犯基础性错误,并且会产生 AI 幻觉。 "Image 42" (https://wm-ai.oss-cn-shanghai.aliyuncs.com/test/v2_9b25ee4aefcc4435bc0b69a2b0b087d4@46958_oswg748503oswg1080oswg720_img_000.jpg) 正如 Deepmind CEO 和 Yann Lecun 所言,当前 AI 的智商可能不如猫,尽管其在某些领域表现出色。这也说明,量化 AI 的聪明程度仍然是一个挑战,传统智商测试并不能全面衡量 AI 的智能水平。 在寻找合适的评估体系时,图灵测试是其中最广为人知的。通过图灵测试,若机器能在与人类的交流中不被识破,则可认为具备智能。然而,图灵测试也存在局限,过于关注语言交流能力,忽视了智能的其他重要维度。 "Image 43" (https://img.36krcdn.com/hsossms/20241225/v2_bc0587f46533412d9298e5a7fd4dab04@46958/oswg345557oswg1080oswg720_img_000?x-oss-process=image/format,jpg/interlace,1) 为了更好地展示 AI 的进步,评估重心或许应转向 AI 解决实际问题的能力。相较于智商测试,针对具体应用场景设计的基准测试可能更为有效。 从「理解」到「背题」,为什么连测试 AI 都变得如此困难? 目前,基准测试五花八门,包括 GSM8K 关注小学数学,MATH 考察数学竞赛,HumanEval 则涉及 Python 编程,甚至阅读理解和常识推理也成为 AI 测试的部分内容。 然而,基准测试普遍存在一个问题,如果测试数据集公开,某些 AI 模型可能在训练过程中已经提前学习过这些题目,最终的高分未必能真实反映其实际能力。 "Image 44" (https://img.36krcdn.com/hsossms/20241225/v2_20fd76b28d104840b7b6f424c2e4d028@46958/oswg412139oswg1080oswg608_img_000?x-oss-process=image/format,jpg/interlace,1) AI 的能力不断进步,但标准测试往往也面临饱和的问题。如何让 AI 更好地服务人类社会,或许是更有意义的评估方向。 ARC-AGI:衡量 AGI 的新标准 OpenAI 推出的 ARC-AGI 测试专门用来评估 AI 的抽象推理能力,挑战 AI 在未知任务上的学习效率。在高计算模式下,o3 在 ARC-AGI 的得分高达 87.5%。然而,尽管 o3 交出了不错的成绩单,仍无法完全实现 AGI。 "Image 45" (https://img.36krcdn.com/hsossms/20241225/v2_2d8eac558c9149b88c80754690f54970@46958/oswg13408oswg800oswg525_img_000?x-oss-process=image/format,jpg/interlace,1) ARC-AGI 的测试内容要求模型不仅仅依赖于模式匹配,更注重模型的实时学习和技能应用,这对 AI 的评估来说是至关重要的。 结论 与其执着于让 AI 在人类设计的各种测试中取得高分,不如思考如何让 AI 更好地服务于人类社会的实际需求,这才是评估 AI 进展最有意义的维度。 "Image 46" (https://img.36krcdn.com/hsossms/20241225/v2_0ad315eefed74eb68e9d895a1b03869a@46958/oswg443970oswg1080oswg720_img_000?x-oss-process=image/format,jpg/interlace,1)

阅读量:249

点赞量:12

收藏量:0