首页 > 汽车性能 > 汽车性能 > 苹果刚刚证明:DeepSeek、o3、Claude等“推理”模型根本没有推理能力

苹果刚刚证明:DeepSeek、o3、Claude等“推理”模型根本没有推理能力

发布时间:2025-06-09 15:18:59来源: 15510183920

最新重磅研究:苹果并不认为推理模型比标准 LLM有重大突破

  最新研究《思考的幻觉:通过问题复杂性视角理解推理模型的优势与局限》中,苹果对“大型语言模型已经具备真正的逻辑思维能力——即真正的“推理能力”——这一普遍存在的假设提出了质疑。苹果公司的研究人员看到的并非认知领域的突破,而是一种幻觉:这些模型仅仅创造了思考的印象,而实际上并没有稳定、可理解的思维过程

  这篇研究批评的核心点是:当前最前沿的推理模型,在面对真正复杂的问题时,其推理能力会“断崖式”崩溃,并且暴露出一种反直觉的“思考退化”现象,甚至连“照着算法抄作业”都做不好

  现有评测方法的“陷阱”:为何需要新的实验场?

  目前,评估AI推理能力主要依赖于数学(如MATH、AIME)和编程等基准测试。然而,研究人员指出,这种方法存在两大弊端:

  数据污染(Data Contamination):这些基准测试的题目和答案很可能已经大量存在于模型的训练数据中。模型可能只是“记住”了答案,而非真正“推理”出答案。论文中的数据显示,模型在更新的AIME25数据集上的表现反而不如更早的AIME24,这与人类表现恰恰相反,强烈暗示了数据污染对评测结果的干扰

  缺乏对“思考过程”的洞察:最终答案的正确与否,无法告诉我们模型是如何思考的,其思维链是高效、严谨还是充满了冗余和错误

  为了摆脱这些“陷阱”,苹果的研究团队转向了一个更“纯净”的实验场——可控的解谜环境

  精巧的实验设计:在“谜题”中量化AI的思考能力

  研究团队选取了四个经典的、逻辑结构稳定但复杂度可控的谜题:

  汉诺塔(Tower of Hanoi):测试递归和规划能力

  跳棋(Checker Jumping):测试序列规划

  过河问题(River Crossing):测试约束满足和规划能力

  积木世界(Blocks World):测试规划和状态管理

  通过改变谜题的参数(如汉诺塔的盘子数量、过河问题的人数),研究人员可以精确地控制问题的组合复杂度,同时利用模拟器验证模型生成的每一步操作是否合规,从而深入剖析其完整的“思考轨迹”

  如图示意:研究人员不仅评估最终答案,还提取并分析模型在标签内的中间步骤,以洞察其思维过程

汽车性能更多>>

20周年纪念版iPhone将采用全新设计 WWDC提前预热 苹果刚刚证明:DeepSeek、o3、Claude等“推理”模型根本没有推理能力 苹果 WWDC25 终极前瞻:打不过 AI,我还打不过「UI」吗?! Tehaola特好拉苹果16 Pro Max全屏钢化膜防窥防尘促销价10.9元 古尔曼:预计苹果不会在 WWDC25 开发者大会上发布新硬件 在 WWDC 25 上,苹果应该就 AI 不足和诉讼向开发者进行赔偿 Newyu适用于vivo手机钢化膜促销价13.4元 【行情】荣耀400系列官网维修价格公布 詹姆斯最大的荣耀是FMVP,四次夺冠四次都是FMVP 史玉柱:征途研发期间,我有三年没开过手机 红魔电竞平板3 Pro支持通讯融合:平板可无缝接听手机电话 中兴问天BE6800Pro+路由器限时特惠289元 消息称富士 X Half 相机国行需求量不高 救命!这两台潜水智能全景相机,把深海拍成了 IMAX 大片 红米K80 Pro限时特惠2355元 闪魔小米15 Pro钢化膜28.4元超值入手 小米 SU7 Ultra ×《GT 赛车 7》合作宣传视频公布 只能看不能试驾 小米YU7实车宁波亮相 尧乐科技完成数千万元融资,小米独家投资 安卓旗舰提前发布,华为Mate 80年末错峰登场 首发国产一英寸!华为预热Pura 80:新一代夜视仪来了 闪魔OPPO钢化膜蓝光护眼防爆,适配多机型仅9.9元 闪魔iPhone 11贴膜15.9元 防窥易贴 日本iPhone用户6月24日起可将身份证件添加至苹果钱包 不知不觉间,苹果Vision Pro头显已经正式推出两年了,在中国市场上市将近一年 WWDC2025将召开 苹果或将带来这些信息 《荣耀400首销告捷:以赤子之心破局,用嘶哑喉咙唱响中国智造新篇章》 荣耀HONOR 300 5G手机12GB+256GB苍山灰限时特惠 手机如何开具增值税电子普通发票 索尼PS5更新低能耗模式,疑似为掌机铺路