苹果刚刚证明：DeepSeek、o3、Claude等“推理”模型根本没有推理能力

最新重磅研究：苹果并不认为推理模型比标准 LLM有重大突破

　　最新研究《思考的幻觉：通过问题复杂性视角理解推理模型的优势与局限》中，苹果对“大型语言模型已经具备真正的逻辑思维能力——即真正的“推理能力”——这一普遍存在的假设提出了质疑。苹果公司的研究人员看到的并非认知领域的突破，而是一种幻觉：这些模型仅仅创造了思考的印象，而实际上并没有稳定、可理解的思维过程

苹果刚刚证明：DeepSeek、o3、Claude等“推理”模型根本没有推理能力

　　这篇研究批评的核心点是：当前最前沿的推理模型，在面对真正复杂的问题时，其推理能力会“断崖式”崩溃，并且暴露出一种反直觉的“思考退化”现象，甚至连“照着算法抄作业”都做不好

　　现有评测方法的“陷阱”：为何需要新的实验场？

　　目前，评估AI推理能力主要依赖于数学（如MATH、AIME）和编程等基准测试。然而，研究人员指出，这种方法存在两大弊端：

　　数据污染（Data Contamination）：这些基准测试的题目和答案很可能已经大量存在于模型的训练数据中。模型可能只是“记住”了答案，而非真正“推理”出答案。论文中的数据显示，模型在更新的AIME25数据集上的表现反而不如更早的AIME24，这与人类表现恰恰相反，强烈暗示了数据污染对评测结果的干扰

　　缺乏对“思考过程”的洞察：最终答案的正确与否，无法告诉我们模型是如何思考的，其思维链是高效、严谨还是充满了冗余和错误

　　为了摆脱这些“陷阱”，苹果的研究团队转向了一个更“纯净”的实验场——可控的解谜环境

　　精巧的实验设计：在“谜题”中量化AI的思考能力

　　研究团队选取了四个经典的、逻辑结构稳定但复杂度可控的谜题：

　　汉诺塔（Tower of Hanoi）：测试递归和规划能力

　　跳棋（Checker Jumping）：测试序列规划

　　过河问题（River Crossing）：测试约束满足和规划能力

　　积木世界（Blocks World）：测试规划和状态管理

　　通过改变谜题的参数（如汉诺塔的盘子数量、过河问题的人数），研究人员可以精确地控制问题的组合复杂度，同时利用模拟器验证模型生成的每一步操作是否合规，从而深入剖析其完整的“思考轨迹”

　　如图示意：研究人员不仅评估最终答案，还提取并分析模型在标签内的中间步骤，以洞察其思维过程

苹果刚刚证明：DeepSeek、o3、Claude等“推理”模型根本没有推理能力

汽车性能更多>>