[LG]《What Characterizes Effective Reasoning? Revisiting Length, Review, and Structure of CoT》Y Feng, J Kempe, C Zhang, P Jain... [Meta Superintelligence Labs] (2025)
有效推理的关键不在于思考更长或更多次回顾,而是避免失败步骤,结构感知的质量远胜于单纯堆积长度。
• 研究覆盖10款大型推理模型,使用数学与科学推理数据集,系统分析链式思维(CoT)的长度、回顾比例与结构特征。
• 统计发现:在同一问题下,较短的CoT和较低的回顾比例(Review Ratio)与更高准确率相关,挑战了“思考越长越好”的主流观点。
• 引入推理图(Reasoning Graph)抽取方法,定义失败步骤比例(Failed-Step Fraction, FSF)——占比越低,模型准确率越高,且该指标优于长度和回顾比例的预测能力。
• 因果验证:基于FSF的测试时选择策略能提升5%-13%准确率,直接剔除失败分支可显著提高推理成功率,表明失败分支负面影响后续推理。
• 研究强调:测试时扩展计算应关注结构质量和失败控制,而非盲目延长CoT;模型未能完全“忘记”早期错误,失败分支会持续偏置推理过程。
• 额外发现:不同模型表现出明显风格差异,回顾动机清晰度与准确性相关性不稳定,推理深度对数学题表现正向影响,结构性指标比词汇级特征更具判别力。
心得:
1. 长度与回顾并非推理质量的充分指示,失败步骤的存在才是准确率下降的根本因素。
2. 推理应被视作有向图结构,合理管理与剪枝失败分支是提升结果质量的关键路径。
3. 未来优化应转向质量感知的生成控制,结合失败传播抑制,将比简单增加推理计算更有效。
详细阅读请见🔗arxiv.org/abs/2509.19284
人工智能大模型推理链式思维推理质量机器学习结构化推理