云霞资讯网

浙大联手蚂蚁集团推出InftyThink+:AI推理再也不怕"话太多"了

这项由浙江大学联合蚂蚁集团、北京大学共同完成的研究发表于2026年,研究编号为arXiv:2602.06960v1。有兴

这项由浙江大学联合蚂蚁集团、北京大学共同完成的研究发表于2026年,研究编号为arXiv:2602.06960v1。有兴趣深入了解技术细节的读者可以通过该编号查询完整论文。

当前的AI推理模型就像一个喋喋不休的学霸,为了解决一道数学题,它会写出长达几万字的推理过程。虽然答案可能是对的,但这种"话痨"式的推理方式带来了三个大问题:首先是计算成本呈几何级数增长,就像雪球越滚越大;其次是AI有记忆上限,推理过程太长就会"爆内存";最后是AI会患上"选择性失忆症",在长篇大论中迷失重点。

浙江大学的研究团队发现了这个问题的根本矛盾:我们既希望AI能够深度思考,又不希望它因为过度冗长而变得低效。他们提出了一个巧妙的解决方案——InftyThink+,这就像是给AI配备了一个智能的"思维整理师"。

这个系统的核心理念很像我们人类解决复杂问题的方式。当面对一个困难的数学证明时,我们不会一口气从头推到尾,而是会阶段性地停下来,总结已经得到的关键结论,然后基于这些关键结论继续推进。InftyThink+就是让AI学会了这种"分段思考,阶段总结"的智慧推理方式。

更重要的是,研究团队没有满足于简单的格式训练,而是引入了端到端的强化学习优化。这意味着AI不仅学会了何时该停下来总结,还学会了如何提炼出最有价值的信息,以及如何基于之前的总结继续有效推理。实验结果显示,在数学竞赛级别的难题上,InftyThink+将准确率提升了21%,同时推理延迟减少了32.8%,真正实现了又快又准的智能推理。

一、人工智能推理的"长篇综合症"困扰

现代AI推理模型面临着一个有趣的悖论。为了在复杂任务上展现出色的表现,这些模型往往需要生成极其冗长的推理链条。就像一个过分细致的侦探,为了破解一个案件,它会记录下每一个细微的观察和推理步骤,最终形成厚厚一本案件记录。

这种"事无巨细"的推理方式确实带来了显著的性能提升。AI模型通过生成详细的思维链条,能够进行问题分解、轨迹规划、多步推理和自我反思,展现出了接近人类的高级认知能力。然而,这种长链推理也带来了三个致命的技术瓶颈。

第一个瓶颈是计算成本的爆炸性增长。现有的AI模型采用自注意力机制,其计算复杂度与输入长度的平方成正比。这意味着推理链条每增加一倍长度,计算成本就会增加四倍。就像复利效应一样,这种成本增长很快就变得让人无法承受,即使是最强大的计算资源也难以支撑。

第二个瓶颈是硬性的长度限制。每个AI模型都有自己的"记忆容量"上限,就像图书馆的书架有限一样。当推理过程超过这个上限时,AI就不得不停止思考,即使问题还没有解决完。这就像在马拉松比赛中途被强制停止一样,让最困难的问题变得无解,无论投入多少计算资源都无济于事。

第三个瓶颈更加微妙但同样致命,那就是"信息迷失现象"。随着推理链条越来越长,AI会逐渐"忘记"早期的重要信息,就像在一个嘈杂的聚会中,你很难听清角落里朋友说的话一样。这种现象被研究者称为"lost-in-the-middle"效应,即使在记忆容量允许的情况下,推理质量也会因为注意力分散而显著下降。

这三个瓶颈形成了一个恶性循环:为了提高推理能力,模型需要更长的推理链条;但更长的链条又会带来计算成本、内存限制和信息迷失的问题。这就像是要在速度、载重量和燃油效率之间找到完美平衡的汽车设计难题。

二、迭代推理:化繁为简的智慧之道

面对长链推理的困境,研究社区开始探索一种更加智能的解决方案——迭代推理。这种方法的核心思想就像是将一本厚厚的小说改编成连续剧,每一集都有自己的高潮和总结,但整体故事依然连贯完整。

迭代推理的工作原理相当巧妙。系统会定期打断推理过程,将到目前为止的思考内容进行压缩或总结,然后基于这个简洁的总结继续进行下一轮推理。这种方式从根本上打破了推理深度与上下文长度之间的捆绑关系,让AI能够在有限的"记忆容量"内进行无限深入的思考。

这种设计带来了双重好处。从计算效率的角度看,每一轮迭代都在固定的上下文窗口内进行,避免了随着推理深度增加而产生的计算成本爆炸。从信息管理的角度看,通过强制性的信息精炼过程,系统必须将核心要点提炼成紧凑的摘要,这实际上是一种有益的信息过滤机制。

然而,现有的迭代推理方法存在三个根本性的设计缺陷,就像是三个没有答案的哲学问题:何时压缩、如何压缩、如何继续。

第一个问题是时机选择。一些方法基于固定的规则或启发式算法来决定何时进行总结,就像按照时钟整点报时一样机械。但这种方式忽略了推理过程的自然节奏——有时候一个复杂的论证需要更长的展开,有时候简单的步骤可以快速总结。

第二个问题是压缩质量。现有方法往往依赖于外部工具或固定算法来生成摘要,就像用同一个模板来总结不同类型的文章。这种做法风险很大——关键信息可能被遗漏,不相关的细节可能被保留,或者总结本身就包含错误。

第三个问题是连贯性保持。即使有了高质量的摘要,如何确保后续推理能够有效利用这些压缩信息,而不是产生语义漂移或逻辑断裂,这本身就是一个棘手的挑战。

研究团队意识到,这三个问题的核心不在于找到完美的启发式规则,而在于让AI系统自己学会做出最优决策。每一个总结时机的选择、每一种信息压缩的策略、每一次推理继续的方式,都是具有长期后果的序列决策。一个糟糕的早期总结可能会毁掉整个后续推理过程;一次不必要的迭代会浪费宝贵的计算资源;一个过早的结论会牺牲推理的准确性。

这种认识导向了一个关键洞察:优秀的迭代推理不是格式问题,而是策略优化问题。需要的不是更好的模板,而是更智能的决策能力。这正是InftyThink+方法的核心理念——通过轨迹级别的优化来学习最佳的推理策略。

三、InftyThink+:推理策略的智能进化

InftyThink+的设计哲学就像是培养一位优秀的象棋大师。与其让选手死记硬背各种开局和残局,不如让他通过大量实战来培养战略直觉和决策能力。这个系统采用了两阶段的训练策略:先学基础套路,再练实战策略。

第一阶段被称为"冷启动",就像是教会AI基本的迭代推理格式。这个阶段使用监督学习的方式,让AI熟悉何时该生成总结、如何组织总结内容、如何基于总结继续推理等基本操作。这就像是教钢琴初学者先练习音阶和指法,建立基本的肌肉记忆。

但是,仅仅掌握格式是远远不够的。就像一个会弹音阶的人不一定能演奏出动人的音乐一样,会使用迭代格式的AI不一定能做出最优的推理决策。这时候就需要第二阶段的强化学习训练。

强化学习阶段的核心是让AI通过实际的推理任务来学习最佳策略。系统会尝试各种不同的决策组合:在不同时机进行总结、生成不同详细程度的摘要、采用不同的推理继续策略。每一种尝试都会得到相应的反馈——推理是否最终得到了正确答案,整个过程是否高效。

这种训练方式的妙处在于,AI不仅学会了如何产生迭代推理的输出,更重要的是学会了在什么时候总结、保留什么信息、如何有效地利用自己生成的摘要来继续推理。这些都是通过端到端的轨迹级优化获得的策略能力。

InftyThink+在推理过程中的表现就像一位经验丰富的研究者。当面对一个复杂问题时,它会自主决定在什么时候停下来整理思路。在生成总结时,它知道哪些信息是后续推理的关键,哪些细节可以放心丢弃。在继续推理时,它能够充分利用之前的总结,避免重复劳动或遗忘重要约束。

这种自适应的推理能力带来了显著的性能提升。在数学推理任务上,InftyThink+不仅显著提高了准确率,还大幅降低了推理延迟。更重要的是,这种改进不是通过增加计算资源实现的,而是通过更智能的资源利用策略实现的。

系统还引入了效率奖励机制,鼓励AI在保证准确性的前提下尽量简洁高效。这就像是在准确性和效率之间找到最佳平衡点,让AI既不会因为过度简化而出错,也不会因为过度冗长而浪费资源。

四、实验验证:理论照进现实

研究团队在多个权威数据集上进行了全面的实验验证,就像是让新发明的汽车在不同路况下进行路试。他们选择了DeepSeek-R1-Distill-Qwen-1.5B作为基础模型,这是一个在推理任务上表现出色的AI系统。

实验设计非常严谨,采用了对照实验的方式。研究团队将InftyThink+与传统的长链推理方法进行了全面比较,就像是比较两种不同的学习方法哪种更有效。他们使用了多个维度的评价指标:不仅看最终的准确率,还要看生成的文本长度、推理用时等效率指标。

在AIME24这个数学竞赛级别的困难数据集上,InftyThink+展现出了令人印象深刻的性能。相比于冷启动阶段,强化学习优化后的系统准确率提升了21个百分点。更重要的是,相比于传统的长链推理强化学习方法,InftyThink+还额外获得了9个百分点的提升,证明了迭代推理策略的优越性。

在推理效率方面,InftyThink+的优势更加明显。在AIME25数据集上,推理延迟减少了32.8%,这意味着同样的计算资源能够处理更多的推理任务。这种效率提升不是以牺牲准确性为代价的,而是通过更智能的推理策略实现的双赢结果。

特别值得注意的是,当研究团队加入效率奖励机制后,系统学会了在保持高准确率的同时显著缩短推理过程。这就像是训练一个演讲者既要表达清楚观点,又要控制时间长度。最终的结果是,系统在效率和准确性之间找到了最佳的平衡点。

跨领域泛化能力的测试也证实了InftyThink+的robust性。在GPQA_diamond这个科学推理数据集上,虽然这与训练时使用的数学推理任务存在领域差异,系统依然取得了5%的准确率提升,展现了良好的迁移能力。

更令人兴趣的是,InftyThink+的优势不仅体现在最终性能上,训练过程本身也变得更加高效。相比于传统的强化学习训练,InftyThink+的训练速度提升了18.2%,这意味着研究者能够更快地迭代和改进模型。

五、深度分析:智能推理的三重奏

研究团队对InftyThink+的工作机制进行了深入的分析,就像是解剖一台精密仪器来理解其工作原理。他们发现,系统的智能推理能力可以分解为三个关键维度:何时压缩、如何压缩、如何继续。

在"何时压缩"这个维度上,研究团队设计了巧妙的对比实验。他们比较了三种不同的总结时机策略:自适应时机(由AI自主决定)、固定时机(每5000个词汇后强制总结)、随机时机(在3000-6000词汇之间随机选择)。结果清晰地显示,自适应时机在所有测试数据集上都显著优于固定或随机策略。

更有趣的是,强化学习训练让这种时机选择能力变得更加精准。在没有强化学习的情况下,不同时机策略之间的性能差异相对较小。但经过强化学习训练后,自适应时机的优势变得更加明显,这说明AI确实学会了识别推理过程中的自然节点和最佳总结时机。

在"如何压缩"这个维度上,研究团队进行了一个精彩的替换实验。他们用外部模型生成的高质量总结来替换AI自己生成的总结,观察性能变化。结果发现了一个有趣的现象:在监督学习阶段,使用外部生成的总结能够提升性能,说明AI自己的总结质量还不够好;但在强化学习阶段,使用外部总结反而会降低性能,这说明AI已经学会生成与自己推理方式匹配的专用总结。

这个发现揭示了一个重要洞察:最好的总结不一定是客观上最完美的总结,而是最适合后续推理的总结。就像每个人都有自己的记笔记习惯一样,AI也需要学会生成适合自己"思维模式"的总结。

在"如何继续"这个维度上,研究团队通过交叉验证实验发现了InftyThink+的另一个优势。他们将InftyThink+生成的总结提供给传统的推理模型,观察这些总结是否能够支持有效的推理继续。结果显示,虽然传统模型也能基于这些总结进行推理,但性能明显不如InftyThink+本身,这说明系统不仅学会了生成好的总结,还学会了如何有效利用这些总结。

效率分析揭示了InftyThink+的另一个重要优势。传统的长链推理面临O(L?)的计算复杂度,其中L是推理链长度。而InftyThink+通过迭代方式将其降低为O(n×l?),其中n是迭代次数,l是每次迭代的长度。由于通常n×l?远小于L?,这带来了显著的计算效率提升。

更深入的分析显示,InftyThink+不仅减少了推理延迟,还改变了延迟分布的形状。传统方法的延迟分布有很长的尾部,意味着有些样本会花费极长时间。而InftyThink+显著缩短了这个尾部,让推理时间变得更加可预测和稳定。

六、技术创新的多重意义

InftyThink+的技术贡献远不止于性能指标的提升,它代表了AI推理范式的一次重要革新。这种革新的意义可以从多个层面来理解。

从技术架构的角度看,InftyThink+成功地将强化学习引入到了迭代推理的优化中。这打破了之前迭代推理方法主要依赖启发式规则或监督学习的局限,开创了端到端策略优化的新路径。这就像是从手工制作转向智能制造,让系统能够自动发现最优的推理策略。

从计算效率的角度看,InftyThink+提供了一种全新的思路来解决长链推理的计算瓶颈。与通过增加硬件资源来暴力解决问题不同,这种方法通过算法创新来提高资源利用效率。这种"巧功"胜过"蛮力"的思路,对于AI技术的可持续发展具有重要意义。

从训练效率的角度看,InftyThink+不仅在推理阶段更高效,在训练阶段也展现了优势。18.2%的训练加速意味着研究者能够更快地进行模型迭代和改进,这对于AI技术的快速发展非常重要。

从泛化能力的角度看,InftyThink+在多个不同领域的数据集上都展现了性能提升,包括数学推理、科学推理和代码推理。这说明这种方法具有良好的通用性,不是针对特定任务的trick,而是一种fundamental的改进。

特别值得强调的是,InftyThink+在保持高准确率的同时显著降低了推理延迟。这种双赢的结果在AI领域是比较少见的,通常准确率和效率之间存在权衡关系。这种突破为实际应用部署提供了更多可能性。

研究团队还证实了InftyThink+方法在更大规模模型上的有效性。在Qwen3-4B-Base这样的更大模型上,同样观察到了性能提升,这说明这种方法不受模型规模限制,具有良好的可扩展性。

从人机交互的角度看,InftyThink+生成的推理过程更加结构化和可解释。每个迭代阶段都有明确的总结,这让人类用户更容易理解AI的推理逻辑,提高了系统的可信度和可调试性。

七、实际应用的广阔前景

InftyThink+的技术突破为实际应用开辟了广阔的前景。这种既准又快的推理能力,在多个实际场景中都具有重要价值。

在教育领域,InftyThink+可以成为一个出色的AI导师。当学生遇到复杂的数学或科学问题时,系统能够提供结构清晰、步骤合理的解答过程。更重要的是,每个迭代阶段的总结就像是学习要点的提炼,帮助学生更好地理解问题的关键所在。

在科研辅助方面,InftyThink+能够帮助研究者进行复杂的理论推导或实验设计。系统的迭代推理能力特别适合处理需要多步验证和反复修正的研究问题。而且,推理过程的高效性意味着研究者能够更快地验证各种假设和想法。

在工程设计领域,许多复杂系统的设计需要综合考虑多个约束条件和优化目标。InftyThink+的多轮推理能力能够帮助工程师系统性地分析各种设计选择,每次迭代都能在前一轮分析的基础上深入探讨特定方面的问题。

在法律分析方面,复杂案件往往涉及多个法律条文和先例的综合分析。InftyThink+能够逐步梳理各个法律要点,在每个阶段总结关键论据,最终形成逻辑清晰的法律意见。

在商业决策支持方面,企业面临的重大决策通常需要考虑市场、技术、财务、风险等多个维度。InftyThink+能够分阶段深入分析每个维度,然后综合各阶段的分析结果形成最终建议。

特别值得一提的是,InftyThink+的效率优势使得它特别适合部署在资源受限的环境中。无论是移动设备上的个人助手,还是企业内部的推理服务,都能从这种高效的推理能力中受益。

从长期发展的角度看,InftyThink+代表的迭代推理范式可能会成为未来AI系统的标准配置。随着AI任务变得越来越复杂,单次推理很难处理所有的复杂性。而迭代推理提供了一种可扩展的解决方案,能够根据问题的复杂程度动态调整推理深度。

说到底,InftyThink+解决的不仅是一个技术问题,更是AI发展中的一个fundamental挑战:如何在有限的计算资源下实现无限的推理深度。这种技术突破为AI的实际应用和大规模部署扫清了重要障碍。研究团队通过巧妙的算法设计和训练策略,让AI学会了既深入又高效的思考方式,这不仅是技术上的进步,也是对AI智能本质的深刻洞察。

对于普通用户来说,这意味着未来的AI助手将能够处理更复杂的问题,同时响应更加迅速。无论是解决学习中的难题,还是协助工作中的决策,AI都将变得更加智能和实用。这项研究为AI技术从实验室走向千家万户又迈出了坚实的一步。

Q&A

Q1:InftyThink+是如何解决AI推理"话太多"的问题的?

A:InftyThink+采用分段思考的方式,让AI在推理过程中定期停下来总结要点,然后基于这些精炼的总结继续推理,而不是一口气写出几万字的长篇大论。这就像人类解决复杂问题时会阶段性总结一样,既保证了推理深度又控制了长度。

Q2:InftyThink+相比传统方法性能提升了多少?

A:在数学竞赛级别的AIME24数据集上,InftyThink+将准确率提升了21%,相比传统长链推理方法还额外获得了9%的提升。在效率方面,推理延迟减少了32.8%,训练速度也提升了18.2%,真正实现了又快又准。

Q3:普通人什么时候能用上InftyThink+技术?

A:这项技术目前还在研究阶段,但它为AI助手、教育软件、科研工具等应用提供了新的技术路径。未来的AI产品很可能会集成类似的迭代推理技术,让AI能够更智能地处理复杂问题,同时保持快速响应。