专家级推理指导如何让 AI 变成数学天才?

模型视角 2周前 (03-05) 阅读数 5 #科技

NP难问题接近被AI破解!南航牛津爆改DeepSeek-R1推理(来源:新智元)

讲的是南航、南通大学、牛津等机构的研究者发现,利用高指令的推理提示,可以大幅提升 DeepSeek-R1 等大模型的数学推理能力,甚至有望解决 NP-hard 问题。论文地址:https://arxiv.org/abs/2502.20545

这项研究的突破点在于,他们构建了一个名为SoS-1K的数学数据集,其中包含 1000 个精心设计的多项式问题,并搭配了五类专家级推理指导。这些指导帮助 LLM(大语言模型)在解数学难题时模拟人类数学家的推理过程,而不是简单的模式匹配。结果表明,DeepSeek-R1、Qwen2.5 等模型在数学推理任务上的正确率最高提升了 21%,远超随机猜测基线。

但更令人震惊的是,Qwen2.5-14B 居然找到了希尔伯特第十七问题的一个全新反例!要知道,希尔伯特第十七问题最早由数学家希尔伯特在 1900 年提出,首个反例的发现耗费了人类数学家 27 年。如今,AI 在短时间内给出了新的反例,这意味着什么?

意味着通过合理的推理指导,AI 或许能够突破数学家在某些领域几十年都难以攻克的难题。

推理指导是AI 数学能力提升的关键

但这并不意味着数学不重要了,推理不重要了,甚至是领域知识不重要了。恰恰相反。

我尤其关注这里的的关键词——“推理指导”。这个推理指导是普通人能提供的吗?夸张一点来说,你让一个熟练使用 AI 的小学生来引导,大概率能引导出来吗?很难。

因为这个“推理指导”并不是简单的提示词工程,而是高度专业化的数学引导。它需要研究者具备扎实的数学理论基础,深刻理解问题的本质,并能够设计出系统化、层次化的提示,让 AI 逐步模拟数学家的思维过程。

普通 vs 专家级推理指导

方式示例普通提问方式「这个多项式能写成平方和形式吗?」专家级推理指导1.确定多项式的最高次数是否为偶数。2.评估非负性,寻找对称性和平移不变性。3.匹配已知的 SoS(平方和)特例,缩小搜索范围。4.进行平方形式拆解,看是否能表示为若干项平方和。5.构造矩阵,并检查其是否为半正定。

你看,这已经不是普通人随便能写出来的“提示词”了,而是需要扎实的数学功底。换句话说,能正确指导 AI 解决数学问题的人,本身就是顶级的数学高手。

AI 驱动数学研究的新范式

可以预见,未来的数学研究将呈现出一种全新的范式:

1.问题提出与建模—— 人类数学家仍然在决定研究方向,选择哪些问题值得思考,并将现实问题抽象为数学模型。2.推理指导与启发—— 数学家不再只是解题者,而是成为“推理架构师”,构建合理的逻辑框架,指导 AI 进行高效搜索与演绎推理。3.验证与洞察—— AI 可能会找到新的反例、新的模式、新的猜想,但它仍然需要数学家来验证、归纳,并将其纳入数学理论体系。4.直觉与创造力—— AI 的强项是计算与推理,但数学家仍然拥有更高层次的直觉、创造力,能够提出全新的数学概念、范畴、构造。

在这种模式下,数学研究需要的不仅是扎实的数学基础,还要懂得如何“驾驭”AI。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

模型视角

模型视角

一个资深数学建模爱好者的知识、视角和建模乐趣分享!