首页 > 最新动态 > 深思考时代——深思考模型与强化学习 | CCCF精选
最新动态
深思考时代——深思考模型与强化学习 | CCCF精选
2025-11-2028


在本期“深思考模型与强化学习”专题中,经验丰富的一线专家学者从基本概念、方法迭代、软硬协同等多个维度展开论述,争取为读者呈现一幅关于深思考时代的立体全景图。


2025年1月20日,距离农历乙巳蛇年春节不到一周,一个来自中国的人工智能(artificial intelligence,AI)模型悄然改变了全球人工智能的发展轨迹。杭州深度求索公司(DeepSeek)发布的DeepSeek R1,以600万美元的训练成本撼动了硅谷巨头们动辄上亿美元的算力军备竞赛。仅一周后,这个中国制造的AI应用便在全球140个国家和地区的应用商店同时登顶,单日下载量超越了ChatGPT,一段时间后,英伟达的股价应声暴跌。

DeepSeek R1有什么不同?它在回答任何问题之前,都会先“思考”,然后再输出最终的答案。这种“深思考模型”(又叫推理模型)刻意放慢了回答节奏,在这个过程中反复纠错、回忆和迭代自己的思维,让策略空间充分展开,在很多复杂推理问题上达到了质变。实际上,DeepSeek R1并非第一个深思考模型,OpenAI o1的发布更早一些,但DeepSeek将技术和权重完全公开透明化,让一项古老的、曾经掀起21世纪第一次AI浪潮的技术——强化学习再次走入大众的视野。

事实上,强化学习的历史非常悠久,且具有坚实的理论基础,它起源于20世纪50年代的心理学,心理学家伯尔赫斯·弗雷德里克·斯金纳(Burrhus Frederic Skinner)从心理学提出条件反射理论,即研究奖励对动物行为的塑造。一个行为如果能带来积极的结果(即获得奖励),那么该行为出现的频率就会增加。这一“试错”(trial-and-error)和“强化”(reinforcement)的核心概念,成为后来强化学习算法的基本逻辑。1957年,数学家理查德·贝尔曼(Richard Bellman)试图将这一思想转化成可计算的数学形式,他发展了动态规划方法,特别是为了解决马尔可夫决策过程(Markov decision process, MDP)问题提出了贝尔曼方程。MDP将复杂的决策问题形式化为状态、动作、状态转移概率和奖励,而贝尔曼方程则为在已知环境模型的情况下,为计算最优策略提供了递归的解决方案。1988年,理查德·萨顿(Richard Sutton)发表了关于时序差分学习(temporal-difference learning, TD learning)的重要理论。TD方法的革命性在于,它允许智能体在不完全了解环境模型的情况下,直接从经验中学习,这与他最近发表的文章“Welcome to the Era of Experience”不谋而合。进入21世纪之后的故事更为人熟知,强化学习和深度神经网络强强融合,形成了一系列震撼世界的应用:DeepMind的Deep Q-Network在多种雅达利(Atari)游戏上的表现达到甚至超越人类玩家的水平;随后AlphaGo在2016年战胜世界围棋冠军李世石,展示了在极其复杂策略游戏中的超人能力;AlphaGo Zero和AlphaZero更进一步,完全从自我博弈中学习,无需人类数据;AlphaFold则在结构生物学领域取得革命性突破,通过强化学习极大加速了蛋白质结构预测。

在2022年ChatGPT横空出世之后,强化学习开始和最强大的神经网络?大模型进行深度结合,向更高级别的智能迈进。强化学习专注于挖掘环境奖励的极致,而大模型又有较强的泛化性,二者结合使模型既能精于复杂推理,又具备广泛认知能力。在发展初期,强化学习用来拟合复杂且多样的“人类偏好”,但随着技术的深入发展,研究者们发现了更加大道至简的方案,即让模型直接以答案正确与否作为奖励,中间的过程则全凭自身探索。现在国内外的工业界领袖(OpenAI、Google、字节跳动等)都将海量资源投入到了面向深思考模型的强化学习的训练中;与之呼应地,学术界相关的研究也喷涌而出,国际计算机学会(Association for Computing Machinery, ACM)也“应景”地将2024年图灵奖颁给了强化学习的奠基人理查德·萨顿和安德鲁·巴托(Andrew G. Barto)。在本期“深思考模型与强化学习”专题中,我们有幸邀请到多位在此领域有丰富经验的一线专家学者,从基本概念、方法迭代、软硬协同等多个维度展开论述,争取为读者呈现一幅关于深思考时代的立体全景图。

来自南京大学的俞扬教授在《面向大语言模型的强化学习技术发展》中,系统回顾了强化学习如何让大语言模型从“知识渊博”走向“善解人意”。他深入剖析了传统的人类反馈强化学习(reinforcement learning with human Feedback,RLHF)方法的局限性,探讨了针对大语言模型特性的算法革新如何在保证在线学习优势的同时大幅提升训练效率,为我们理解技术突破提供了理论基础。

来自上海交通大学的刘鹏飞副教授等人在《认知工程:生成式人工智能的第二幕》中,高屋建瓴地提出了一个观点:我们正在从知识工程时代迈向认知工程时代。他认为,第一幕的AI模型主要实现了知识的存储与检索,而第二幕的AI则首次具备了真正的深度思考能力,能够进行长达数百小时的复杂推理,实现了从“知识管理工具”到“认知管理工具”的质变。

来自香港科技大学的何俊贤助理教授在其文章《推理模型的自我进化》中,将目光投向了模型的自我进化能力。通过自我合成数据进行自我提升,深思考模型展现出了惊人的成长潜力。B-STaR框架通过平衡探索与利用实现持续进化,零样本的强化学习训练让小型模型也能展现“顿悟时刻”,这些突破都预示着AI正在获得真正的学习能力。

来自上海人工智能实验室的崔淦渠博士等人在《大语言模型推理强化学习的熵变机制》一文中,以独特视角揭示了强化学习过程中的深层规律。文章通过理论与实验阐明了策略熵的变化由动作优势和概率间的协方差驱动,并提出了通过Clip-Cov和KL-Cov等技术来有效控制策略熵,从而更好地平衡模型在训练中的探索与模仿的分配,帮助模型摆脱熵崩溃并实现更优性能。

在软硬协同方面,来自清华大学的章明星副教授在《深度思考模型带来的人工智能基础设施挑战与机遇》一文中,敏锐地指出了前沿算法发展对底层硬件提出的严峻考验。随着模型推理链条的延长和上下文窗口的扩大,现有AI基础设施在计算、存储和网络方面正面临前所未有的压力,推动算法与系统的协同设计已成为该领域的核心议题。

在模型架构层面,来自清华大学的肖朝军博士等人在《面向深思考的高效混合注意力机制》一文中,探索了高效的稀疏注意力机制对深思考模型训练与推理效率提升的巨大潜力。文章指出滑动窗口注意力与稠密注意力的混合架构,能够在保持模型深思考场景性能的同时,实现训练时间20%以上的显著缩减。未来,推动大模型的注意力机制从稠密化向稀疏化乃至线性化演进,将为深思考模型在长时间复杂推理过程中实现高效计算提供关键的架构基础。

6篇文章形成层层递进的梯度,既让读者把握强化学习如何塑形深思考模型的行为,也揭示深思考时代对技术和应用本身提出的新问题——从奖励建模到算力生态,再到安全与可解释性等。我们希望借此呈现核心观点:深思考模型不是简单的技术迭代,而是AI发展范式的转变,在理论、方法、硬件、应用上均能带来全新的研究思路和契机。它标志着我们从追求“更大、更快、更强”的粗放式发展,转向追求“更深、更巧、更智”的精细化演进。

站在2025年的秋天,回望这个被业内称为“DeepSeek新年”的开端,我们有理由相信,一个更加智慧、更加普惠、更加开放的AI时代正在到来。而强化学习,作为赋予大模型深度思考能力的关键技术,必将在这场变革中扮演更加重要的角色。让我们跟随学者们的思考,一起进行探索。




丁宁

CCF专业会员。中国科协青年托举工程人才。清华大学助理教授。主要研究方向为强推理能力的通用人工智能。

dingning@mail.tsinghua.edu.cn


刘知远

CCF杰出会员。清华大学计算机系副教授。主要研究方向为自然语言处理、知识图谱和社会计算。liuzy@tsinghua.edu.cn

本文发表于2025年第7期《计算》。




图片


图片
图片
图片

点击“阅读原文”,加入CCF。

点我访问原文链接