强化学习 | 学者谈术语_最新动态

首页 > 最新动态 > 强化学习 | 学者谈术语

最新动态

强化学习 | 学者谈术语

2025-03-0255

收录于话题

强化学习作为机器学习三大范式之一，通过智能体与环境交互、从延迟反馈中学习优化策略，可广泛应用于游戏AI、机器人控制、自动驾驶等序贯决策任务场景。当前研究包括表征学习、高效探索、分层学习、迁移学习、扩展博弈等方向，解决样本效率低、泛化性差等挑战。强化学习将在大模型增强、具身智能等方面发挥重要作用，为实现人工智能的广泛应用服务提供重要支撑。

InfoBox：

中文名：强化学习

英文名：Reinforcement Learning

学科：计算机科学与技术，人工智能，机器学习

定义：强化学习是机器学习的核心范式之一，其目标是通过智能体（agent）与环境的动态交互，自主习得最优决策策略，以最大化长期累积奖励。

实质：经典强化学习以试错机制为基础，通过奖励信号的延迟反馈引导智能体生成交互数据，使其能在复杂、不确定的环境中自主探索并收敛至最优策略。

概述

强化学习与监督学习、无监督学习共同构成机器学习的三大范式[1]。相较于监督学习依赖显式标注数据的特性，强化学习需从多步决策的延迟反馈中学习，缺乏直接的最优策略指导，这使其在学习机制和应用场景上具有显著差异。

强化学习的学习方式有别于传统的监督学习和无监督学习。监督学习需要大量标注数据作为训练样本，通过输入与输出的映射关系进行模型训练；无监督学习则从无标注数据中挖掘潜在结构或分布规律。与之不同的是，强化学习通过智能体与环境的交互，在执行动作后获得奖励或惩罚的反馈，并以此为依据逐步调整和优化决策策略[2]。这种基于试错探索的学习机制更接近动物的学习过程，能够很好地实现序列决策问题的自主解决。

在应用方面，强化学习特别适合处理具有长期规划与全局优化、序贯决策与动态反馈以及应对不完全观测和不确定性的任务。例如，在围棋中，强化学习通过深度搜索和策略优化，能够在巨大的状态空间中进行长期规划，从布局到收官实现全局最优策略[3]；在机器人控制中，强化学习通过序贯决策，根据传感器实时反馈动态调整动作，从而完成如抓取物体或复杂运动规划等任务[4]；而在自动驾驶中，它能够在不完全观测和环境高度不确定的条件下（如遮挡视野、天气变化或交通流动态变化）做出精准决策，确保车辆安全与高效行驶[5]。

发展历程

强化学习的理论基础可追溯至20世纪50年代。Richard Bellman提出动态规划算法，奠定马尔可夫决策过程（Markov Decision Processes, MDPs）的理论基础[6]，成为强化学习的数学模型基石。1959年，Arthur Samuel在IBM开发的跳棋程序中首次实现时序差分学习机制[7]，被视为强化学习技术的早期实践与机器学习里程碑。

进入20世纪80年代，现代强化学习理论体系逐步成型。Chris Watkins提出Q-learning算法[8]，Richard Sutton系统性发展了时序差分方法[9]。1992年，Gerald Tesauro的TD-Gammon系统结合神经网络与时序差分学习，在西洋双陆棋击败人类冠军[10]，成为强化学习历史上的标志性突破。

2010年代，深度强化学习(Deep Reinforcement Learning)兴起。DeepMind团队通过深度Q网络（DQN）实现Atari游戏端到端控制突破[11]；2016年，AlphaGo整合蒙特卡洛树搜索、深度神经网络与强化学习，击败围棋世界冠军李世石[3]。进入2020年代，强化学习与大型语言模型深度融合，基于人类反馈的强化学习（RLHF）成为ChatGPT等模型对齐人类意图的关键技术[12]，同时，强化学习也成为增强语言模型推理能力的关键技术之一，通过优化多步决策和逻辑推理过程，进一步提升模型的复杂任务处理能力[13]。

分支研究领域

表征学习与高效探索

表征学习的核心问题是如何从原始的高维状态空间中学习到信息丰富、泛化性强的低维特征表示。良好的状态表征，不仅可以增强策略模型的泛化能力，适应更广泛的状态，还能够为强化学习过程对状态空间的探索提供有力支持。基于好奇心[14]、不确定性[15]等机制的探索方法往往都需要依赖状态表征，优质的状态表征可以帮助智能体准确区分已访问和未访问的状态，从而显著提升探索效率。

分层强化学习／时序抽象强化学习

分层强化学习是一类复杂的强化学习问题，其核心在于如何将原始的序贯决策问题分解为多个层次的子任务，从而实现对原问题的时间抽象。这种方法在处理现实世界中涉及多时间尺度决策的复杂任务（如机器人控制、自动驾驶）时尤为重要。通过引入时序抽象，智能体能够在不同时间粒度上进行规划和学习[16]，从而显著提高学习效率。

迁移强化学习

迁移强化学习的研究如何利用已学习的知识和经验来加速并优化智能体在新任务中的学习[17]。传统强化学习通常需要从零开始学习每个任务，样本效率较低，而迁移学习则通过将先验知识融入学习过程，为智能体提供更高的起点或更有经验的指导，从而显著提升学习效率并实现跨任务的泛化。在需要智能体持续适应动态变化环境的任务中，迁移学习尤为关键。目前，基于上下文的元强化学习是迁移强化学习的主要范式[18,19]，这类方法能够通过在线交互反馈，实时调整策略以识别并适应环境的变化。

模仿学习／学徒学习

在某些应用场景中，专家示范数据可以为决策任务提供重要参考。模仿学习的关键在于研究如何从专家示范中学习并模仿最优策略。这种方式使智能体能够快速从专家示范中学得高质量的策略模型，在探索困难的任务或难以手工设计奖励函数的任务中尤为有效。同时，模仿学习常用于强化学习的初始策略构建。当前模仿学习的方法主要分为两类：一种是通过监督学习直接拟合专家行为的行为克隆，另一种是通过推断奖励函数并以此指导强化学习的逆强化学习[20,21]。

有模型强化学习

有模型强化学习的核心在于通过学习环境模型，利用模型生成虚拟训练数据来辅助强化学习，从而减少在真实环境中交互所需的样本量，大幅提高样本效率。具体而言，有模型方法会学习环境的动力学模型[22]（包括状态转移概率和奖励函数），并基于此进行规划和决策。而无模型强化学习则直接依赖真实环境中采集的样本进行策略或价值函数学习，难以覆盖真实样本之外的情况。通过利用环境模型，智能体可以在虚拟状态中预测策略效果，从而扩展训练数据并加快学习进程。然而，有模型方法也面临诸如模型误差累积[20]和推理运算复杂度高等问题。未来，利用因果发现、反事实推理等技术构建更具表达能力的环境模型，有望进一步提升有模型强化学习的性能[23,24]。

离线强化学习

离线强化学习研究的核心问题是如何在智能体无法与真实环境交互的情况下，仅通过静态的离线数据学习有效的决策策略[25]。这一方法在在线试错成本高昂或风险极大的领域（如医疗、工业、金融等）中尤为重要。离线强化学习的主要挑战在于策略分布漂移问题，即从有限离线数据中学得的策略可能偏离原始数据的分布，从而难以准确评估和改进策略。现有方法主要分为两类：一类采取保守策略，约束学习过程和策略模型不偏离离线数据分布[26,27]；另一类通过学习上下文相关的元强化学习策略[28]，提高泛化能力以应对分布漂移问题。

基于强化学习的对抗与合作博弈

强化学习研究智能体与环境交互、自主学习的过程，自然可以推广到多个智能体之间的对抗与合作场景。当环境中存在其他智能体且其目标与智能体相反时，就形成了零和博弈问题。此时通过自博弈等机制，例如self-play [29] 和 PSRO [30]算法，使智能体在对手的对抗下稳健学习，并最终收敛到纳什均衡。而当环境中存在其他目标一致的智能体时，就形成了多智能体合作博弈问题，此时其重点在于通过信息共享、奖励分配等机制实现智能体间的高效协作，从而最大化全局奖励，代表性算法包括 QMIX [31]、QPlex [32] 和 MAPPO [33]等。

未来展望

强化学习将在人工智能发展的下一阶段发挥重要作用。在大模型领域，强化学习已成为对齐模型行为的重要手段，未来还将在增强推理能力、多轮交互以及下游任务表现等方面更深层次地提升大模型能力。在具身智能领域，强化学习是连接感知、决策和动作的重要桥梁。机器人等具身智能体需要在真实物理环境中探索和学习，而这种基于交互的学习范式正是强化学习的核心优势。通过强化学习，具身智能体能够将语言理解和规划能力转化为实际的物理交互能力[34]，这对实现人工智能的广泛应用服务具有重要意义。

然而，强化学习目前仍面临诸多挑战。在样本效率方面，强化学习通常需要大量交互才能学得有效策略，这在实际应用中可能难以承受；在泛化性方面，学习到的策略对环境变化敏感，难以适应新场景；在可解释性和安全性方面，强化学习的决策过程往往缺乏透明度，且在探索过程中可能产生不可预期的危险行为。此外，如何在有限计算资源下处理高维状态空间、在多目标任务中平衡不同奖励信号，以及更好地利用先验知识指导学习，仍是亟待深入研究的方向。

参考文献

[1] Mitchell, T. M. (1997). Machine Learning. New York, NY: McGraw-Hill.

[2] Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction (2nd Edition). MIT Press.

[3] Silver, D., Huang, A., Maddison, C. J., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484–489.

[4] Lillicrap, T. P., Hunt, J. J., Pritzel, A., et al. (2016). Continuous control with deep reinforcement learning. In Proceedings of the 4th International Conference on Learning Representations (ICLR).

[5] Kendall, A., Hawke, J., Janz, D., et al. (2019). Learning to drive in a day. Proceedings of the IEEE International Conference on Robotics and Automation (ICRA), 8248–8254.

[6] Bellman, R. (1957). Dynamic programming. Princeton University Press.

[7] Samuel, A. L. (1959). Some studies in machine learning using the game of checkers. IBM Journal of Research and Development, 3(3), 210–229.

[8] Watkins, C. J., & Dayan, P. (1992). Q-learning. Machine Learning, 8(3), 279–292.

[9] Sutton, R. S. (1988). Learning to predict by the methods of temporal differences. Machine Learning, 3(1), 9–44.

[10] Tesauro, G. (1995). Temporal difference learning and TD-Gammon. Communications of the ACM, 38(3), 58–69.

[11] Mnih, V., Kavukcuoglu, K., Silver, D., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529–533.

[12] Christiano, P. F., Leike, J., Brown, T., et al. (2017). Deep reinforcement learning from human preferences. In Advances in Neural Information Processing Systems (NeurIPS).

[13] Guo, D., Yang, D., Zhang, H., et al. (2025). DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948.

[14] Burda, Y., Edwards, H., Storkey, A., et al. (2018). Exploration by random network distillation. In International Conference on Learning Representations (ICLR).

[15] Osband, I., Blundell, C., Pritzel, A., et al. (2016). Deep exploration via bootstrapped DQN. Advances in Neural Information Processing Systems (NeurIPS), 29, 4026–4034.

[16] Bacon, P. L., Harb, J., & Precup, D. (2017). The option-critic architecture. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI).

[17] Taylor, M. E., & Stone, P. (2009). Transfer learning for reinforcement learning domains: A survey. Journal of Machine Learning Research, 10(7).

[18] Luo, F.-M., Jiang, S.-Y., Yu, Y., et al. (2022). Adapt to environment sudden changes by learning context sensitive policy. In Proceedings of the 36th AAAI Conference on Artificial Intelligence (AAAI).

[19] Chen, X.-H., He, B.-W., Yu, Y., et al. (2023). Sim2Rec: A simulator-based decision-making approach to optimize real-world long-term user engagement in sequential recommender systems. In Proceedings of the 39th IEEE International Conference on Data Engineering (ICDE).

[20] Xu, T., Li, Z., & Yu, Y. (2020). Error bounds of imitating policies and environments. In Advances in Neural Information Processing Systems (NeurIPS).

[21] Li, Z., Xu, T., Qin, Z., et al. (2023). Imitation learning from imperfection: Theoretical justifications and algorithms. In Advances in Neural Information Processing Systems (NeurIPS).

[22] Ha, D., & Schmidhuber, J. (2018). Recurrent world models facilitate policy evolution. Advances in Neural Information Processing Systems (NeurIPS), 31, 2450–2461.

[23] Chen, X.-H., Yu, Y., Zhu, Z.-M., et al. (2023). Adversarial counterfactual environment model learning. In Advances in Neural Information Processing Systems (NeurIPS).

[24] Liu, Y.-R., Huang, B., Zhu, Z.-M., et al. (2023). Learning world models with identifiable factorization. In Advances in Neural Information Processing Systems (NeurIPS).

[25] Levine, S., Kumar, A., Tucker, G., et al. (2020). Offline reinforcement learning: Tutorial, review, and perspectives on open problems. arXiv preprint arXiv:2005.01643.

[26] Kumar, A., Zhou, A., Tucker, G., et al. (2020). Conservative Q-learning for offline reinforcement learning. In Advances in Neural Information Processing Systems (NeurIPS).

[27] Sun, Y., Zhang, J., Jia, C., et al. (2023). Model-Bellman inconsistency for model-based offline reinforcement learning. In Proceedings of the 40th International Conference on Machine Learning (ICML).

[28] Chen, X.-H., Yu, Y., Li, Q., et al. (2021). Offline model-based adaptable policy learning. In Advances in Neural Information Processing Systems (NeurIPS).

[29] Silver, D., Schrittwieser, J., Simonyan, K., et al. (2017). Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv preprint arXiv:1712.01815.

[30] Lanctot, M., Lockhart, E., Lespiau, J., et al. (2017). A unified game-theoretic approach to multiagent reinforcement learning. In Advances in Neural Information Processing Systems (NeurIPS).

[31] Rashid, T., Samvelyan, M., de Witt, C. S., et al. (2018). QMIX: Monotonic value function factorisation for deep multi-agent reinforcement learning. In Proceedings of the 35th International Conference on Machine Learning (ICML).

[32] Wang, J., Ren, Z., Liu, T., et al. (2021). QPLEX: Duplex dueling multi-agent Q-learning. In Proceedings of the 9th International Conference on Learning Representations (ICLR).

[33] Yu, C., Rana, S., Zhou, T., et al. (2022). The surprising effectiveness of PPO in cooperative multi-agent games. In Advances in Neural Information Processing Systems (NeurIPS) Track Datasets and Benchmarks.

[34] Pang, J.-C., , Yang X.-Y., Yang S.-H., et al. (2023). Natural language-conditioned reinforcement learning with inside-out task language development and translation. In Advances in Neural Information Processing Systems (NeurIPS).

作者：

俞扬

2020CCF-IEEE CS青年科学家奖获得者，南京大学人工智能学院教授，主要研究方向为强化学习。

邮箱：yuy@nju.edu.cn

计算机术语审定委员会及术语平台介绍：

计算机术语审定委员会(Committee on Terminology)主要职能为收集、翻译、释义、审定和推荐计算机新词，并在CCF平台上宣传推广。这对厘清学科体系，开展科学研究，并将科学和知识在全社会广泛传播，都具有十分重要的意义。术语众包平台CCFpedia的建设和持续优化，可以有效推进中国计算机术语的收集、审定、规范和传播工作，同时又能起到各领域规范化标准定制的推广作用。新版的CCFpedia计算机术语平台(http://term.ccf.org.cn)将术语的编辑运营与浏览使用进行了整合，摒弃老版中跨平台操作的繁琐步骤，在界面可观性上进行了升级，让用户能够简单方便地查阅术语信息。同时，新版平台中引入知识图谱的方式对所有术语数据进行组织，通过图谱多层关联的形式升级了术语浏览的应用形态。