强化学习:理论、方法与在大模型的应用|CNCC Tutorial
2025-09-187
CNCC2025 Tutorial是由领域内专家主讲,面向全体参会者开放的专题讲座或教学环节,旨在介绍研究领域的最新进展或基础知识,内容涵盖原理、挑战、方法等。可以帮助刚进入该方向的博士生、青年学者快速补齐知识短板,以便更好地参会后续的前沿报告理解与未来方向思辨。
今年Tutorial共设置9大主题板块:AI基础模型、机器学习理论与机理、强化学习与推理、视觉与多模态、AI安全与治理、面向AI的数据管理和治理、Agent与具身智能、新型计算与网络架构、AI4Science。
??Tutorial名称:
强化学习:理论、方法与在大模型的应用
??举办地点:
哈尔滨市·华旗饭店
注:如有变动,请以官网(https://ccf.org.cn/cncc2025)最终信息为准
模块 | 时长 | 内容 |
1. 强化学习基础 | 60min | 强化学习历史发展,问题定义,主要概念,基础算法 |
2. 深度强化学习 | 40min | 深度Q网络(DQN)、策略梯度、PPO等主流方法 |
3. 大语言模型强化学习 | 40min | RLHF(基于人类反馈的强化学习)与强化学习大模型微调中强化学习技术的发展 |
4. 模仿学习 | 40min | 模仿学习基础知识与奖励函数学习,大模型奖励函数的获取 |
5. 互动问答与讨论 | 30min | 回答听众问题 |
强化学习作为人工智能的核心分支,近年来广泛应用于对话系统、自动驾驶、游戏智能体等领域,推动了智能体自主决策能力和自适应能力的提升。随着大模型的兴起,强化学习在大模型对齐、推理增强等方面展现出新的价值。本讲习班将梳理强化学习的理论基础与应用新进展,讲解强化学习基础、深度强化学习、大语言模型强化学习、模仿学习等内容,期望帮助听众理解强化学习的基本原理与主要算法、掌握深度强化学习的主流方法及其实现思路、了解强化学习在大模型中的应用技术、跟踪强化学习领域的最新研究进展与发展方向,并为后续科研或实际工作中应用强化学习建立一定的基础。
参与者将能够:
理解强化学习的基本原理与主要算法
掌握深度强化学习的主流方法及其实现思路
了解强化学习在大模型中的应用技术
跟踪强化学习领域的最新研究进展与发展方向
为后续科研或实际工作中应用强化学习奠定坚实基础
1. 强化学习基础
将介绍强化学习历史发展,强化学习的问题定义、主要概念,并讲解基础算法。
2. 深度强化学习方法
强化学习与深度学习的结合自2014年开始得到迅速发展,报告将介绍深度强化学习的基本原理与核心算法,包括深度Q网络(DQN)、策略梯度、Actor-Critic、PPO等主流方法。
3.大语言模型强化学习方法
大语言模型的快速发展极大推动了自然语言处理领域的创新,而强化学习方法则为其能力提升和行为对齐提供了有力工具。报告将介绍强化学习在大语言模型中的应用,以及面向大语言模型强化学习技术的发展。
4.模仿学习与奖励函数学习
模仿学习通过利用专家演示数据,使智能体能够高效学习人类或专家的行为策略,降低探索成本。奖励函数学习则是一种实现模仿学习的有效途径。报告将系统介绍模仿学习与奖励函数学习的基本原理和算法,并介绍面向大语言模型奖励函数获取的最新工作。
南京大学人工智能学院教授。主要从事人工智能、机器学习、强化学习方向的研究,工作获5项国际论文奖、3项国际算法竞赛冠军。入选国家青年人才计划、IEEE Intelligent Systems “AI’s 10 to Watch”,获CCF-IEEE青年科学家奖,首届亚太数据挖掘“青年成就奖”,并受邀在国际人工智能联合大会 IJCAI 2018上作“青年亮点报告”。
南京大学人工智能学院讲师,2023年于南京大学人工智能学院获得博士学位。主要从事强化学习与多智能体强化学习方向的研究,在TPAMI、TNNLS、NeurIPS、ICML、ICLR、AAMAS等发表论文20余篇,在开放环境多智能体强化学习方面的工作获得DAI 2023最佳论文奖。
香港中文大学(深圳)博士生,曾在南京大学作访问学生,主要从事强化学习方向的研究,在TPAMI、NeurIPS、ICML、ICLR等领域顶级期刊和会议发表论文10余篇,提出了面向大语言模型的强化学习算法ReMax。
南京大学人工智能学院博士后,2025年于南京大学人工智能学院获得博士学位。主要从事强化学习理论基础研究,受到国家自然科学基金青年学生(研究生)项目支持,在TPAMI、NeurIPS、ICML、ICLR等领域顶级期刊和会议发表论文10余篇,推进了模仿学习理论误差的理解和消减方法的发展。
CNCC2025将于10月22-25日在哈尔滨举办。专题论坛将在往年多样化主题的基础上,首次通过“基础-前沿-未来”的一体化设计,满足不同背景参会者的需求,构建从知识获取到创新激发的完整路径,打造系统化、进阶式的参会体验。重点设置9大主题板块,每个主题板块的专题论坛由三大核心模块组成:面向前沿领域的体系性Tutorial、聚焦前沿突破的专题论坛以及探讨未来发展路径的思辨论坛。Tutorial作为这一设计的起点,为参会者构建坚实的共同知识基础,能够深度参与后续的前沿报告理解与未来方向思辨。同时面向青年学者、行业新锐等人群,通过系统性教学,助力赋能青年人才发展。
点击“阅读原文”,进入官网。
点我访问原文链接