首页 > 最新动态 > 大模型的对齐技术:理论、系统与应用|CNCC Tutorial
最新动态
大模型的对齐技术:理论、系统与应用|CNCC Tutorial
2025-08-2718

CNCC2025 Tutorial是由领域内专家主讲,面向全体参会者开放的专题讲座或教学环节,旨在介绍研究领域的最新进展或基础知识,内容涵盖原理、挑战、方法等。可以帮助刚进入该方向的博士生、青年学者快速补齐知识短板,以便更好地参会后续的前沿报告理解与未来方向思辨。


今年Tutorial共设置9大主题板块:AI基础模型、机器学习理论与机理、强化学习与推理、视觉与多模态、AI安全与治理、面向AI的数据管理和治理、Agent与具身智能、新型计算与网络架构、AI4Science。



??Tutorial名称:

大模型的对齐技术:理论、系统与应用

??所属主题:

强化学习与推理

??日程安排:

2025年10月22日下午

??举办地点:

哈尔滨市·华旗饭店


注:如有变动,请以官网(https://ccf.org.cn/cncc2025)最终信息为准


模块

时长

内容

1. 引言与对齐概述

20min

大模型对齐的定义、发展历史与应用场景

2. 主流对齐流程

30min

SFT、RLHF、DPO、GRPO等后训练对齐技术原理与流程

3. 开源大模型实践分析

30min

开源工具链、代表性案例(GPT、Gemini等)

4. 对齐难题与安全挑战

30min

抗拒对齐、欺骗性对齐等高阶安全风险

5. 高效与参数无关对齐新进展

30min

轻量级、自动化、通用对齐方法

6. 全模态对齐展望

30min

文本、图像、音频、具身智能体统一对齐框架

7. 互动讨论与答疑

30min

现场交流与开放式问题


1

Tutorial简介

大型语言模型(LLMs)展现了卓越的能力,但如何确保其行为与人类意图一致,仍是机器学习领域最紧迫的挑战之一。本教程从机器学习的视角系统梳理了对齐方法。我们首先从奖励黑客、社会偏见和权力追求等经典问题出发,提出将对齐理解为“前向训练”与“反向修正”的循环过程。随后,我们追溯了对齐的源头:由逆向强化学习发展出的奖励模型,为偏好学习与现代 RLHF 流程奠定了基础,并扩展到 RLAIF 与宪法式 AI。进一步地,我们展示了直接偏好优化(DPO)及其推广如何可被视作逆偏好学习(IPL)的特例,从而为 RLHF 提供更简洁的替代方案。同时,我们讨论了可捕捉非传递性偏好的通用偏好建模,以及引入外部评估器的验证器对齐方法。贯穿始终的主题是 AI 对齐范式的根本转变——从依赖人工标注的被动学习,迈向基于经验的自主改进。本文旨在为学界提供统一的对齐方法视角,并指出通向安全、可靠、价值一致的 LLM 的关键方向。

2

Tutorial目标

参与者将能够:

  • 理解大模型对齐的基本理论与主流技术路线

  • 掌握主流后训练对齐方法(SFT、RLHF、DPO等)及其实际应用场景

  • 熟悉主流开源对齐工具及平台

  • 了解多模态/全模态大模型对齐的最新前沿与发展趋势


1


Tutorial 第一部分:大模型对齐技术的理论基础与系统实践

摘要:本报告将系统梳理大模型对齐(Alignment)的理论基础和系统化工程实践。首先介绍对齐在大模型安全与智能涌现中的核心地位,回顾强化学习、人类反馈强化学习(RLHF)、监督微调(SFT)、直接偏好优化(DPO)等主流后训练方法的理论框架与进展。进一步分析多智能体、具身智能等新兴方向下的对齐需求和挑战,结合系列模型开源实际案例,深入探讨如何将前沿算法与大规模工程落地结合。报告最后展望全模态、跨领域对齐技术的未来趋势,并提出亟需突破的核心科学与安全问题。

2


Tutorial 第二部分:强化学习与大模型对齐的创新方法及安全挑战

摘要:本报告聚焦强化学习与大模型对齐的创新算法和实际应用。首先介绍高效参数无关对齐方法、模型偏好反馈采集与优化,以及语言反馈(LLF)等对齐新范式,系统解析各类方法在实际大模型中的性能权衡。进一步结合开源社区和产业界的典型实践(如RLHF数据集构建、对齐系统自动化等),详细剖析大模型在抗拒对齐、欺骗性对齐等安全风险场景下的行为表现与应对策略。


讲者介绍



杨耀东

北京大学人工智能研究院研究员、博雅学者

博士,北京大学人工智能研究院研究员(博雅学者)。国家人社部高层次留学人才、国家优青(海外)、中国科协青年托举计划获得者。研究方向为智能体交互学习与对齐,科研领域涵盖强化学习、AI对齐、具身智能。发表AI领域顶会顶刊论文一百余篇,谷歌引用过万次。曾获ACL’25最佳论文奖、ICCV’23最佳论文奖入围、CoRL’20最佳系统论文奖、AAMAS’21最具前瞻性论文奖。带领华人团队研发多智能体强化学习算法首登Nature Machine Intelligence,碳材料大模型Carbon Copilot刊登于Cell子刊Matter。

吉嘉铭

北京大学博士生

北京大学人工智能研究院博士生,导师为杨耀研究员,研究方向为强化学习和大模型对齐,共发表顶会期刊论文十余篇,论文入选ACL Panel Discussion(TOP 25篇,接收率0.3%),NeurIPS Oral(接受率0.5%),ICLR Spotlight等口头汇报,相关成果谷歌学术总引用3000余次,GitHub开源项目星标3.2万余次,开源模型累积下载量500W余次,主持首批国自然博士青年基金资助(2023年度北京大学智能学科唯一),入选苹果学者(Apple Scholar,全国2人),首届中国电子学会-腾讯博士生科研激励计划(全国17人),获 NeurIPS‘22 机器人灵巧操作比赛冠军。


CNCC2025



CNCC2025将于10月22-25日在哈尔滨举办。专题论坛将在往年多样化主题的基础上,首次通过“基础-前沿-未来”的一体化设计,满足不同背景参会者的需求,构建从知识获取到创新激发的完整路径,打造系统化、进阶式的参会体验。重点设置9大主题板块,每个主题板块的专题论坛由三大核心模块组成:面向前沿领域的体系性Tutorial、聚焦前沿突破的专题论坛以及探讨未来发展路径的思辨论坛。Tutorial作为这一设计的起点,为参会者构建坚实的共同知识基础,能够深度参与后续的前沿报告理解与未来方向思辨。同时面向青年学者、行业新锐等人群,通过系统性教学,助力赋能青年人才发展。





图片


图片
图片
图片

点击“阅读原文”,加入CCF。

点我访问原文链接