CNCC2025 Tutorial是由领域内专家主讲,面向全体参会者开放的专题讲座或教学环节,旨在介绍研究领域的最新进展或基础知识,内容涵盖原理、挑战、方法等。可以帮助刚进入该方向的博士生、青年学者快速补齐知识短板,以便更好地参会后续的前沿报告理解与未来方向思辨。
今年Tutorial共设置9大主题板块:AI基础模型、机器学习理论与机理、强化学习与推理、视觉与多模态、AI安全与治理、面向AI的数据管理和治理、Agent与具身智能、新型计算与网络架构、AI4Science。
??Tutorial名称:
大模型的对齐技术:理论、系统与应用
??所属主题:
强化学习与推理
??日程安排:
2025年10月22日下午
??举办地点:
哈尔滨市·华旗饭店
注:如有变动,请以官网(https://ccf.org.cn/cncc2025)最终信息为准
模块 | 时长 | 内容 |
1. 引言与对齐概述 | 20min | 大模型对齐的定义、发展历史与应用场景 |
2. 主流对齐流程 | 30min | SFT、RLHF、DPO、GRPO等后训练对齐技术原理与流程 |
3. 开源大模型实践分析 | 30min | 开源工具链、代表性案例(GPT、Gemini等) |
4. 对齐难题与安全挑战 | 30min | 抗拒对齐、欺骗性对齐等高阶安全风险 |
5. 高效与参数无关对齐新进展 | 30min | 轻量级、自动化、通用对齐方法 |
6. 全模态对齐展望 | 30min | 文本、图像、音频、具身智能体统一对齐框架 |
7. 互动讨论与答疑 | 30min | 现场交流与开放式问题 |
Tutorial 第一部分:大模型对齐技术的理论基础与系统实践
摘要:本报告将系统梳理大模型对齐(Alignment)的理论基础和系统化工程实践。首先介绍对齐在大模型安全与智能涌现中的核心地位,回顾强化学习、人类反馈强化学习(RLHF)、监督微调(SFT)、直接偏好优化(DPO)等主流后训练方法的理论框架与进展。进一步分析多智能体、具身智能等新兴方向下的对齐需求和挑战,结合系列模型开源实际案例,深入探讨如何将前沿算法与大规模工程落地结合。报告最后展望全模态、跨领域对齐技术的未来趋势,并提出亟需突破的核心科学与安全问题。
Tutorial 第二部分:强化学习与大模型对齐的创新方法及安全挑战
摘要:本报告聚焦强化学习与大模型对齐的创新算法和实际应用。首先介绍高效参数无关对齐方法、模型偏好反馈采集与优化,以及语言反馈(LLF)等对齐新范式,系统解析各类方法在实际大模型中的性能权衡。进一步结合开源社区和产业界的典型实践(如RLHF数据集构建、对齐系统自动化等),详细剖析大模型在抗拒对齐、欺骗性对齐等安全风险场景下的行为表现与应对策略。
讲者介绍
杨耀东
北京大学人工智能研究院研究员、博雅学者
吉嘉铭
北京大学博士生
CNCC2025将于10月22-25日在哈尔滨举办。专题论坛将在往年多样化主题的基础上,首次通过“基础-前沿-未来”的一体化设计,满足不同背景参会者的需求,构建从知识获取到创新激发的完整路径,打造系统化、进阶式的参会体验。重点设置9大主题板块,每个主题板块的专题论坛由三大核心模块组成:面向前沿领域的体系性Tutorial、聚焦前沿突破的专题论坛以及探讨未来发展路径的思辨论坛。Tutorial作为这一设计的起点,为参会者构建坚实的共同知识基础,能够深度参与后续的前沿报告理解与未来方向思辨。同时面向青年学者、行业新锐等人群,通过系统性教学,助力赋能青年人才发展。
点击“阅读原文”,加入CCF。