首页 > 最新动态 > ADL162《大模型系统优化技术》开始报名
最新动态
ADL162《大模型系统优化技术》开始报名
2025-08-1211



本期ADL聚焦训练与推理核心挑战,系统介绍提升效率、可扩展性及资源利用率的关键技术,涵盖并行策略、网存算融合、内存架构适配、编译技术及多模态负载均衡,并结合TeleTron、Mooncake等案例,解读技术原理与实战经验。



CCF学科前沿讲习班

 CCF Advanced Disciplines Lectures

CCFADL第162期

主题 大模型系统优化技术

2025年9月5日-7日 北京


本期CCF学科前沿讲习班ADL162《大模型系统优化技术》,聚焦于解决大模型训练与推理中面临的核心系统性挑战,对提升模型效率、可扩展性和资源利用率的关键技术进行系统性介绍。内容涵盖分布式训练架构创新(如并行策略重构、网存算融合)、推理系统优化(尤其针对新型硬件架构)、编译技术、异构计算调度以及多模态负载均衡等核心方向。通过本次讲习班,学员将深入理解大模型系统优化的核心原理、前沿进展与关键挑战,并学习如何应用这些技术突破性能瓶颈、降低部署成本,为构建高效能、可扩展的智能系统奠定坚实基础。


本期ADL特邀来自微软亚洲研究院、北京大学、清华大学、香港中文大学、中国电信人工智能研究院、字节跳动等顶尖高校与企业的8位重量级专家学者组成豪华阵容。他们将围绕大模型训练系统(如并行策略优化、长序列/高清视频训练框架、性能模拟与诊断)、推理系统(如分布式内存芯片架构适配、异构推理优化)、编译语言设计(TileLang)以及多模态训练优化等前沿热点,深入剖析技术难点,分享突破性研究成果(如TeleTron、Mooncake、KTransformers等开源项目)及其在真实业务场景中的落地应用经验,为学员带来一场关于大模型底层系统优化技术的深度盛宴。


学术主任:翟季冬 清华大学/李诚 中国科学技术大学

主办单位:中国计算机学会




活动日程:


2025年9月5日(周五)

9:00-9:15

开班仪式

9:15-9:30

全体合影

9:30-11:00

专题讲座1:重构并行策略:深度探讨大模型训练系统的性能潜能

苗又山,微软亚洲研究院高级研究员

11:00-12:30

专题讲座2:大模型推理系统:分布式内存架构芯片的挑战

缪子明,微软亚洲研究院高级研究员

12:30-14:00

午餐

14:00-17:00

专题讲座3:大模型软件系统与基础设施的前沿发展

徐宏,香港中文大学计算机科学与工程系副教授

2025年9月6日(周六)

9:00-12:00

专题讲座4:网存算融合的大模型系统软件

金鑫,北京大学计算机学院长聘副教授、博士生导师,国家高层次青年人才

12:00-14:00

午餐

14:00-15:30

专题讲座5:TeleTron:长序列高清视频生成大模型训练系统

翁祈桢,中国电信人工智能研究院(TeleAI)AI基础设施研发中心主任

15:30-17:00

专题讲座6:TileLang:面向高性能深度学习算子的编程语言探索

杨智,北京大学计算机学院副研究员、博士生导师,国家高层次青年人才

2025年9月7日(周日)

9:00-12:00

专题讲座7:大模型推理系统优化

章明星,清华大学副教授,开源项目Mooncake和KTransformers发起人

12:00-14:00

午餐

14:00-17:00

专题讲座8:多模态分布式训练性能优化

李晓阳,字节跳动seed语音工程训练方向负责人



《大模型系统优化技术》

本期ADL主题《大模型系统优化技术》,由清华大学计算机系长聘教授、博士生导师、高性能计算研究所所长,青海大学计算机技术与应用学院院长,国家杰出青年科学基金获得者,CCF高性能计算专委副主任翟季冬,中国科学技术大学副教授、博士生导师,合肥综合性国家科学中心人工智能研究院信息计算平台主任,国家高层次青年人才计划入选者,CCF专委工委副主任李诚担任学术主任,邀请到苗又山(高级研究员,微软亚洲研究院)、缪子明(高级研究员,微软亚洲研究院)、徐宏(副教授,香港中文大学计算机科学与工程系)、金鑫(长聘副教授,北京大学计算机学院,国家高层次青年人才)、翁祈桢(中国电信人工智能研究院(TeleAI)AI基础设施研发中心主任)、杨智(副研究员,北京大学计算机学院,国家高层次青年人才)、章明星(副教授,清华大学,开源项目 Mooncake 和 KTransformers发起人)、李晓阳(字节跳动seed语音工程训练方向负责人)等8位专家做专题讲座。




学术主任


翟季冬

清华大学

学术主任简介:翟季冬,清华大学计算机系长聘教授、博士生导师、高性能计算研究所所长。青海大学计算机技术与应用学院院长。国家杰出青年科学基金获得者。CCF高性能计算专委副主任、CCF杰出会员。主要研究领域包括并行计算、编程模型与编译优化。在并行计算与系统领域顶级会议和期刊发表论文100余篇,出版专著1部。研究成果获IEEE TPDS 2021最佳论文奖、IEEE CLUSTER 2021最佳论文奖、ACM ICS 2021最佳学生论文奖等。担任NPC 2018程序委员会主席、IEEE CLUSTER 2021领域主席,IEEE Transactions on Computers等多个国际学术期刊编委。担任清华大学学生超算团队教练,指导的团队十五次获得世界冠军。获教育部科技进步一等奖、中国计算机学会自然科学一等奖、CCF-IEEE CS青年科学家奖、高校计算机专业优秀教师奖励计划,大川基金。

李诚

中国科学技术大学

学术主任简介:李诚,德国马普学会软件系统所(MPI-SWS)博士,中国科学技术大学计算机学院副教授、博士生导师,合肥综合性国家科学中心人工智能研究院信息计算平台主任。国家高层次青年人才、安徽省青年教学名师、教坛新秀、优秀青年研究生导师。CCF专委工委副主任。主要研究领域包括大模型基础系统优化与并行存储。在计算机系统领域顶级会议和期刊发表论文50余篇。研究成果获世界人工智能大会青年优秀论文奖、阿里巴巴优秀合作项目奖等。个人荣获高校计算机专业优秀教师奖励计划、CCF高专委青年学者激励计划、ACM中国新星提名等。




特邀讲者


苗又山

微软亚洲研究院

讲者简介:苗又山,微软亚洲研究院高级研究员,毕业于中国科学技术大学少年班学院与计算机学院,分别获得学士与博士学位。加入微软亚洲研究院后,长期从事系统领域研究,聚焦于支持机器学习的分布式系统架构设计与优化。近年来,他在机器学习模型训练系统优化方面取得了多项重要研究成果,发表于SOSP、OSDI、NSDI、EuroSys、USENIX ATC、ASPLOS、HPCA等国际顶级学术会议,为分布式系统的可扩展性与效率提供了多项原创性解决方案。其中部分研究已成功转化为实际产品的核心技术。


报告题目:重构并行策略:深度探讨大模型训练系统的性能潜能


报告摘要:随着人工智能模型规模的持续增长,分布式模型训练面临着严峻的性能挑战。为应对这一问题,系统领域的研究者与工程实践者不断探索提升训练效率的系统性方法。本次报告将介绍如何通过并行策略的重新定义与抽象,持续释放并行空间的自由度,从而充分发掘系统的性能潜力。同时,我们也将探讨在面对庞大并行策略空间时,如何设计有效的机制进行搜索与约束,以实现执行性能与策略开销之间的平衡。

缪子明 

微软亚洲研究院

讲者简介:缪子明,微软亚洲研究院高级研究员,主要从事大模型推理系统优化研究,致力于模型、系统与硬件的协同设计与优化。在 OSDI、SOSP、EuroSys 等国际顶会上发表多篇论文,并荣获 NeurIPS 杰出论文奖。其研究成果已广泛应用于产品中。


报告题目:大模型推理系统:分布式内存架构芯片的挑战


报告摘要:随着物理极限的到来,越来越多的 AI 加速器在单芯片内部采用分布式内存设计以提升算力规模。然而,现有面向 GPU 统一内存架构设计的大模型推理系统难以发挥这种芯片级分布式内存的优势。本次报告将对比芯片级分布式内存与传统统一内存架构的关键差异,深入分析在芯片级分布式内存上进行大模型推理面临的挑战,介绍如何设计编译器与运行时,将模型高效映射到该架构,实现低延迟、高资源利用的推理性能。

徐宏

香港中文大学

讲者简介:徐宏,香港中文大学计算机科学与工程系副教授,前沿人工智能系统国际会议FAISys指导委员会委员。他的研究领域是计算机网络和系统,特别是机器学习系统。从2013年到2020年,他在香港城市大学工作。他于2007年获得香港中文大学的工学学士学位,并于2009年和2013年分别获得多伦多大学的硕士和博士学位。他的研究成果发表在SOSP、ASPLOS、SIGCOMM等顶会上,并获得了包括ACM SIGCOMM 2022、IEEE ICNP 2023和2015在内的最佳论文奖。


报告题目:大模型软件系统与基础设施的前沿发展


报告摘要:报告将会聚焦于针对大模型训练与推理的系统与基础设施,介绍我们设计的性能模拟、追踪异常等工作,为优化性能、稳定性和效率提供助力。

金鑫

北京大学

讲者简介:金鑫,北京大学计算机学院长聘副教授、博士生导师。研究领域为系统软件、计算机网络、云计算。获ACM SIGCOMM Rising Star Award、CCF青年科技奖、阿里巴巴达摩院青橙奖、USENIX FAST最佳论文奖、USENIX NSDI最佳论文奖等奖项。


报告题目:网存算融合的大模型系统软件


报告摘要:随着大模型技术的快速进步,大模型在各个领域都展现出巨大潜力,成为学术界和工业界都关注的热点方向。大模型参数规模大,其训练和推理需要消耗大量计算、网络和存储资源,高效支持大模型的训练和推理是智算系统的重要问题。本次报告将介绍我们在大模型训练和推理系统方面的近期工作,并对大模型系统的未来发展进行展望。

翁祈桢

中国电信人工智能研究院

讲者简介:翁祈桢,中国电信人工智能研究院(TeleAI)AI基础设施研发中心主任,2023年于香港科技大学(HKUST)获得计算机科学与工程学博士学位。曾任职于阿里巴巴集团、上海人工智能实验室,深度参与万卡规模智算集群调度优化,千卡规模大语言模型后训练、文生视频大模型预训练等前沿工作。其研究成果多次亮相NSDI,ATC,SC等国际顶会,并受邀在联合国人工智能向善全球峰会上发表主题演讲。曾获中国科协青年人才托举计划、上海市高层次海外人才引进计划,以及香港政府博士奖学金(HKPFS)、上海市优秀毕业生等多项荣誉。


报告题目:TeleTron:长序列高清视频生成大模型训练系统


报告摘要:随着AI视频生成技术在影视、广告等领域加速产业化,业界对长序列、高分辨率视频生成模型的训练质量与效率关注度持续攀升。当前,多模态生成模型架构迭代迅猛,但开源生态中仍缺乏一款兼顾通用性与高效性的视频生成训练框架;传统大模型训练框架存在长序列支持不足、训练效率低下等瓶颈,严重制约多模态生成技术的发展与落地应用。针对上述痛点,中国电信人工智能研究院(TeleAI)研发并开源了国内首个支持分钟级长视频及 2K 高清分辨率的视频生成大模型训练框架 TeleTron。该框架实现了多模态大模型的4D 混合并行(DP/TP/PP/ZeRO)策略,突破了长序列训练过程中的显存容量与计算性能瓶颈。实验数据显示,TeleTron 在输入帧数与分辨率训练能力上,相比 DeepSpeed 等通用框架提升近 10 倍,并支持上下文窗口随着算力资源的动态扩展实现高效伸缩。在训练效率优化方面,TeleTron 不仅融合了最新的并行策略优化、算子融合等技术,还创新性地提出了“分布式多模态编码器”的设计,通过构建多模态编码器与视频去噪模型的多阶段流水线并行体系,显著提升了训练效率。实际应用中,TeleTron已成功支持腾讯混元、阿里万象以及TeleAI自研VAST等主流多模态生成大模型的训练和微调,相比DeepSpeed框架,训练效率可达到3倍以上的跨越式提升。

杨智

北京大学

讲者简介:杨智,北京大学计算机学院副研究员、博士生导师,国家高层次青年人才,长期从事深度学习系统与编译优化研究,聚焦高性能计算、算子生成与分布式调度等方向。在 OSDI、ATC、Eurosys、SIGMOD 等国际顶级会议发表多篇论文,曾获VLDB最佳论文奖、WWW最佳学生论文奖等荣誉。目前带领团队研发AI编程系统TileLang(https://github.com/tile-ai/tilelang),面向新一代硬件与大模型计算需求,提供可控的tile编程语言与优化机制。


报告题目:TileLang:面向高性能深度学习算子的编程语言探索


报告摘要:在深度学习模型日益复杂、多样硬件架构不断演化的背景下,算子级优化成为AI系统性能提升的关键瓶颈。现有系统如TVM、Triton虽具备一定自动化能力,但仍难以在性能、可控性与可移植性之间取得平衡。TileLang 作为一门新型可控tile编程语言,致力于在编程语言层提供结构化表达,用以统一建模算子、调度策略与硬件映射。本课程将系统讲解 TileLang 的设计动机与关键组件,包括:基于 Tile 的中间表示(Tile-IR)、面向代价模型的搜索空间压缩与调优机制、支持后端的编译链路等。通过对比 Triton、TVM 等现有方案,将探讨 TileLang在性能精度、系统可拓展性、可编程性上的优势与挑战,并辅以多个在 GPU、NPU 等平台上的实证案例。本报告面向对编译器、深度学习系统、高性能计算、AI芯片软件栈等方向感兴趣的学生,适合有一定系统背景或希望深入理解软硬件协同优化技术的研究型学习者参与。

章明星

清华大学

讲者简介:清华大学副教授,主要从事内存系统研究,开源项目 Mooncake 和KTransformers发起人。相关成果在 OSDI、SOSP、ASPLOS、HPCA、EuroSys 等国际顶级会议和期刊上发表论文三十余篇,包括 FAST 最佳论文,SIGSOFT 杰出论文,和国内高校首篇 OSDI。曾获得 ChinaSys 新星和优博奖,IEEE TCSC 优博,入选中国科协青年人才托举计划,科技部重点研发项目课题负责人。曾任深信服首席算法技术专家,创新研究院院长,相关孵化产品应用于数万家客户。


报告题目:大模型推理系统优化


报告简介:由于在算力和带宽两方面的明显优势,传统大模型推理架构往往以 GPU 为中心进行设计。然而,随着 GPU 利用率逐渐逼近瓶颈,进一步降低推理成本需要开拓新的优化路径。结合不同 GPU 设备乃至 CPU/DRAM 设备在带宽或容量成本上的优势,并充分利用模型本身的前序依赖性与稀疏性特征,设计适配的计算架构成为未来算法、系统与硬件协同创新的重要方向。本次报告将介绍两种具体优化思路:一是以存换算的 Mooncake 架构,它通过 以KVCache 为中心的大模型推理架构大幅提升了 Kimi 线上业务的承载能力;在此基础上,我们进一步探讨了更多的异构分离可能性。例如,在 P/D 分离的基础上,我们发现 Decode 环节中的 MLP 和 Attention 算子具有进一步分离的潜力。为此,我们优化了相关的网络传输链路以降低延迟,并在字节跳动的环境中进行了测试。二是以存强算的 KTransformers 系统,它针对 DeepSeek V3/R1 类稀疏大模型进行 CPU/GPU 异构推理优化,显著降低了本地部署门槛。相关项目均已开源,并获得社区广泛关注。

李晓阳

字节跳动

讲者简介:李晓阳,字节跳动seed语音工程训练方向负责人,负责多模态训练系统分布式、高性能优化,以及训推高效结构探索。


报告题目:多模态分布式训练性能优化


报告摘要:本报告首先深入剖析了多模态大模型的结构特征及其主流训练策略,为后续优化奠定理论基础。其次,系统探讨了适用于多模态任务的分布式训练方案及其关键优化技术,旨在解决大规模训练中的通信与计算瓶颈。进一步地,针对多模态数据及模型计算的不均衡特性,报告着重研究了训练过程中的负载均衡优化策略,以最大化集群资源利用率。同时,报告涵盖了包括计算、通信、内存等多维度在内的高性能优化技术,全面提升训练效率。最后,前瞻性地探索了软硬件协同设计在实现高效多模态模型训练与推理(训推)方面的潜力和路径,为未来构建更强大的多模态智能系统提供高效能基础。



时间:2025年9月5-7日

地址:北京?中国科学院计算技术研究所


报名须知:


1、报名费:CCF会员2800元,非会员3600元。食宿交通(费用)自理。根据交费先后顺序,会员优先的原则录取,额满为止。本期ADL为线下活动,请到北京现场参会。(如果确有特殊情况,不能到现场参会,可以线上参会,请会前发邮件到adl@ccf.org.cn邮箱说明情况。线上线下报名注册费用相同。线上会议室号将在会前1天通过邮件发送。)

2、报名截止日期:2025年9月3日。报名请预留不会拦截外部邮件的邮箱。会前1天将通过邮件发送会议注意事项和微信群二维码。如果届时未收到邮件,请务必咨询邮箱adl@ccf.org.cn。

3、咨询邮箱 : adl@ccf.org.cn


缴费方式:


在报名系统中在线缴费或者通过银行转账:

银行转账(支持网银、支付宝):

开户行:招商银行股份有限公司北京海淀科技金融支行

户名:中国计算机学会

账号:110943026510701

报名缴费后,报名系统中显示缴费完成,即为报名成功,不再另行通知。


报名方式:


请选择以下两种方式之一报名:

1、扫描(识别)以下二维码报名: 

2、复制以下链接到浏览器报名:

https://conf.ccf.org.cn/ADL162



推荐阅读

ADL163《联邦大模型》开启报名




点击“阅读原文”,立即报名。

点我访问原文链接