首页 > 最新动态 > CCF Computility 2025 | 杨仝、郑晓龙、张亮、张权路、王瑞雪、徐恩松、缪葱葱邀您共话智算集群创新与实践论坛
最新动态
CCF Computility 2025 | 杨仝、郑晓龙、张亮、张权路、王瑞雪、徐恩松、缪葱葱邀您共话智算集群创新与实践论坛
2025-07-2510



第二届中国计算机学会(CCF)分布式计算大会暨中国算力网大会(CCF Computility 2025)将于2025年7月25日至27日在中国甘肃兰州市举行,会议规模预计1400余人。本次会议由CCF主办,CCF分布式计算与系统专委会与兰州大学共同承办。会议主题为“算力网:新质生产力背景下的分布式系统”,旨在为分布式系统和算力网相关的从业者提供最专业的学术研讨、技术交流和成果展示的平台。CCF Computility 2025为大家准备了11场由院士等顶级专家带来的主旨报告,23场技术论坛(120位特邀报告)。目前会议注册通道已经开放。

?? 时间紧迫,抓紧报名!






大会主旨报告嘉宾介绍




论坛背景





近年来,大模型训练和推理领域变化显著:千亿级大模型(如DeepSeek-V3、LLaMA-3、GPT-4)规模化落地, PD分离、KV Cache传输、Dual Pipe、大EP MOE等技术不断涌现,从Chat LLM走向Agentic AI、从LLM走向LMM的趋势渐明。这些变化的发生,离不开智算集群的支持。智算集群作为计算基础设施,能够整合海量计算资源,为大规模的训练及推理业务提供强大的算力支撑。然而,智算集群的发展也面临着诸多挑战,如架构优化设计、能效提升、安全问题、异构资源融合、集群管理与运维的智能化等。面对这些挑战,智算集群该何去何从?论坛邀请国内相关领域的知名专家,就这些前沿趋势与挑战进行深入的交流和探讨,探索智算集群技术的未来演进路径。




论坛报告安排


论坛主席杨仝研究员,郑晓龙主任
特邀报告1

张亮 数据通信产品线研究部部长

华为

智算集群网络演进:挑战来袭,如何应对?

特邀报告2张权路 技术副总裁
无问芯穹
面向通用大规模MoE模型的高效训练框架:多维优化与自动调优
特邀报告3

王瑞雪 技术经理

中国移动研究院基础网络所

全调度以太网,构筑新型智算中心网络底座
特邀报告4

徐恩松 智算集群运维专家

科大讯飞
飞星智算集群建设及SRE实践
特邀报告5

缪葱葱 高级研究员

腾讯

大规模分布式训练隐性故障定位
Panel
张亮、张权路、王瑞雪、徐恩松、缪葱葱
智算集群的发展:敢问路在何方?
时间:2025年7月26日
地点:兰州市甘肃国际会议中心



论坛主席及介绍


杨仝 研究员

北京大学

北京大学PKU-DS实验室负责人杨仝,为北京大学计算机学院研究员,北京大学人工智能研究院研究员,教育部青年长江学者,北大-小米大模型训推联合实验室主任,北大-360大模型联合实验室主任,北大临港大模型研发中心主任。主要研究方向为大语言模型关键技术与概率数据结构。实验室云集了众多优秀本硕博学生100人,包括IMO、IOI、IBO、ACM World Final、NOI、CMO、CNBO、CChO 金牌。近年发表一作/通信作者CCF A类论文100篇。课题组独立研发的FairyR1模型以5%参数超越Deepseek满血版R1的数学和代码性能,已在北大校园网提供大模型服务。与360公司联合研发的32B模型,以5%参数量逼近满血版Deepseek-R1数学性能。获得中国电子学会技术进步一等奖(排名第二)、5次获得华为火花奖(全国最多),1次奥林帕斯先锋奖。

郑晓龙 数通DCN实验室主任

华为

郑晓龙,华为数通DCN技术实验室主任,华为DCN领域科学家,2016年获清华大学自动化系博士学位,2011年获清华大学自动化系学士学位。研究兴趣主要有数据中心网络架构,RDMA网络,大模型训推网络,发表SCI/顶会(如SIGCOMM、ATC等)论文十余篇,专利数十项,主持国家重点研发项目一项,曾获清华大学优秀博士论文,清华大学优秀毕业生。


嘉宾及报告介绍



张亮

数据通信产品线研究部部长

华为

讲者简介:张亮,2010年东南大学博士毕业入职华为,现任数据通信产品线研究部部长一职。负责WLAN&以太领域、网络AI算法领域、IP协议与转发领域竞争力提升。在SIGCOMM、KDD等会议/期刊发表多篇论文,完成专著《事件挖掘的理论算法及应用》,发明专利50+。


报告题目:智算集群网络演进:挑战来袭,如何应对?


报告摘要:当千亿参数级大模型呼啸而来,传统智算集群网络能否接得住这泼天的流量?想要回答这个问题,就需要解决集群架构受限、网络MTBF随着集群规模增长线性劣化、通信延迟拖慢训练效率等挑战性问题。本报告将结合华为在智算集群演进方面的经验与思考,和与会专家一起探讨如何推动智算集群网络的持续发展,共同为AI时代的智算网络寻找破局之道。

张权路

技术副总裁

无问芯穹

讲者简介:张权路,无问芯穹技术副总裁,前微软亚洲研究院系统研究组首席研究员,在智能计算等方面有长期的研究与实践经验。研究方向包括大模型分布式训练系统、异构混训、大规模GPU集群管理与任务调度、量化稀疏模型的编译加速、自动机器学习系统的设计与研发。在OSDI、SOSP、EuroSys、ATC、FAST等顶级系统会议上发表多篇论文。


报告题目:面向通用大规模MoE模型的高效训练框架:多维优化与自动调优


报告摘要:大规模混合专家(MoE)模型的训练效率已成为当前AI系统面临的核心挑战之一。本次演讲将深入解析一个通用MoE训练框架的设计与优化技术,核心解决并行策略联合优化、计算通信重叠及自动性能调优三大关键问题。在并行策略层面,框架支持多维联合调优,在满足GPU显存约束的前提下,精细平衡专家并行(EP)与张量并行(TP)的配置。同时,针对MoE层与Attention层的差异化特性,实现TP切分的解耦配置,突破传统统一切分所带来的性能瓶颈。在系统性能层面,框架通过精细编排执行流,实现计算与通信的高效重叠,最大化掩盖通信延迟。同时自动调配计算与通信算子所占用的流处理器(SM)数量,有效缓解计算与通信之间的资源竞争问题。该框架具备良好的通用性,支持主流MoE模型的零代码适配,并集成自动性能调优引擎,能够结合硬件拓扑与模型配置,推荐最优并行方案。实验结果显示,在Qwen3-MoE与DeepSeekV3等模型上,训练性能可提升30%至60%。该系统实现了MoE训练优化的系统级闭环,为百亿至万亿参数规模模型提供可扩展的通用解决方案,推动大模型训练效能实现本质性突破。

王瑞雪

技术经理

中国移动研究院基础网络所

讲者简介:王瑞雪,中国移动研究院基础网络所技术经理、SDN/NFV/AI标准与产业推进委员会(TC610)SDN/NFV技术工作组组长,主要研究领域为数据中心网络、SDN/NFV、算力网络等。


报告题目:全调度以太网,构筑新型智算中心网络底座


报告摘要:新型智算中心是对传统云数据中心的飞跃,AI大模型以GPU集群分布式训练为基础,网络成为提升GPU集群算力水平的“瓶颈”。本次议题分享中国移动新型智算中心NICC架构理念、在智算中心网络领域全调度以太网技术创新实践以及对后续技术演进方向的思考。

徐恩松

智算集群运维专家

科大讯飞

讲者简介:徐恩松,科大讯飞智算集群运维专家,大模型智算运维平台负责人,智算存储负责人。自 2015 年起深度参与讯飞 GPU 训练集群的全周期建设运维工作,完成从概念验证到规模化落地的 0-1 创新突破,成功搭建支撑企业核心业务的高性能计算底座。在讯飞飞星1号、2号超大规模智算集群建设进程中,担任核心技术负责人,主导设计并构建了智能运维体系。通过引入SRE理论框架,实现可靠性工程、自动化运维、容量规划等核心能力的工程化落地,有效解决复杂系统中的资源调度、故障自愈、性能优化等关键挑战。凭借十余年深耕经验,在大规模智算集群的稳定性保障领域形成了系统性方法论。


报告题目:飞星智算集群建设及SRE实践


报告摘要:在人工智能与数字经济深度融合的时代浪潮下,智算集群已成为驱动科技创新的核心引擎。随着其规模与复杂度呈指数级增长,传统运维能力成熟度模型正经历颠覆性重构。从基于拓扑感知的算力资源智能调度、跨地域多集群数据无缝迁移与全生命周期管理,到集群分钟级交付部署体系构建、故障根因智能诊断与秒级自愈机制;从成本优化模型搭建到基于预测分析的资源弹性伸缩策略,SRE实践已成为保障智算集群高可靠、高性能、高敏捷的关键支点。本次分享将深度解构飞星1号、2号智算集群建设与运维的全链路实践,聚焦攻克资源利用率提升的行业痛点。通过剖析算力调度优化策略,揭秘断点续训技术如何突破计算任务连续性瓶颈,解读基于冷热数据分层存储的架构选型方案,系统性呈现智算集群资源高效利用的创新方法论与工程化实践,为行业构建新一代智能运维体系提供可复用的解决方案。

缪葱葱

高级研究员

腾讯

讲者简介:缪葱葱,腾讯高级研究员,2020于清华大学计算机系获得博士学位,长期从事计算机网络、计算机系统等方面研究和工程落地,获CCF科技进步二等奖,深圳市科技进步一等奖,发表ACM SIGCOMM、USENIX NSDI、ACM MOBICOM、IEEE TPDS等计算机领域顶级会议和期刊论文20多篇。


报告题目:大规模分布式训练隐性故障定位


报告摘要:大模型训练GPU集群规模从千卡到十万卡持续扩大,以应对不断增长的模型大小和海量数据训练需求。基于万卡模型训练集群的观察发现,大模型训练过程中存在不稳定现象,且该现象严重降低昂贵的训练资源的利用率。为了快速检测并在大规模训练集群中准确定位到异常设备,我们提出了第一个面向大模型训练不稳定的Holmes检测定位系统。该系统深度融合了大模型多维并行训练的通信特性,基于对集合通信的检测、分析快速定位出集群中任意位置的异常设备。实验表明,Holmes可以达到97.21%的异常定位准确率,且定位时间不超过30秒。


会议日程




注册时间及缴费标准





门票类型参会者身份6.15~7.27
会议注册费CCF专业会员¥2700
CCF学生会员(不含晚宴)¥1700
CCF学生会员(含晚宴¥2000
非会员专业人员¥3200
非会员学生(不含晚宴¥2200
非会员学生(含晚宴¥2500
备注: 十人及以上团报9折






点击“阅读原文”,加入CCF。

点我访问原文链接