推理网络与产业创新:技术前沿与实践探索 | CNCC
2025-10-10154
当千亿参数模型成为行业标配,万亿级大模型正加速迈向规模化部署,AI竞争焦点已从“参数量级”全面转向“推理效能”。实现毫秒级响应、万级QPS吞吐,正成为大模型从技术可行迈向业务可用的核心挑战。
本次论坛汇聚来自华为、快手、张量跃迁、腾讯、字节跳动、PPIO、天津大学等机构的一线架构师与青年学者,围绕大模型推理的全栈优化展开系统探讨。内容覆盖从底层硬件加速与网络协议、通信库与高性能存储系统,到上层Agentic AI服务架构等关键环节。专家将分享软硬件协同设计、RDMA与DPU网络优化、千卡集群互联协议、GPU直通文件系统、拥塞控制算法、边缘算力调度等前沿实践,呈现从算力到生产力的完整技术路径,共同构建支撑大模型“推理时代”的高效基础设施。
论坛名称:推理网络与产业创新:技术前沿与实践探索
时间:10月23日13:30-17:30
地点:华旗饭店-3层304
注:如有变动,请以官网(https://ccf.org.cn/cncc2025)最终信息为准
顺序 | 主题 | 主讲嘉宾 | 单位 |
1 | 大模型推理加速与演进:网络如何破局? | 郑晓龙 | 华为技术有限公司 |
2 | 推荐场景下的高性能网络创新 | 王正斌 | 北京快手科技有限公司 |
3 | GD2FS:面向AI的新一代分布式文件系统 | 皮振伟 | 北京张量跃迁科技有限公司 |
4 | 下一代GPU集群:ETH-X互联协议与OpenUCL统一通信框架 | 张潍丰 | 腾讯科技(深圳)有限公司 |
5 | 面向大规模AI 集群的网络拥塞控制算法 | 魏浩然 | 北京字节跳动科技有限公司 |
6 | 通用人工智能之路——面向大模型服务的分布式算力网络 | 王晓飞 | 天津大学 |
7 | Panel环节 | 参会嘉宾 |
博士生导师,长期从事“云计算网络系统”研究。曾任微软亚洲研究院“铸星计划”学者,腾讯网络,阿里云,华为2012荣誉顾问,参与支持云网络、存储与计算网络的研发与部署工作。获得2019,2023年江苏省科技进步奖。
华为数据通信DCN技术实验室专家,2018年博士毕业于斯坦福大学。长期从事DCN的流量建模,负载均衡,缓存管理等研究,多项相关技术已在商用交换机落地应用。在DCN领域已申请30余项发明专利,并发表3篇学术论文。近期研究重点为AI系统的建模优化和超万卡仿真平台构建,对于大规模AI训练的组网拓扑、长距拉远、多网合一等领域都有深入研究,助力构建华为星河AI网络解决方案。
华为DCN领域科学家,2016年获清华大学自动化系博士学位,2011年获清华大学自动化系学士学位。研究兴趣主要有数据中心网络架构,RDMA网络,大模型训推网络,发表SCI/顶会(如SIGCOMM、ATC等)论文十余篇,专利数十项,主持国家重点研发项目一项,曾获清华大学优秀博士论文,清华大学优秀毕业生。
报告题目:大模型推理加速与演进:网络如何破局?
摘要:AI大模型时代,需求场景不断翻新,推理任务多种多样,模型规模持续扩大,技术更新迭代加速……不论是哪一样发生变化,网络作为大模型训推服务基础设施,都需要有能力应对这些变化,持续为用户提供稳定、高性能的服务。本报告针对当前大模型推理领域的技术趋势与挑战,提出华为的应对思路,和与会的专家学者一起,探讨如何推动AI大模型推理的加速与演进,共同寻找网络的破局之道。
2021.01加入快手,负责高性能网络HPN和网卡等相关工作,主导构建了快手推荐系统和大语言模型等高性能网络。2016-2021年,就职腾讯,先后负责腾讯云裸金属网络,vitix自研路由器等项目。2005年-2016年,先后就职于华为和思科,担任高级网络架构师。
报告题目:推荐场景下的高性能网络创新
摘要:主要介绍快手视频搜广推场景下通过RDMA 和 DPU卸载的创新网络池化手段,加速预处理以及fetch embedding,解决h2d/d2d io和内存总线冲突以及解决CPU和GPU算力不匹配的问题。
带领团队研发了GPU Direct Distributed File System。该文件系统面向大语言模型训练与推理场景设计,具备高性能与低成本的双重优势,在AI应用中表现卓越。
他曾担任字节跳动技术专家,并作为IaaS云计算业务的创始人之一,在云计算和基础设施领域具有深厚积累。在字节跳动工作期间,他开发了Virtio Crypto RSA卸载方案,并长期担任QEMU相关子系统的维护者,累计为Linux内核及QEMU提交百余项补丁。
报告题目:GD2FS:面向AI的新一代分布式文件系统
摘要:GD2FS(GPU Direct Distributed File System)是一款专为AI场景全新构建的高性能分布式文件系统。其命名直接体现了核心设计理念:深度融合 GPU 加速与高速网络能力,为大语言模型等AI业务提供极致的性能与成本优势。
GD2FS让GPU通过高速网络直取数据,把带宽、延迟、成本压到极致,它用GPU-Direct、弹性副本、分层缓存等创新,在KV Cache卸载延迟降至Redis 2%、大模型加载由30分钟缩到数十秒等关键场景中取得的显著加速效果和资源节省收益,为AI Infra演进提供存储底座。
主导产业界基于以太网打造的“ETH-X GPU互联协议”设计与研发,曾深度参与腾讯自研网络协议TiTa、自研RDMA网卡、自研集合通信库TCCL、自研推理通信库TRMT的设计与研发,为腾讯AI超算万卡集群构建核心网络基石“星脉网络”。长期从事数据中心高性能网络通信优化与研发,研究领域涵盖数据中心网络、AI集群超算网络、下一代GPU超节点直接互联网络等。主导多项前沿科研项目,发表论文及申请专利多项。
报告题目:下一代GPU集群:ETH-X互联协议与OpenUCL统一通信框架
摘要:GPU间互联通信逐步成为释放有效算力的关键瓶颈 —— 实现上百张GPU集群如单个巨型GPU般高效运作,需依托高性能互联协议构建全集群高速互联。基于以太网技术的ETH-X Scale Up互联协议应运而生,其为千卡规模GPU集群提供TB/s级单卡互联带宽,搭建超级互联通道以突破通信瓶颈、释放集群算力潜力。GPU通信库的“竖井”困局已成为制约行业前进的关键瓶颈。为打破这一局面,开源统一异构通信库OpenUCL应运而生,以创新性架构为AI基础设施注入新活力。本报告将从模型发展趋势、算力与通信需求演进脉络、GPU互联协议设计思路、统一通信库设计等维度,系统解析未来AI基础设施的构建逻辑与技术方向。
研究方向聚焦于高性能网络领域,核心职责包括设计与实现拥塞控制算法、优化网络协议栈性能,并深度参与AI训练与推理场景下网络集群的性能调优工作。
报告题目:面向大规模AI集群的网络拥塞控制算法
摘要:本次分享将介绍字节跳动自研的拥塞控制算法BCC 2.0。针对400 Gbps 场景下现代 AI 集群的训练与推理需求,BCC 2.0在无需修改RoCEv2 协议、完全依托现有商用硬件的基础上,以极低开销实现了网络公平性、快速拥塞响应与高可扩展性的协同优化,有效缓解了上述场景的网络拥塞问题。目前,BCC 2.0已在火山引擎HPC网络实现大规模部署落地,显著提升了训练与推理任务的性能表现。最后,我们将对比分析训练与推理的网络诉求差异,并深入探讨拥塞控制算法的作用机制与设计权衡。
天津大学智能与计算学部英才教授,博导,人工智能学院副院长,国家级青年人才,城市智能教育部国家工程中心副主任,北洋青年学者,CCF分布式计算专委会杰出青年学者,PPIO派欧云首席科学家,获IEEE通讯协会Fred W. Ellersick Prize年度最佳杂志论文奖、IEEE通讯协会亚太地区年度杰出论文奖、天津市科技进步一等奖2项(分别排第1位和第3位)、天津市青年科技奖等,主要研究边缘智能理论、云边协同计算技术、算力网络系统与调度算法等,发表高水平科研论文210余篇,其中包括中科院1区/CCF-A类论文50余篇,中科院2区/CCF-B类论文50余篇,引用11000余次,申请授权发明专利50余项,获IEEE最佳论文奖10+项,担任IEEE COMST(IF:46.7)、TCCN(IF:7.4)等多个一二区期刊副编委和专刊编委,主持了国家自然科学基金、科技部重点研发计划课题等国家级省部级纵向课题十余项,负责了电信、移动、亚信、华为、电科院等企业项目二十余项。
报告题目:通用人工智能之路——面向大模型服务的分布式算力网络
摘要:大模型技术掀起了通用人工智能时代的巨幕,而如何建设低时延、高效能、泛在弹性的算力基础设施以支持大模型训练推理和持续迭代成为了核心问题之一。报告将介绍边缘云与算力网络的发展历史、现状、趋势和难点挑战,从智能调度、服务保障、供需预测、算力交易等角度分享有关科研进展,并介绍相关产学研合作为代表的相关落地应用。
CNCC2025将于10月22-25日在哈尔滨举办。专题论坛将在往年多样化主题的基础上,首次通过“基础-前沿-未来”的一体化设计,满足不同背景参会者的需求,构建从知识获取到创新激发的完整路径,打造系统化、进阶式的参会体验。重点设置9大主题板块,每个主题板块的专题论坛由三大核心模块组成:面向前沿领域的体系性Tutorial、聚焦前沿突破的专题论坛以及探讨未来发展路径的思辨论坛。
点击“阅读原文”,进入官网。
点我访问原文链接