首页 > 最新动态 > 面向超大规模智算集群的新型存算技术|CNCC
最新动态
面向超大规模智算集群的新型存算技术|CNCC
2025-09-264

目前,人工智能迈入了由万亿参数模型驱动的大模型时代,构建超大规模智算集群已成为其发展的核心支撑。然而,庞大的模型参数规模也对集群的存算系统提出新的挑战,低计算资源利用效率、巨量数据吞吐带来的“存储墙”和超大规模集群的可靠性保障等成为亟待突破的难题。为解决这些系统瓶颈,一系列新型存储与计算技术应运而生。本论坛聚焦于面向超大规模智算集群的新型存算技术,围绕计算、存储和可靠性等关键要素展开深入讨论,探索大规模计算框架、新型存储架构以及高效容错技术等多个领域的最新进展与未来趋势。论坛邀请近年来具有代表性成果的杰出学者和企业技术负责人进行分享,为与会者提供前沿学术和技术交流平台,共同促进AI系统领域的发展。



论坛安排



??论坛名称:

面向超大规模智算集群的新型存算技术


顺序

主题

主讲嘉宾

单位

1

面向交互式大模型推理的键值缓存优化设计

张广艳

清华大学

2

多级存储性能优化

阳王东

湖南大学

3

大规模存储系统的故障发现和恢复:从SSD到HBM

张一鸣

上海交通大学

4

大模型存储系统

何水兵

浙江大学

5

摩尔线程如何打造世界先进的AI工厂

张钰勃

摩尔线程

6

大模型压缩及推理优化技术分享

郑毅

华为云



论坛主席



何水兵

CCF杰出会员,浙江大学长聘教授,之江实验室副主任

浙江大学计算机学院长聘教授,之江实验室副主任和浙江省大数据智能计算重点实验室副主任。CCF杰出会员、信息存储专委常委、体系结构专委常委。研究方向为信息存储、智能计算、计算机体系结构等。主持国家自然科学基金、国家重点研发课题、企业项目20余项。发表论文100多篇,包括FAST、ASPLOS、MICRO、HPCA、EuroSys、ATC、SC、VLDB等CCF A类论文40多篇。担任CCF A类国际期刊IEEE TC、IEEE TPDS编委。获2020年IEEE TPDS优秀编辑奖、2023年浙江省科技进步一等奖,2025年中国发明协会成果奖一等奖、2025年算力中国·年度重大成果奖。


论坛共同主席



胡俊成

吉林大学副教授

吉林大学副教授/博导,CCF高级会员、体系结构/分布式计算与系统专委执行委员、YOCSEF长春分论坛AC委员。研究兴趣包括文件/存储系统、可信/机密计算以及人工智能方法/安全等。近五年以责任作者身份在FAST、TOS、TCOM、IoT-J、FGCS、IJCAI等高水平期刊/会议发表文章近30篇,授权国家发明专利8项。主持包括国家重点研发计划子课题等省部级及以上纵向项目4项,企业合作项目2项(包括百万横向1项),国家/部级科研平台开放性课题3项。入选吉林省青年人才托举工程、人社厅省域拔尖人才(D类),曾获吉林省自然科学二等奖(排2)、中国商业联合会科技进步一等奖(排3)。


论坛讲者



张广艳

CCF信息存储技术专委会副主任、计算机历史工委副主任,清华大学长聘副教授

清华大学计算机系长聘副教授,国家杰出青年科学基金获得者,现任CCF信息存储技术专委会副主任、计算机历史工委副主任。主要研究大规模数据存储与分析理论与方法,涵盖存储系统、数据压缩、大数据与AI计算系统,主持国家杰青、重点研发计划、973、863等项目。在FAST、SOSP、EuroSys、VLDB等国际顶级会议及ACM ToS、IEEE TC等期刊上发表学术论文30余篇,获中国美国发明专利授权10余项。研究成果已应用于国内骨干企业的存储产品中,显著提升其性能与价值。


报告题目:面向交互式大模型推理的键值缓存优化设计


报告摘要:随着大语言模型规模和上下文长度的不断增长,推理过程中的键值缓存管理已成为系统性能的关键瓶颈。键值缓存需求的激增不仅导致显存占用过高,限制推理并行度,还因后端加载延迟引发计算停顿。针对上述挑战,本报告提出“存算双向感知”的系统设计理念。在计算侧,结合缓存内容读取延迟来进行请求调度,提升I/O效率并增强并发性能;在存储侧,结合模型推理的交互特征来设计替换策略,缓解容量与带宽压力。通过存储与计算的双向感知与协同优化,本研究在保障低延迟与高吞吐的同时,兼顾成本控制,为交互式大模型推理服务提供了系统性的解决思路。

阳王东

湖南大学教授,长沙学院副校长

国家高层次人才,湖南大学教授,长沙学院副校长。主要研究领域为高性能计算,长期在国产超算平台以及飞腾、鲲鹏、海光、昇腾、景嘉微GPU等国产处理器上进行并行算法的设计和应用,主持研制了一系列的基础数值算法函数库和性能优化工具。获国家科技进步二等奖,湖南省自然科学一、二等奖等,获华为火花奖2项。主持国家自然科学基金重点项目、面上项目,国家重点研发计划课题,湖南省重点研发计划和揭榜挂帅等项目20余项。


报告题目:多级存储性能优化


报告摘要:内存池化技术允许单实例应用借用分布在其他服务器上的闲置内存,以此提高资源利用率。然而,访问这些远端内存会显著影响性能,导致多个应用性能下降严重。基于编译的分析技术,获取应用程序线程与访存特征,并在编译阶段进行插桩,进行内存预取、写回等优化,另一方面,结合体系结构特征与线程访存特征,找到最优的线程调度方式,最终实现在内存池化的场景下对用户程序零成本迁移和优化。

张一鸣

上海交通大学特聘教授

大规模网络智能计算实验室(NICE Lab)主任。担任中国计算机系统大会(ChinaSys)主席、IEEE Trans. Computers编委等。长期从事网络智能计算技术研究和系统研制。相关成果获CCF科技进步一等奖、国家科技进步二等奖、湖南省自然科学一等奖、FAST’23最佳论文奖等。


报告题目:大规模存储系统的故障发现和恢复:从SSD到HBM


报告摘要:数据存储可靠性是大规模智算集群的关键,存在如下两方面的挑战。一是各种软硬件问题引起SSD存储故障,导致数据丢失和服务中断。二是HBM故障导致训练过程中断。本报告针对上述挑战,介绍近期的研究进展。首先,对大规模云环境下NVMe SSD各种故障进行分析;第二,对大规模智算集群的HBM故障进行分析;最后,设计了基于EC的HBM故障恢复机制。

何水兵

CCF杰出会员,浙江大学长聘教授,之江实验室副主任

报告题目:大模型存储系统


报告摘要:随着智能计算模型复杂度的不断提升,存储系统已成为制约大模型训练与推理性能的关键瓶颈。为此,我们开发了一系列创新的存储系统优化技术。这些技术显著提升了存储系统的整体性能,从而大幅提高了大模型训练与推理的效率。本报告将详细阐述我们在智能计算存储系统领域所面临的挑战、采取的优化方法以及积累的实践经验。

张钰勃

摩尔线程联合创始人兼首席技术官

前英伟达GPU架构师,博士毕业于加州大学戴维斯分校,本科毕业于浙江大学数学系。兴趣包括计算机图形学,机器学习,科学计算和GPU体系结构设计。在摩尔线程期间,带领团队五年成功研发五代集人工智能和图形渲染为一体的全功能GPU处理器架构,以及支持大模型预训练的GPU万卡智算集群。


报告题目:摩尔线程如何打造世界先进的AI工厂


报告摘要:介绍摩尔线程为大模型预训练打造的大型人工智能计算基础设施KUAE万卡集群以及相关的AI计算优化技术,包括基于MUSA多引擎统一系统架构设计的GPU,张量计算引擎,张量访存引擎和异步通信引擎,MUSA驱动软件,调试诊断工具,原生FP8计算和通信技术, FP8分块缩放因子技术,分布式训练并行策略优化工具,高性能检查点备份恢复,零中断容错训练,集群自检及调度优化。

郑毅

华为云AI系统创新Lab技术专家

博士毕业于中国科学技术大学和香港城市大学,长期从事NLP算法、大模型、AI系统等研究工作,相关成果发表在 AAAI、IJCAI、TKDD、TOIS、Nature communications等顶会或期刊20+篇,对大模型压缩、AI训练推理优化等技术,以及AI在行业落地有深入的理解,拥有丰富的算法研究及工程落地经验。


报告题目:大模型压缩及推理优化技术分享


报告摘要:随着深度学习模型规模的不断扩大,人工智能迈入了千亿乃至万亿参数模型驱动的大模型时代(如DeepSeek R1、Qwen3等千亿参数模型),大模型的高存储占用、计算开销和延迟问题日益突出,制约了大模型规模化部署和使用。本技术报告从华为云AI系统与模型协同创新角度,梳理大模型压缩及推理优化的相关技术(如模型量化、KV稀疏、高效推理等技术),通过相关案例分享其中的关键技术,并与各位进行探讨。



CNCC2025



CNCC2025将于10月22-25日在哈尔滨举办。专题论坛将在往年多样化主题的基础上,首次通过“基础-前沿-未来”的一体化设计,满足不同背景参会者的需求,构建从知识获取到创新激发的完整路径,打造系统化、进阶式的参会体验。重点设置9大主题板块,每个主题板块的专题论坛由三大核心模块组成:面向前沿领域的体系性Tutorial、聚焦前沿突破的专题论坛以及探讨未来发展路径的思辨论坛。





图片


图片
图片
图片

点击“阅读原文”,进入官网。

点我访问原文链接