首页 > 最新动态 > YEF2025专题论坛 | 大模型时代的存储系统建设
最新动态
YEF2025专题论坛 | 大模型时代的存储系统建设
2025-05-2713


5月22日,CCF YOCSEF上海AC委员,25-26候任主席、华东师范大学石亮教授担任YEF专题论坛执行主席,邀请领域内知名专家学者,共同深入探讨大模型时代的存储系统建设,该论坛延续了CCF YOCSEF上海的品牌活动:浦江论道-存储系列论坛,并围绕三个议题展开深入思辨。


众所周知,大模型已经成为学术研究和行业技术热点。早期的大模型对算力的需求非常高,导致了早期的GPU价格持续上升,严重影响了人工智能的发展。2025年年初,随着DeepSeek的大火以及各类模型的发展,大家开始意识到存力对大模型的重要性,由此掀起了存力的大模型技术研究。当前,研究大模型场景的存储系统建设成为了新的技术热点,并持续影响行业的发展。论坛面向大模型的存储系统需求展开技术交流,从大模型的存储基础设施建设、内存和HBM的可靠性管理以及推理、文件系统和存储设备等方面展开交流和探讨,思考大模型时代存储系统建设的基本原则和方法。


此次论坛由中国计算机学会主办,由YOCSEF上海学术委员会承办。论坛由YOCSEF上海AC委员、25-26候任主席石亮(华东师范大学)担任执行主席。



论坛开始,石亮介绍了该专题论坛的背景和主旨报告嘉宾,对与会嘉宾表示感谢,并预祝论坛圆满成功。此次论坛邀请了清华大学计算机系陆游游教授、上海交通大学吴晨涛教授、厦门大学沈志荣教授、华为技术有限公司AI存储架构师李国杰、腾讯科技(深圳)有限公司腾讯云存储研发总监程力以及北京焱融科技有限公司CTO张文涛作为主旨报告嘉宾。接着由石亮继续主持了嘉宾主旨报告。


陆游游教授以“AI时代的数据存储基础设施”为题,他指出,人工智能系统的参数量与训练集规模在不断提高,向量存储与近似检索等新型存储需求涌现。这对传统存储架构提出了新的挑战:文件存储存在海量样本元数据管理难、数据通路对AI无感知等问题;向量存储难以高效支持大规模向量近似检索;参数存储难以充分利用异构介质进行参数管理。报告从文件存储、向量存储和参数存储三方面讨论了存储系统的新的设计需求与相关研究进展。


吴晨涛教授以“面向大模型应用的内存故障容错技术”为题,他指出,当前大模型应用(如GPT等)主要依赖大规模万卡集群,在这些系统中面临着非常频繁的内存故障(平均3-4小时一次),导致大模型训练的中断和低效。报告从内存故障预测和检查点等技术入手,通过内存主动容错和被动容错相结合方法,实现内存区域的分级容错,从而保障大模型系统的可靠性。


沈志荣教授以“应对大规模训练集群的内存可靠性挑战:深入剖析HBM内存错误”为题,他指出,高带宽内存(HBM)被视为从根本上突破"内存墙"的关键技术。它通过垂直堆叠多个DRAM芯片,显著提升了内存访问带宽。然而,这种架构也带来了更严峻的可靠性挑战——HBM不仅继承了传统DRAM的错误模式,还引入了新的故障诱因。通过首次对HBM错误展开系统性研究,对从19个数据中心收集的超过4.6亿个错误事件数据展开分析,发现HBM在空间局部性、时间相关性及传感器指标等方面展现出与传统DRAM不同的错误特征,这使得传统基于经验构建的DRAM错误预测模型对HBM失效。基于这些发现,设计并实现了分层级故障预测框架Calchas,通过整合来自不同设备层级的空间、时间和传感器信息,实现了对未来故障的精准预测。


李国杰架构师以“面向AI推理的长记忆存储技术演进与趋势”为题,他指出,构建层次化融合记忆存储系统,从RAG前置检索增强走向KV Retrieval的模型内生检索增强,从围绕长序列KVCache的离线静态稀疏加速走向在线动态稀疏加速,从Prefill阶段以查代算走向Decode长思维链的以查代算,基于存储系统与AI系统的联合创新,突破推理范式瓶颈,加速AI行业化普惠落地。


程力研发总监以“腾讯云存储GooseFS-基于对象存储COS搭建的高性能AI存储”为题,他指出,GooseFS是一个高性能缓存文件系统,结合对象存储COS实现了存算分离的AI存储架构,加速了对象存储的读写访问。GooseFS引入了计算端缓存,服务端缓存和元数据加速三个关键技术和架构设计,实现了对于大模型场景大带宽低时延的读写需求。结合腾讯云对象存储COS,腾讯云数据湖存储逐渐成为业界AI存储和大模型存储的标配。


焱融张文涛以“存储技术在大模型推理效率提升中的关键作用”为题,他指出,在当今人工智能领域,大模型的应用落地面临着诸多挑战,其中与存储技术紧密相关的两个核心问题尤为突出:一是如何通过检索增强生成(RAG, Retrieval-Augmented Generation)技术有效解决大模型的幻觉问题;二是如何利用 KV Cache显著提升推理效率。RAG技术作为解决大模型幻觉现象的主流方案,其关键挑战在于如何从企业海量历史数据中精准检索出有价值的信息。这一过程通常受到多个海量且异构数据源的复杂性的制约。KV Cache技术则通过“以存换算”的策略,成为提升推理效率的有效手段,尤其在多轮对话和RAG场景中,可以大幅减少预填充(prefill)阶段的耗时,从而有效降低首次响应延迟(TTFT, Time to First Token)。本次报告深入探讨了RAG技术在企业应用中的落地挑战,并提出切实可行的解决方案。同时,详细阐述KV Cache 技术在加速大模型推理中的具体应用机制。此外,还展望了存储技术未来的发展方向,探讨如何进一步优化存储系统以满足大模型日益增长的性能需求。


茶歇后,论坛的下半场针对三个问题展开了深入的思辨讨论。与会嘉宾围绕“大模型时代为什么需要构建一个新的存储系统?有哪些核心技术?”,“对象存储、文件系统存储以及块存储是否已经过时,大模型存储的路线在哪里?”以及“为了应对大模型的发展需求,存储系统应该往哪些方向发展?” 等三个议题展开了深入讨论和思辨。



针对“大模型时代为什么需要构建一个新的存储系统?有哪些核心技术?”议题,各位嘉宾和现场观众形成了两大观点:大模型时代的存储系统可以从现有的存储系统建设展开优化设计,比如优化的文件系统设计、存储阵列的设计等。另一方观点则是认为应该针对大模型这一现象级应用,我们应该从0开始构建一个全新的存储系统架构,从而实现突破性的变革。


针对“对象存储、文件系统存储以及块存储是否已经过时,大模型存储的路线在哪里?”议题,整体的思路是比较一致,基本上形成了一个清晰的结论:对象存储、文件系统存储和块存储更加适用传统的计算系统需求;而针对大模型场景,则需要在传统的基础上展开深度改造设计,从而满足他的性能需求。但是如何发展满足,还需要企业和高校的共同努力。


最后,针对“为了应对大模型的发展需求,存储系统应该往哪些方向发展?”,报告嘉宾分别畅享了未来大模型的存储系统发展方向,比如构建可靠性的存储系统、高性能的存储系统以及基于内存的存储系统,同时,针对KV Cache、训练、预处理等场景展开深度优化设计。


除了以上议题外,现场的听众也积极发言,发表自己的观点和疑问,现场气氛积极热烈,会议吸引了来自全国高校和企业的专家超过40余人参加了此次会议。



此次论坛历时四个小时,CCF YOCSEF上海24-25AC主席、复旦大学教授邱锡鹏对此次论坛进行了总结。此次论坛深入探讨了大模型时代的存储系统建设,相信可以为相关领域研究人员提供重要的参考与借鉴。最后,论坛在一片热烈的讨论氛围中圆满结束。


CCF YOCSEF上海负责了本次论坛的申请、组织和执行过程。感谢在此过程中一起负责的委员:AC委员、秘书长刘斐负责了论坛的现场管理、候任学术秘书许盛诚和AC委员许文波负责了论坛的线上图文直播工作。







点击“阅读原文”,加入CCF。

点我访问原文链接