2024年CCF-中科可控光合基金验收评审会将在CNCC期间举行,活动同期将探讨国产加速卡生态建设进展和规划,介绍基于海光DCU在架构设计、算力性能优化、大规模存储等技术方向的科研成果,从学术与产业角度分析国产加速卡生态建设的优势与不足及可开展工作。
国产加速卡作为推动自主算力体系建设的核心硬件底座,弱化了国外生态垄断,为科研创新与产业升级提供了安全可控的算力选择。为打造可靠、好用的体系结构生态,需要突破底层架构、模型框架、存储能力等核心技术瓶颈,为大规模科学计算与行业应用提供支撑能力。
本活动将聚焦国产加速卡行业应用的核心痛点展开深入探讨:在底层架构方方向,研讨基于国产加速卡的分布式矩阵特征值多节点并行求解方案,及稀疏线性方程组高效分解算法的硬件适配实现。在大模型框架方向,重点分析FlashAttention在国产加速卡上的软硬件协同优化路径,包括HIP生态适配、多精度指令支持及算力效率提升策略;存储方向,探索依托国产加速卡的数据分组聚合压缩优化技术,对比不同算法在硬件平台上的应用效果与性能优化空间。
本次活动汇聚领域专家,集中展示国产加速卡生态发展和核心技术成果,旨在搭建技术交流平台,实现协同技术攻关,促进更多基础算法、应用软件向C86异构计算平台进行移植优化,鼓励更多行业专家借助移植优化的成果解决实际业务问题,加速国产加速卡自主可控进程。
国家科技部、工信部专家库专家,泉城特聘专家,研究领域集中在国产计算机体系结构适配与优化。先后参与多项国家级和省部级的重大研发项目。已发表论文31篇,共计被引用600余次,H因子为11。参与职业教材《化学》、《MIC高性能计算编程指南》、《超算竞赛导引》、《高性能计算应用概览》、《高分子多尺度理论模拟方法及应用》、《DCU编程实战》等书籍的编写。参与多项计算技术相关国家标准和团体标准制定。
报告:国产X86及其加速卡生态建设进展和规划
研究领域集中在国产计算机体系结构适配与优化。先后参与多项国家级和省部级的重大研发项目。已发表论文31篇,共计被引用600余次,H因子为11。参与职业教材《化学》、《MIC高性能计算编程指南》、《超算竞赛导引》、《高性能计算应用概览》、《高分子多尺度理论模拟方法及应用》、《DCU编程实战》等书籍的编写。参与多项计算技术相关国家标准和团体标准制定。
报告题目:国产X86及其加速卡生态建设进展和规划
摘要:海光DCU经过多年技术迭代与生态建设,已在国内形成坚实的产业基础。由海光信息牵头的光合基金在过去四年间,已成功汇聚并孵化了上千个应用项目,覆盖高密度计算、人工智能、数据存储等关键领域,生态效应初步显现。
随着生态体系的逐步完善,我们将更多核心技术难题进行系统梳理与遴选,并与CCF建立深度合作机制。2024年,双方联合设立了首届合作基金,围绕高密度计算、人工智能、存储方向与高校开展科研合作。目前,所设立的四个课题均实现了预期目标,部分成果已具备产业化应用前景。
未来我们还将继续深化与CCF的基金合作,考虑将合作领域拓展至教育教学与人才培养层面。通过建立校企联合实验室、开设专业课程、开展实训项目等多种形式,吸引更多计算机领域的专家学者参与DCU生态建设,培养既懂理论又通实践的复合型人才,为我国安全可控的算力基础设施建设贡献智慧与力量。
项目验收答辩①:数据聚类分组算法优化
现任中国科学院计算技术研究所研究员、博士生导师,中国科学院大学岗位教授,曾任美国印第安纳大学终身副教授。入选国家级人才计划、中国科学院“BR计划”(A类),获美国NSF CAREER Award、海外优青项目资助;并荣获IEEE高性能计算杰出新人奖、CCF高性能计算青年科技人才奖、R&D 100创新奖、Meta研究奖、Amazon研究奖、ACM ICS最佳论文亚军、IEEE Cluster最佳论文奖、IEEE Transactions on Big Data年度最佳论文奖等多个奖项。长期从事高性能计算、并行软件及大规模深度学习研究,在并行压缩算法与软件方面取得开创性成果。在美期间主持美国国家科学基金会、能源部等项目,归国后主持国家重点研发计划课题、中国科学院国际合作项目等。已发表高质量学术论文100余篇,其中包括40余篇CCF-A类论文。现任CCF A类期刊IEEE TPDS副主编,以及国际期刊Elsevier Parallel Computing分区主编。
项目名称:数据聚类分组算法优化
摘要:随着高性能计算、人工智能以及万物互联等技术的飞速发展,海量数据呈现爆炸式增长,使计算系统面临日益巨大的存储压力。传统压缩方法(如LZ4和ZSTD)在处理大规模数据时,由于存在关联性的数据可能分布较远、无法在有限窗口内被同时处理,往往难以实现最优压缩率。为此,我们探索了一种基于聚类分组优化的数据压缩算法。该算法在压缩前深入挖掘数据块间的相似性,将相似数据聚类成组以提升整体压缩率,并借助向量并行化等技术将额外开销降至最低,从而显著缓解海量数据存储所带来的压力。
项目验收答辩②:面向海光DCU的分布式对称矩阵特征值分解优化技术
电子科技大学计算机科学与工程学院研究员,博士生导师。主要研究方向为高性能计算与数值线性代数,成果聚焦于现代GPU架构上的稠密矩阵分解加速技术研究,目前已在SC、PPoPP、HPDC、ICS、TPDS等国际会议和期刊发表多篇学术论文,并获HPDC最佳论文提名。
项目名称:面向海光DCU的分布式对称矩阵特征值分解优化技术
摘要:对称矩阵特征值分解在多个学科中都有广泛应用。然而,在现代多GPU或分布式GPU架构上,SOTA算法仅能达到硬件峰值性能的1.5%左右,且不具备强扩展性,弱扩展性也较为有限。针对该问题,本报告将描述面向海光DCU的流水线特征值分解算法,该算法将传统算法中的五阶段改进为流水线,提高了硬件的利用效率与特征值的计算效率,并提高了扩展性。此外,算法还包含了一系列优化技术,包括双分块带状规约、DCU加速凸块追逐、重排序反向回代与基于BLAS2的凸块追逐反向回代。
项目验收答辩③:面向国产GPGPU的稀疏算子优化实践
研究方向为高性能计算,包括大规模并行应用软件、面向GPU/DCU架构的算子性能优化。主持开发反应堆材料的大规模分子动力学、动力学蒙特卡洛模拟软件,分子动力学软件实现千万核级并行;主持开发面向GPU/DCU架构的稀疏数学库。
项目名称:面向国产GPGPU的稀疏算子优化实践
摘要:稀疏矩阵计算在工程计算的核心,依托国产GPGPU的强大并行处理能力,可实现稀疏矩阵计算的性能加速。本报告围绕国产GPGPU架构,对标英伟达同类型库,开展SpMV、SpGEMM等算子在国产GPU上的性能优化工作,实现了逼近硬件理论性能极限的性能提升。本报告将主要介绍:1)访存受限型算子的特点与性能优化的挑战;2)面向国产GPGPU架构的算法设计思路;3)算子优化的性能结果及优化经验分享。
项目验收答辩④:GEMM&FlashAttention软硬件协同优化
毕业于华南理工大学,CCF YOCSEF广州分论坛委员。近年来从事并行计算优化、智能软件工程相关研究,致力于异构平台算子库研发及计算效率评估。在TSUSC、TRel、SANER等期刊和会议上发表论文30余篇。主持或主要参与国家重点研发计划、国家自然科学基金、广东省自然科学基金等项目,曾于2020年获广东省科技进步二等奖。
项目名称:GEMM&FlashAttention软硬件协同优化
摘要:Transformer作为大语言模型的主要结构,其核心的自注意力机制因输入长度的二次复杂度问题限制了Transformer模型处理长期信息的能力。FlashAttention通过分块计算、算子融合、并行计算优化等方式有效降低了显存占用、访存次数及提高计算单元的利用率。本报告主要围绕“基于国产芯片硬件架构中内存体系结构及矩阵加速单元等特性的GEMM和 FlashAttention算子库性能适配与优化工作“展开,主要阐述CCF-中科可控光合基金项目的实施思路、技术进展及相关成果。
点击“阅读原文”,加入CCF。
点我访问原文链接