首页 > 最新动态 > 端侧大模型:学术前沿与产业实践的碰撞 | CNCC
最新动态
端侧大模型:学术前沿与产业实践的碰撞 | CNCC
2025-09-252

2022年底ChatGPT的发布引发了全球对大模型技术的关注,除了继续沿着OpenAI验证的规模法则(Scaling Law)将模型不断变大之外,随着算法、数据和模型架构的快速迭代,大模型也呈现能力密度持续增强的密度法则。


大模型的密度法则和芯片的摩尔定律相互作用,展现端侧智能的巨大应用潜力,在智能座舱、AI手机、AIPC、智能穿戴、智能家居等场景产生突飞猛进的应用。


本论坛旨在探讨端侧大模型的前沿技术与创新应用,共同展望端侧智能的愿景与挑战。



论坛安排



??论坛名称:

端侧大模型


顺序

主题

主讲嘉宾

单位

1

端侧原生大模型和推理框架

糜泽羽

上海交通大学

2

终端大模型操作系统

徐梦炜

北京邮电大学

3

从稠密到稀疏:迈向大模型高效计算的有效途径

韩旭

清华大学

4

端侧大模型量化的进展与挑战

李宇轩

清华大学

5

突破端模型的不可能三角,软硬协同以小算力撬动大智能

李伯勋

无问芯穹科技有限公司


论坛主席



刘知远

清华大学长聘副教授

清华大学计算机系长聘副教授,主要研究方向为大语言模型、知识工程与社会计算。已在 ACL、EMNLP、IJCAI、AAAI 等人工智能领域的著名国际期刊和会议发表相关论文200余篇,Google Scholar统计引用超过7万次。曾获教育部自然科学一等奖(第2完成人)、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖(第2完成人)、中国中文信息学会汉王青年创新奖,2020-2024连续五年入选 Elsevier 中国高被引学者,入选《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程。


论坛讲者



糜泽羽

上海交通大学副教授

上海交通大学副教授/博士生导师,CCF高级会员,ACM/IEEE会员。主要研究领域为大模型系统和操作系统。相关成果在OSDI、SOSP、ASPLOS、EuroSys等国际顶级会议和期刊,受邀担SOSP、ASLPOS等国际顶级会议PC。发起的开源项目PowerInfer星标为8.3K。发布的世界首个手机侧部署的深度思考模型SmallThinker在HuggingFace趋势总榜排名第二,7天下载量突破10万。


报告题目:端侧原生大模型和推理框架


摘要:为解决大语言模型在端侧设备部署的难题,本报告提出“端侧原生大模型”新范式。该方法摒弃了云端模型压缩移植导致性能衰减的传统路径,转而在设计之初就完全依据端侧的算力、内存及功耗限制,旨在“一步到位”地训练出与硬件“精巧匹配”的百亿级大模型。为高效驱动此类原生模型,报告进一步介绍了PowerInfer推理框架。它利用大模型神经元激活的高度局部性特征,通过创新的混合计算引擎,将频繁计算的部分置于最高速的硬件单元,显著降低了资源开销。该框架在个人电脑和手机上分别实现了11倍和27倍的推理加速,证明了其高效性。原生大模型与高效推理框架的结合,将为个人设备提供媲美云端的流畅AI体验。

徐梦炜

北京邮电大学副教授

北京邮电大学计算机学院副教授/博士生导师,入选中国科协青年人才托举工程,北京市科技新星,微软亚洲研究院“铸星计划”访问学者。主要研究领域为移动/边缘计算和系统软件,曾获USENIX ATC 2024最佳论文奖。


报告题目:终端大模型操作系统


摘要:通过本地化搭载大模型,终端设备的智能能力将获得飞跃式提升,铸造移动计算的下一个黄金时代,对学术界和产业界都是巨大的机遇。为了更好地适应这个过程中上层应用编程接口、用户交互范式、底层资源管理的重要变化,操作系统可能会被重新定义和改写。面向以大模型为核心的未来智能终端硬件,本次报告将介绍团队在大模型操作系统设计和优化方向的思考和尝试,包括GUI/API终端智能体构建、面向NPU的端侧大模型推理优化加速等。

韩旭

清华大学助理研究员

清华大学计算机系助理研究员,研究方向为自然语言处理、知识工程、大模型、智能计算系统,在国际学术会议及期刊发表论文数十篇,Google Scholar他引1.4万余次,曾获教育部自然科学奖一等奖、世界互联网大会领先科技奖等奖项,曾入选博士后创新人才支持计划、中国计算机学会(CCF)优博激励计划、清华大学优秀博士后、《麻省理工科技评论》中国区“35岁以下科技创新35人”榜单等荣誉。创建大模型开源社区OpenBMB,开源MiniCPM系列端侧大模型,系列模型累计已有1300万余下载量、2万余GitHub星标,多次登顶GitHub与HuggingFace的Trending榜单,是国内外最具代表性的端侧大模型之一。


报告题目:从稠密到稀疏:迈向大模型高效计算的有效途径


摘要:当前,以Transformer为代表的稠密模型架构,因其计算与存储开销,正日益成为制约其研发、部署及应用的瓶颈。为应对此挑战,多样化的稀疏模型架构正被积极探索,预期在不显著牺牲模型能力的前提下,实现计算存储效率的大幅提升。其核心思想在于,激活、计算、存储模型中最关键的部分参数或隐层特征,从而将资源更高效地分配到重要模块上。本报告将聚焦于近期稀疏模型架构设计的前沿进展,从稀疏激活与稀疏注意力两个层面,深入剖析相关的技术脉络与实现路径。通过对这些稀疏技术的梳理与探讨,旨在推动大模型计算效率的有效提升。

李宇轩

清华大学博士后研究员

清华大学计算机系 “水木学者”博士后,主要研究方向为智能计算系统、高性能计算、量子计算和气候模式,在相关领域高水平国际会议及期刊发表论文十余篇,Google Scholar引用4000余次,曾是神威·太湖之光主要技术负责人之一,多次获得世界超级计算竞赛冠军,曾获中国青年五四奖章(集体)、江苏省青年科技创新“U35 探索奖”、北京市优秀博士毕业生和全球变化未来学者奖学金等荣誉。


报告题目:端侧大模型量化的进展与挑战


摘要:大语言模型(LLM)端侧部署的核心挑战在于巨大的模型体积与有限的设备资源,这使得兼顾硬件兼容性与效率的低比特量化成为关键技术路径。后训练量化(PTQ)因其高效便捷,被广泛用于8/4-bit压缩,但进一步压缩面临精度挑战。为突破3-bit以下的极致压缩,需依赖潜力更高、但成本也更高的量化感知训练(QAT)。QAT在训练中模拟量化,能在极低比特下更好地维持模型精度,是探索大模型端侧部署终极形态的关键。本报告将梳理量化技术的前沿进展与机遇。

李伯勋

无问芯穹科技有限公司副总裁

无问芯穹技术副总裁,算法负责人。本硕均毕业于清华大学电子工程系,深耕深度学习算法设计与软硬件协同优化等研发方向。曾任旷视科技算法总监,主导开发安防及自动驾驶感知系统。带领无问芯穹算法开发团队研发了全球第一款端侧全模态理解开源模型Megrez-3B-Omni,在图片、文本、音频三种模态数据处理能力上均取得行业最顶尖精度。


报告题目:突破端模型的不可能三角,软硬协同以小算力撬动大智能


摘要:端侧大模型发展的核心矛盾在于大模型参数量持续增长与终端设备有限算力之间的差距鸿沟。针对这一挑战,亟需采用软硬协同优化思想实现跨越式提升:在模型层面,深度整合软硬件协同设计思想构建轻量化大模型;在软件层面,开发面向通用场景的智能推理优化框架,有效降低功耗和内存占用;在硬件层面,尝试基于定制化加速架构及新型计算器件,突破传统计算范式限制。通过构建算法-软件-硬件的全栈协同优化体系,推动端侧大模型应用落地,为个人助理、具身智能等前沿场景提供关键技术支撑。


CNCC2025



CNCC2025将于10月22-25日在哈尔滨举办。专题论坛将在往年多样化主题的基础上,首次通过“基础-前沿-未来”的一体化设计,满足不同背景参会者的需求,构建从知识获取到创新激发的完整路径,打造系统化、进阶式的参会体验。重点设置9大主题板块,每个主题板块的专题论坛由三大核心模块组成:面向前沿领域的体系性Tutorial、聚焦前沿突破的专题论坛以及探讨未来发展路径的思辨论坛。





图片


图片
图片
图片

点击“阅读原文”,进入官网。

点我访问原文链接