10月25日下午,由CCF虚拟现实与可视化技术专委会承办的CNCC 2025“多模态具身感知与交互”技术论坛在黑龙江省哈尔滨市成功召开。本次论坛由CCF虚拟现实与可视化技术专委会主任、北京理工大学王涌天教授担任论坛主席,邀请到了多位在具身智能和人机交互领域的知名学者担任特邀讲座嘉宾,包括清华大学刘烨斌教授、北京理工大学翁冬冬教授、北京邮电大学吕菲教授、国防科技大学朱晨阳副教授、北京航空航天大学盛律教授。论坛聚焦多模态具身智能在虚实融合环境中的认知、感知与交互能力建设,围绕手物交互、数字人动画技术、儿童空中手势行为研究、具身场景结构化建模以及大模型驱动的场景仿真等核心议题展开深入讨论。
会议伊始,论坛主席北京理工大学王涌天教授首先进行了开场致辞。王涌天教授介绍了“多模态具身感知与交互”论坛的主题和背景,并对论坛特邀嘉宾和参会者表示感谢。
论坛特邀报告环节持续近4小时,五位专家依次分享了最新研究成果:
清华大学的刘烨斌教授作题为《手物交互及其世界模型》的报告,系统介绍了手物交互在数字人和人形机器人研究中的基础性作用。他从多模态动作重建、灵巧手运动生成到手物交互视频生成等方面展开,深入分析如何构建面向真实世界的“灵巧手世界模型”。报告强调,真实数据、仿真数据与人体动作数据之间的联动,是未来具身智能实现高效泛化的关键,并对手物交互研究的未来趋势进行了展望。
北京理工大学的翁冬冬教授以《4D高斯数字人动画采集与驱动技术》为题,介绍了从高精度采集到结构化驱动的完整技术体系。他详细阐述了多视角相机阵列搭建、时空一致的高斯点云序列生成方法,以及基于几何结构参数的动画驱动机制。该体系无需传统3DMM模板即可实现流畅的数字人动作表达,具备可编辑、高逼真和实时交互等优势,为沉浸式虚实融合应用提供了新的技术路径。
北京邮电大学的吕菲教授在《空间约束和年龄因素对儿童空中手势运动的影响》的报告中,以两项系统实验为基础,探讨了不同空间位置、距离与年龄对儿童空中手势操作行为的影响。通过分析菜单选择与目标获取中的速度—准确度权衡特性,研究揭示了6–8岁与9–12岁儿童在空中交互中的显著差异。报告进一步提出适用于儿童的空中手势UI设计建议,为不同人群的交互系统设计提供了实证依据。
国防科技大学的朱晨阳副教授聚焦具身智能系统的环境建模与实时感知问题,作了主题为《具身交互场景的结构化建模与感知》的报告。分享了基于大模型进行结构化建模的新范式。报告提出通过隐式特征提取关键结构信息的轻量化建模方法,并展示了二维大模型知识向三维感知任务迁移的机制。该方法无需大规模标注数据即可实现实时三维语义理解,为具身智能场景解析提供了新的思路。
北京航空航天大学的盛律教授则以《面向具身智能的大小脑协同和组合式场景仿真》为题,从“大小脑协同”的视角解析具身智能体在复杂环境中的认知架构设计。他介绍了团队在仿真环境与真机操作中的多项探索,包括基于扩散模型的高精度三维场景先验构建方法,可显著提升具身智能体在动态任务中的学习效率。报告展示了多模态生成模型促进具身智能虚实融合训练的可行路径。
在圆桌讨论环节中,CCF虚拟现实与可视化技术专委会秘书长汪淼教授与特邀嘉宾刘烨斌教授、翁冬冬教授、吕菲教授、朱晨阳副教授和盛律教授围绕“从感知到交互的核心挑战”“大模型赋能具身智能的可行性”“虚实融合训练的跨越路径”“智能体如何理解人类行为”以及“具身智能的应用落地”等主题进行了深入交流,探讨了多模态融合、仿真—现实迁移、动作理解、语义—几何协同等关键技术难点及未来发展方向。现场观众积极提问,围绕数据标准、评测体系与实际应用场景等问题展开互动讨论,气氛热烈,为具身智能的发展提供了多维度的思考视角。
本次论坛从技术前沿到应用探索,为具身智能在多模态理解、自然交互和环境建模等方向提供了丰富启示。多位专家强调,具身智能的发展已进入关键阶段,需要持续深化基础研究、构建统一规范与平台生态,并推动核心技术与产业场景的深度融合。此论坛的成功举办,为具身智能从科学探索迈向工程落地、从概念研究迈向产业协同提供了重要参考。
点击“阅读原文”,加入CCF。
