首页 > 最新动态 > 专访2024年度“CCF杰出工程师奖”获得者朱思语 | CCCF精选
最新动态
专访2024年度“CCF杰出工程师奖”获得者朱思语 | CCCF精选
2026-01-1514


编者按:朱思语,复旦大学研究员、博士生导师。主要研究方向为视频与三维生成模型。在CVPR、ICCV、ECCV、PAMI等国际会议和期刊上发表论文60余篇。博士期间,他联合创立了3D视觉公司Altizure,后被苹果公司收购。2017年至2023年,他担任阿里云人工智能实验室总监。他曾任CVPR/ICCV/AAAI/WACV领域主席,IEEE TVCG副编辑。朱思语研发了基于图像的三维重建技术,已实现大规模应用,还主导了开源项目人脸视频生成模型Hallo和人体视频生成模型Champ,推动了计算机视觉技术的发展,因此,获得了2024年度CCF杰出工程师奖。








Q

您主导的开源项目Hallo(人脸视频生成模型)和Champ(人体视频生成模型)引起了广泛关注。在推动这类前沿生成模型开源时,您主要期望解决产业界的哪些痛点?开源后,您观察到社区最活跃的应用方向或最有价值的反馈是什么?

朱思语:我们所推出的开源项目Hallo和Champ,致力于面向数字人应用提供底层生成技术,涵盖文本、语音和骨骼驱动等多模态控制能力。在推动相关模型开源的过程中,我们主要希望应对产业中以下几个核心问题:一是实现高保真的视觉生成,二是提升生成过程的可控性,三是保障长时序视频及三维数字人生成的稳定性。正因为聚焦于底层技术瓶颈的突破,该项目才获得了较多关注。当然,目前该开源技术距离实际产品化仍有相当距离,尚需大量产品设计与工程化开发的支持。

开源以来,社区中最活跃的应用方向集中在电商领域的虚拟主播,尤其在跨境电商迅速发展的背景下表现显著。此外,在游戏非玩家角色(non-player character, NPC)和短视频内容生产等领域也涌现出不少实践案例。我们收到的最有价值的反馈在于:以视频和三维形式呈现的数字人内容,正逐渐融入真实人类的内容生态中,并在内容形式与应用场景方面逐渐找到区别于真人视频的差异化路径。

Q

您研发的基于图像的三维重建技术已实现大规模应用,这在工程落地中面临着哪些传统方法难以克服的关键挑战?这项技术能够突破瓶颈,走向真正规模化应用的核心创新点是什么?

朱思语:我及团队研发的基于图像的三维重建技术目前已广泛应用于多个领域,例如城市级别的三维地图构建、电商平台的商品数字化扫描与增强现实(augmented reality, AR)互动,以及线下商铺的三维场景还原等。相关工作及实践由我本人参与或牵头完成,并依托与多方合作持续推进。

面对传统方法在大规模三维重建任务中遇到的瓶颈,如处理城市级数据时计算效率低下、生成质量与成本难以兼顾等问题,我们团队的核心创新集中于大规模稀疏三维重建算法及其并行化实现。通过对城市规模三维稀疏重建流程中的关键算法进行系统性优化,并构建出一整套高效计算架构,我们显著提升了大规模三维重建处理能力与经济效益,打破了谷歌(Google)与奔特力(Bentley)等国际公司在相关技术上的垄断。该技术后来成为苹果公司物体捕捉(object capture)功能的核心组成部分,并于2021年全球开发者大会(Worldwide Developers Conference, WWDC)上正式发布。此外,该成果也在阿里巴巴集团的多个业务中得到实际应用,覆盖电商商品三维化、线下商场门店场景重建与AR互动等领域。

Q

获得“CCF杰出工程师奖”是对您卓越工程实践能力的极高认可。从一位成功将前沿研究转化为大规模应用的工程师角度出发,您认为当前计算机视觉领域,特别是三维视觉和生成式人工智能(artificial intelligence, AI)方向,在走向更广泛产业落地的过程中,最亟待解决的关键技术挑战或工程实践规范是什么?对致力于此领域的年轻工程师有何建议?

朱思语:从推动前沿研究走向大规模应用的视角来看,我认为当前计算机视觉领域,尤其是三维视觉与生成式AI方向,在实现更广泛产业落地的过程中,最亟待突破的挑战可归纳为三个核心方面:生成质量、综合成本与新体验创造。

尽管当前围绕图像、视频和三维内容的生成已形成较成熟的工业化流程,包括采集、制作、品控等环节以及相应的专业人才体系,但新技术要真正落地,必须融入而非颠覆现有生产体系。关键在于,能否在可控成本下显著提升生成质量,或在同等质量水平下大幅降低生产、编辑与质检的综合成本——这包括技术采购、人员培训和流程适配等多方面投入。只有带来明确的成本优势,新技术才具备规模化应用的潜力。以我们基于图像的三维建模技术为例,其在城市三维地图生产中实现了规模化应用。相比激光扫描,该技术在没有明显质量退化的情况下显著降低了采集与生产成本;相比2.5D摄影测量,则具备明显的生成质量优势。然而在游戏等行业,由于生成的模型仍需大量人工编辑才能转化为简化和纹理清晰的矢量模型,导致综合成本仍然较高,限制了其广泛应用。另一方面,新体验的创造同样至关重要。例如高度个性化的数字人生成、可无限扩展的三维世界建模、三维全息通话等技术,均可能带来前所未有的用户体验,从而打开新的市场空间。

对于致力于更广泛产业落地的年轻工程师,我有三点不成熟的建议,仅供参考:第一,构建纵深的技术能力。不断深耕核心技术,建立领先的技术体系,或突破“卡脖子”的关键环节,这是工程师立身与成长的根本。第二,具备综合成本意识。新技术的规模化往往依赖于显著降低成本或创造新体验。建议培养一定的商业思维,在技术设计阶段即考虑经济可行性。第三,保持快速学习与适应能力。生成式AI技术迭代迅速,须持续跟踪发展动态,不断巩固AI不可替代的技术能力,并提升与新技术协同发展的融合能力。

Q

作为一位横跨学术研究与工程实践的学者,您的职业发展路径对许多年轻人很有启发。在您的成长经历中,哪些关键选择或项目经验深刻塑造了您如今的研究视角和工程思维?您如何持续保持对前沿技术趋势的敏锐度并平衡创新探索与落地约束?

朱思语:平衡创新探索与落地约束确实是一项具有挑战性的任务,我也在不断摸索之中。优秀的创新往往意味着对现有技术体系的突破,通常源于对问题的重新定义与方法的根本性变革,这一过程天然伴随着高度不确定性与不可控性。而工程落地则更强调问题边界的明确性、方案的可行性以及实施过程的可控性。基于个人实践,我的体会是:与其追求两者的绝对平衡,不如在特定阶段明确侧重于某一端,并做到极致。

举例来说,在新冠疫情大流行期间,我们曾负责一项面向数万家线下商场与门店的大规模三维重建项目,以实现实景虚拟现实(virtual reality, VR)漫游体验。该项目是一项复杂的系统工程,但我们将其拆解为多个阶段,以确保整体可控。尽管当时已有一些基于深度学习的深度预测与三维生成算法在效果上表现出很大潜力,我们在项目初期仍选择以视觉与深度传感器融合的方案为主,以确保在采集规模、数据处理效率和重建质量之间的稳健性。待系统运行稳定后,再逐步引入数据驱动的三维深度学习生成算法,进一步出身的管理者而言,往往伴随着诸多权衡甚至痛苦,但却在现实条件下最大程度保障了项目的顺利推进。

另一方面,若团队将重心完全置于创新探索,也并非没有成功可能。以深度求索(DeepSeek)为例,尽管其作为产品在系统成熟度上仍有完善空间,比如经常响应失败,部分领域知识缺失;但在高效注意力机制和群体相对策略优化(group relative policy optimization, GRPO)等强化学习方法的探索上做到了极致,最终呈现出令人惊艳的技术体验。因此,我认为在技术实践中,“阶段性聚焦”比“追求平衡”更值得推崇。

Q

在领导团队推进重大技术项目的过程中,除了技术实力之外,哪些能力和素养对成功最为关键?对于青年工程师和研究者,应如何有意识地培养这些能力?能否分享一条您认为最值得传递的科研工作或工程管理的心得?

朱思语:在领导团队推进重大技术项目的过程中,我认为除了技术实力之外,最为关键的是系统架构思维与团队协同设计的能力。能够准确定义关键问题,设计与之匹配的技术实施方案,并构建起高效协作的组织机制,往往决定了项目能否成功落地。在系统和人员的顶层设计的基础上,再辅以科学的项目管理和过程控制方法,才能有效推动技术从概念走向实现。

对于青年工程师和研究者,若要有意识地培养这类能力,我建议从以下三方面着手:一是突破自身技术职责的局限,主动参与跨模块或全流程的技术方案设计,深入理解系统架构背后的逻辑以及其所面临的经济性与工程化约束;二是通过承担跨角色或跨团队任务,锻炼目标管理和资源协调能力;三是有意识地从“单纯执行”转向“定义问题”,提升对业务需求和工程现实的整体把握。

我最希望分享的一条心得是:真正推动技术项目成功,不能仅停留在技术方案实施本身,必须将技术实施、经济成本、人力配置与协同机制等诸多要素纳入一个整体系统进行综合考量与设计。特别是对于商业化环境下的工程管理,可能经济成本、人力配置与协同机制相较于技术实施是更重要的因素,所谓选择比努力更重要。


陈娟

CCF杰出会员、理事、高性能计算专委会常委,《计算》动态栏目主编。国防科技大学教授。主要研究方向为高性能计算、低功耗编译优化等。

juanchen@nudt.edu.cn


本文发表于2026年第1期《计算》。


更多阅读

在传承中创新计算机基础教育——专访2024 年“CCF杰出教育奖”获得者郑莉 | CCCF精选

云深不知处,何问轻重——专访CCF-IEEE CS青年科技奖获得者陈全 | CCCF精选

归航:一名海归教授的科研征途与家国情怀——访“CCF青年科技奖”获得者张殷乾教授 | CCCF精选





图片


图片
图片
图片

点击“阅读原文”,加入CCF。

点我访问原文链接