第五届CCF计算机视觉前沿讲习班_最新动态

首页 > 最新动态 > 第五届CCF计算机视觉前沿讲习班

最新动态

第五届CCF计算机视觉前沿讲习班

2026-06-2218

举办时间：2026/07/16 - 2026/07/17

报名时间：2026/06/10 - 2026/07/17

会议地点：广东省广州市中山大学东校园化学材料综合楼B301报告厅

主办单位：中国计算机学会

承办单位：CCF计算机视觉专委会、中山大学

执行主席：王瑞平（中国科学院计算技术研究所）、郑伟诗（中山大学）、朱安娜（武汉理工大学）

会议介绍

计算机视觉技术的快速发展推动了人工智能与各行各业的结合，使得计算机视觉成为当前落地最顺利、最广泛、最成熟的人工智能主干技术。为促进计算机视觉技术的学术交流与高级人才培养，帮助该领域青年从业者提升技术水平，开拓实践眼界，掌握最前沿的理论研究和创新应用，CCF计算机视觉专委会（CCF-CV）定于2026年7月16日至7月17日在广州市中山大学组织第五届CCF计算机视觉前沿讲习班，本届讲习班邀请了10名知名专家报告前沿学术进展，帮助学员全面学习并系统掌握计算机视觉前沿技术和应用工具。

收费说明

门票类型	参会者身份	~2026.7.7	2026.7.8~7.17
会议注册费	CCF学生会员	1500	1800
	非会员学生	1900	2250
	CCF专业会员	2000	2400
	非会员专业人员	2500	3000

团体报名有优惠，欢迎咨询！

课程讲者

浙江大学

彭思达 研究员

上海科技大学

马月昕 副教授

中山大学

赵知临 副教授

复旦大学

丁恒辉 研究员

上海交通大学

穆尧助理教授

浙江大学

朱霖潮 研究员

清华大学

龙明盛 副教授

北京大学

施柏鑫 研究员

香港中文大学

韩晓光 助理教授

中国人民大学

李崇轩 副教授

简易日程

1 2026年7月15日

14:00-20:30 报到、注册

1 2026年7月16日

08:30-08:45 开幕式

08:45-09:00 合影

09:00-10:30 课程1：面向导航仿真的世界模型技术导论

讲者：彭思达浙江大学

10:30-10:50 茶歇

10:50-12:20 课程2：面向复杂动态交互的具身智能

讲者：马月昕上海科技大学

12:20-14:00 午餐

14:00-15:30 课程3：开放世界泛化与可靠智能系统

讲者：赵知临中山大学

15:30-15:45 茶歇

15:45-17:15 课程4：多模态视觉理解与生成

讲者: 丁恒辉复旦大学

17:15-18:45 课程5：迈向具身自主进化：记忆、干预与生成式世界模型的闭环演进

讲者: 穆尧上海交通大学

1 2026年7月17日

08:30-10:00 课程6：科学智能仿真和设计

讲者: 朱霖潮浙江大学

10:00-10:20 茶歇

10:20-11:50 课程7：世界模型的可扩展实现路径

讲者: 龙明盛清华大学

11:50-12:05 企业宣讲

12:05-14:00 午餐

14:00-15:30 课程8：AI驱动的智能影像

讲者: 施柏鑫北京大学

15:30-15:45 茶歇

15:45-17:15 课程9：世界模型与具身智能中的三维生成

讲者: 韩晓光香港中文大学

17:15-18:45 课程10：推敲之间、渐成其文：扩散大语言模型

讲者: 李崇轩中国人民大学

详细日程

1 2026年7月15日

14:00-20:30 报到、注册

1 2026年7月16日

08:30-08:45 开幕式

08:45-09:00 合影

09:00-10:30

课程1：面向导航仿真的世界模型技术导论

课程简介：高保真导航仿真是推动自动驾驶与移动机器人系统研发的重要基础，能够在可控、可复现的环境中显著降低训练与测试成本。本报告将围绕世界模型技术展开，首先介绍导航仿真的核心价值与功能模块；随后分析其对世界模型的关键需求，包括多模态仿真一致性、几何重建精度、场景多样性与交互真实性；最后梳理世界模型技术的基本方法与最新进展，并讨论在开放场景泛化、动态建模效率和实时交互能力等方面的挑战与未来方向。

授课教师：彭思达

浙江大学软件学院“百人计划”研究员，博士生导师，研究方向为三维计算机视觉和计算机图形学。至今在TPAMI/TOG发表10篇论文，在CCF-A类会议发表15篇Oral/Highlight论文，谷歌学术引用9200余次，其中一篇一作论文获得CVPR最佳论文提名，成果获得GitHub数万次stars和2024年中国CCF优秀图形开源软件奖；入选China3DV 2025年度杰出青年学者、斯坦福2024/2025全球Top 2%科学家榜单、2024年中国计算机学会优博；被苹果公司评为2022 Apple Scholar。

10:30-10:50 茶歇

10:50-12:20

课程2：面向复杂动态交互的具身智能

课程简介：复杂真实世界的动态交互场景，对机器人的环境适配能力、泛化任务能力与实时响应能力提出极高要求。本文从具身感知、认知推理及行为执行三个核心维度，探讨复杂动态交互场景下的关键技术架构与实现思路，同时结合端到端大模型技术，进一步研讨具身智能的技术范式革新与未来演进路径。

授课教师：马月昕

上海科技大学长聘副教授、博士生导师，博士毕业于香港大学。主要研究方向为三维视觉、具身智能、自动驾驶。共发表相关领域顶会或顶刊论文百余篇，其中一作与通讯论文50余篇，包括TPAMI、CVPR、ICCV、SIGGRAPH等，谷歌学术引用8000余次。参与指导的论文获MICCAI 2024唯一最佳论文奖，ACM MM 2024最佳论文候选。曾获SemanticKITTI、NuScenes、Argoverse等多个国际自动驾驶挑战赛冠军和亚军；曾获上海市海外高层次人才、上海市优秀教学成果一等奖、China 3DV 2025年度优秀青年学者、入选全球前2%顶尖科学家榜单等。

12:20-14:00 午餐

14:00-15:30

课程3：开放世界泛化与可靠智能系统

课程简介：当人工智能系统走出精心设计的 benchmark，进入真实世界，它面对的不再是固定分布、封闭标签和一次性预测，而是未知类别、持续漂移、复杂交互、幻觉风险，以及由生成模型不断改写的数据环境。开放世界泛化要回答的，正是模型如何知道自己不知道，并在不确定与未知中保持可度量、可校准、可纠错、可协作的可靠性。本次讲习班将以未知感知的可靠智能为主线。首先讨论模型如何发现外分布样本并刻画分布偏移，进而引出基础模型在开放世界中的评估、对齐与不确定性校准。在此基础上，进一步分析大语言模型与智能体系统在检索、推理、工具调用和交互决策中的可靠性问题。最后延伸到具身智能与生成式系统，探讨当模型开始感知、行动并生成新环境时，开放世界泛化所面临的新挑战与研究机会。

授课教师：赵知临

中山大学计算机学院副教授，深圳河套学院双聘教授，国家级高层次青年人才，博士生导师，主持国家自然科学基金面上项目，担任广东省重点研发课题负责人。本科与硕士毕业于中山大学，博士毕业于澳大利亚悉尼科技大学，先后在悉尼科技大学和麦考瑞大学从事博士后研究。主要研究方向为外分布机器学习，聚焦模型在未知或不确定环境下的可靠性与泛化能力，在具身智能、大语言模型、极端天气预测及医疗辅助诊断等领域开展研究。以第一作者身份在 TPAMI、AIJ、NeurIPS 等国际顶级期刊与会议发表论文十余篇。

15:30-15:45 茶歇

15:45-17:15

课程4：多模态视觉理解与生成

课程简介：多模态视觉理解与生成是推动智能视觉系统走向真实应用的关键技术。本报告围绕开放复杂场景下的多模态视觉理解、可控生成与世界模型评测展开。在理解方面，将以复杂场景视频分割 MOSE、基于动作描述的多模态视频分割 MeViS、全模态视听内容理解 OmniAVS 和主动探索式视频分割 RVAS 为代表，探讨多模态视觉模型如何从受限场景走向开放环境。在生成方面，将围绕运动可控视频生成、任意模态驱动的图生视频 AnyI2V、精准字形生成 GlyphPrinter、视频目标与视觉效应联合擦除 EffectErase，以及遮挡关系建模与结构化生成等方向，探索高自由度且可精确控制的视觉生成技术。最后，结合首个交互式视频世界模型评测基准 WBench，分析模型在多轮交互、场景一致性和物理合理性等方面的能力边界，并展望多模态视觉理解、可控生成与世界模型评测的未来发展方向。

授课教师：丁恒辉

复旦大学青年研究员、博士生导师，入选国家海外高层次青年人才、上海市海外高层次人才、复旦新工科人才、小米青年学者，获华为火花奖，任上海市计算机学会副秘书长。2016年于西安交通大学获学士学位，2020年于新加坡南洋理工大学获博士学位。曾在TikTok AI Lab、MMLab@NTU、ETH Zurich担任研究员/博士后。主要从事计算机视觉、多模态、场景理解、AIGC、世界模型等研究。过去5年内共发表论文100多篇，包括90多篇CCF-A类论文和10多篇CCF-B类论文。担任IEEE TIP期刊编委、Pattern Recognition期刊编委，并长期担任多个国际顶级会议的Area Chair或Senior Area Chair，如CVPR、NeurIPS、ICML、ICLR、ECCV、AAAI、ACM MM等。

17:15-18:45

课程5：迈向具身自主进化：记忆、干预与生成式世界模型的闭环演进

课程简介：具身智能正在从以模仿学习为主的单点任务学习，迈向由数据、模型、仿真与智能体调度共同驱动的自主进化阶段。本报告将围绕“具身自主进化”这一核心主题，系统介绍如何通过生成式世界模型、可交互仿真环境、进展评判模型与强化学习方法，构建面向长程任务的闭环进化系统。报告首先分析具身智能在数据规模化与端到端模型时代的发展趋势，指出 VLA、WAM 等端到端基础模型正在成为具身智能的重要架构。随后，报告将介绍生成式具身引擎在多样化场景生成、仿真就绪资产生成、高自由度灵巧手交互姿态生成以及多机器人数据引擎中的作用，并进一步讨论原生 2D-3D 联合世界模型 RoboWorld 如何提升多视角预测一致性与三维空间理解能力。在此基础上，报告还将介绍面向机器人任务进展评判的 PRIMO-R1 模型，以及基于离散扩散的 VLA 与 MM-ACT 统一模型，探讨如何将语言、视频与动作生成统一到同一基础模型框架中，并结合强化学习实现具身智能体的持续自我改进。最后将展望视频大模型与评测基准发展趋势。

授课教师：穆尧

上海交通大学计算机学院长聘教轨助理教授，上海交通大学人工智能研究院成员，博士毕业于香港大学计算机系，师从罗平教授，曾在新加坡国立大学、苏黎世联邦理工学院等机构开展访问研究。其研究方向包括具身智能、多模态大模型、机器人学习、具身世界模型与自动驾驶等，长期致力于构建面向通用具身智能的认知、决策与控制基础模型。穆尧博士在 NeurIPS、ICML、ICLR、CVPR、RSS、TITS 等国际顶级会议和期刊发表多篇论文，代表性工作包括 EmbodiedGPT、RoboCodeX、RoboTwin、RoboWorld、G3Flow 等，在具身认知、多模态机器人控制、双臂协作仿真与数据生成等方向产生了广泛影响。其研究成果曾获得 ICCAS Best Student Paper Award、ECCV MAAS Workshop Best Paper Award 等荣誉，并曾获得香港政府博士奖学金、香港大学校长奖学金、国家奖学金等多项奖励。

1 2026年7月17日

08:30-10:00

课程6：科学智能仿真和设计

课程简介：科学智能（AI for Science）正推动科学计算从单纯依赖物理机理或数据拟合，迈向数据与机理深度融合的新范式，在大幅提升仿真与设计精度的同时显著降低计算成本。本报告将围绕正向求解与逆向设计两大核心环节，系统梳理 AI 驱动科学仿真与设计的方法体系与发展脉络。在方程正向求解方面，报告将介绍以神经算子为代表的求解范式，重点剖析基于注意力与基于谱的两类方法：前者擅长刻画局部、非规则结构，后者在全局长程依赖与跨分辨率泛化上具有优势，并讨论二者融合统一的思路与前沿进展。在逆向设计方面，报告将介绍生成式模型在物质与结构设计中的应用，阐释如何将从功能到序列/结构的反向映射建模为条件生成问题，实现面向目标性质的高效设计。报告最后将结合流体力学、材料科学、生物医学等典型场景，探讨 AI 驱动技术如何重塑科学仿真与设计流程，并展望其在加速科学发现与工程创新中的机遇与挑战。

授课教师：朱霖潮

浙江大学人工智能学院百人计划研究员、博士生导师，入选国家级青年人才项目，获首届谷歌学术研究奖、斯坦福全球前2%顶尖科学家等荣誉。曾在澳大利亚悉尼科技大学担任助理教授。主要研究方向为科学智能、智能仿真、人工智能通用基础模型等。曾获美国国家标准总局TRECVID LOC等8项国际竞赛冠军。担任NeurIPS、ECCV、CVPR等国际会议领域主席，并多次在国际会议上组织专题研讨会。

10:00-10:20 茶歇

10:20-11:50

课程7：世界模型的可扩展实现路径

课程简介：世界模型作为通用智能体的核心组成部分，能够赋予智能体利用所积累的丰富世界知识，实现高效探索、深度推理与长远规划的能力，在具身智能、自动驾驶等前沿领域备受关注。本次报告将聚焦于大模型时代背景下，世界模型的可扩展实现路径，系统性讲解以下关键技术问题：如何高效表达世界状态、如何精准建模世界状态的转移，以及如何借助世界模型增强智能体的决策与推理能力。

授课教师：龙明盛

清华大学华为副教授，软件学院长聘副教授、信息系统与工程研究所所长，工业大数据系统与应用北京市重点实验室副主任。长期从事机器学习与人工智能大模型领域的科研工作，发表论文100余篇，谷歌引用6.7万余次，热点/最具影响力论文7篇（Top10）。以第一作者/通讯作者发表《Nature》正刊长文和《Nature Machine Intelligence》封面文章。荣获中国电子学会自然科学奖一等奖（排名1）、基础科学前沿科学奖、世界人工智能大会优秀论文奖。担任TPAMI、AI编委，NeurIPS、ICML资深领域主席，Nature、Science子刊评审专家。建设和主讲清华大学“AI三部曲”课程《人工智能导论》《机器学习》《深度学习》，全部入选清华大学精品课，连续3次入选清华大学毕业生心目中的好教师，获评清华大学良师益友、“清韵烛光·我最喜爱的教师”。

11:50-12:05 企业宣讲

12:05-14:00 午餐

14:00-15:30

课程8：AI驱动的智能影像

课程简介：相机在现代生活中扮演着重要角色，为人们记录下无数有意义的瞬间，对于计算机视觉研究者而言，相机完成视觉信息捕捉，为几乎所有的计算机视觉算法提供输入。人工智能时代对高质量的数字图像和视频提出了大量需求，智能手机等移动设备对相机功能和性能不断提出高需求和新挑战。本次讲习班课程将介绍如何利用“人工智能+计算摄像学”技术，实现更高性能、更多维度、更少失真的影像采集与重构，从视觉信息采集的“源头”助力人工智能重要科学问题攻关和真实场景应用赋能。

授课教师：施柏鑫

北京大学研究员（长聘副教授、博导），计算机学院视频与视觉技术研究所副所长，“相机智能”实验室（http://camera.pku.edu.cn）负责人；科技部重大专项首席科学家，国家自然科学基金重点项目负责人，北京智源学者，北大-智平方具身智能联合实验室主任。日本东京大学博士，麻省理工学院媒体实验室博士后。研究方向为计算摄像学与计算机视觉，发表论文270余篇（包括TPAMI论文37篇，计算机视觉三大顶级会议论文110篇）。论文获评CVPR24/ICCP15最佳论文亚军、CVPR26/3DV26/ICCV15最佳论文候选，获得日本大川研究助成奖（2021）、中国电子学会青年科学家奖（2024）、IJCV杰出编委奖（2025）。担任国际顶级期刊TPAMI/IJCV编委，顶级会议CVPR等牵头领域主席。

15:30-15:45 茶歇

15:45-17:15

课程9：世界模型与具身智能中的三维生成

课程简介：本报告将首先介绍三维生成方向的技术演进与发展，再着重介绍目前三维生成的前沿现状，包括功能性生成、场景生成、CAD生成、重建与生成一体化等。最后，也将就“三维生成与世界模型和具身智能之间的关系”分享一点个人想法。

授课教师：韩晓光

现任香港中文大学（深圳）理工学院助理教授。他于2017年获得香港大学计算机科学专业博士学位。其研究方向包括计算机图形学和三维视觉等，在该方向著名国际期刊和会议已发表论文100余篇，包括顶级会议和期刊SIGGRAPH(Asia), CVPR, ICCV, ECCV, NeurIPS, ACM TOG, IEEE TPAMI等。他曾获得吴文俊人工智能优秀青年奖，广东省杰出青年基金资助，香港中文大学（深圳）青年科研奖。曾担任CVPR、ICCV、ECCV、NeurIPS等领域主席，Siggraph Asia 程序委员，同时也是IEEE TVCG 以及 Computer&Graphics 的编委。他的工作曾两次获得CCF图形开源数据集奖，曾两次入选CVPR最佳论文列表，曾入选世界人工智能大会青年优秀论文提名奖。他也积极组织和参与各种学术活动，目前担任GAMES秘书长，负责GAMES平台的运营，他也曾策划和组织论文背后的故事（PaSS）系列在线科研分享活动。

17:15-18:45

课程10：推敲之间、渐成其文：扩散大语言模型

课程简介：本次报告聚焦一个问题：自回归是否是通向当前乃至更高水平的生成式智能的唯一范式？本次报告首先从直觉和计算的角度探讨非自回归语言生成的可能性。基于这些洞察，介绍扩散大语言模型LLaDA系列工作，包括基础理论、大规模训练与推理、多模态理解和生成等。LLaDA通过非自回归的方式，展示了令人惊讶的可扩展性和生成能力。这些结果不仅挑战了自回归模型的统治地位，更加深了我们对生成式人工智能的理解。

授课教师：李崇轩

中国人民大学高瓴人工智能学院副教授，博士生导师。致力于生成模型基础理论、建模范式、大规模训练策略和高效采样算法的研究。带领团队研制扩散大语言模型 LLaDA，系列模型下载量超600万，多项成果部署于 DALL·E 2、Vidu、Seedream 4.0等行业领先大模型，谷歌学术引用1.3万余次。获机器学习领域顶级国际会议 ICLR 2022 杰出论文奖、吴文俊人工智能自然科学一等奖。主持国家自然科学基金青年科学基金B类，入选智源学者、吴文俊优秀青年奖、北京市科技新星。担任IEEE TPAMI 编委和ICLR/ ICML/NeurIPS等国际会议领域主席；作为主编出版《大模型十讲》教材，指导博士生入选国家自然科学基金青年学生基础研究项目、字节跳动奖学金计划等。

18:45-18:50 结业式