首页 > 最新动态 > 第四届CCF计算机视觉前沿讲习班
最新动态
第四届CCF计算机视觉前沿讲习班
2025-07-0924

举办时间:2025/08/07 - 2025/08/08

报名时间:2025/07/03 - 2025/08/08

会议地点:武汉大学雷军科技楼一楼报告厅

主办单位:中国计算机学会

承办单位:CCF计算机视觉专委会、武汉大学

执行主席:王瑞平(中国科学院计算技术研究所)、夏桂松(武汉大学)、朱安娜(武汉理工大学)

会议介绍

计算机视觉技术的快速发展推动了人工智能与各行各业的结合,使得计算机视觉成为当前落地最顺利、最广泛、最成熟的人工智能主干技术。为促进计算机视觉技术的学术交流与高级人才培养,帮助该领域青年从业者提升技术水平,开拓实践眼界,掌握最前沿的理论研究和创新应用,CCF计算机视觉专委会(CCF-CV)定于2025年8月7日至8月8日在武汉大学组织第四届CCF计算机视觉前沿讲习班,本届讲习班邀请了10名知名专家报告前沿学术进展,帮助学员全面学习并系统掌握计算机视觉前沿技术和应用工具。



收费说明


团体报名有优惠,欢迎咨询!


课程讲者


西北工业大学

戴玉超 教授

香港大学

李弘扬 助理教授


清华大学

鲁继文 教授

西安交通大学

孟德宇 教授


香港中文大学/上海人工

智能实验室

欧阳万里 教授


南京大学

王利民 教授


南京大学

吴建鑫 教授

华中科技大学

王兴刚 教授


北京大学

袁粒 助理教授

南京大学

俞扬 教授


简易日程

    2025年8月6日

14:00-20:30    报到、注册

    2025年8月7日

08:30-08:45    开幕式

08:45-09:00    合影

09:00-10:30    课程1:面向视觉理解生成和规划的高效率表征学习

讲者:王兴刚    华中科技大学

10:30-10:50    茶歇

10:50-12:20    课程2:多模态生成、理解及统一架构基础知识与前沿展望

讲者:袁粒    北京大学

12:20-14:00    午餐

14:00-15:30    课程3:AI for Science-机遇与挑战

讲者:欧阳万里    香港中文大学/上海人工智能实验室

15:30-15:45    茶歇

15:45-17:15    课程4:神经网络量化

讲者:  吴建鑫    南京大学

17:15-18:45    课程5:InternVideo系列大模型与评测基准

讲者:  王利民    南京大学

    2025年8月8日

08:30-10:00    课程6:视觉感知与自动驾驶

讲者:  鲁继文    清华大学

10:00-10:20    茶歇

10:20-11:50    课程7:动态场景三维重建与生成

讲者:  戴玉超     西北工业大学

11:50-14:00    午餐

14:00-15:30    课程8:机器学习的“变”与“不变”

讲者:  孟德宇     西安交通大学

15:30-15:45    茶歇

15:45-17:15    课程9:大模型背景下的强化学习

讲者:  俞扬       南京大学

17:15-18:45  课程10:Robotic Manipulation Fundamentals and Applications: A Tutorial

讲者:  李弘扬    香港大学



详细日程

    2025年8月6日

14:00-20:30    报到、注册

    2025年8月7日

08:30-08:45    开幕式

08:45-09:00    合影

09:00-10:30    

课程1:面向视觉理解生成和规划的高效率表征学习

课程简介:视觉表征学习是人工智能领域的一个基础问题,面向目标检测分割等视觉理解问题、文生图等视觉生成问题、自动驾驶与机器人操作等视觉规划问题,本次报告将系统等讲解对应的视觉表征学习机制,重点介绍报告人课题组中的YOLO-World、ViTMatte、ViTGaze、WeakCLIP、WeakSAM、Vision Mamba、Vision GLA、Diffusion GLA、VA-VAE、DiffusionDrive、M2Diffuser等工作,相关工作代码均开源于:https://github.com/hustvl。

授课教师:王兴刚

华中科技大学电信学院教授、博导。主要从事视觉表征学习、多模态基础模型、自动驾驶等领域研究,在领域内顶级期刊会议上发表论文100余篇,谷歌学术引用4万次,一作/通讯引用1000+论文6 篇。入选了国家级青年人才,获湖北青年五四奖章、CSIG青年科学家奖、 CAAI吴文俊优秀青年奖、CVMJ最佳论文奖、MIR期刊最被引用论文奖、微软学者奖等。现任Image and Vision Computing期刊共同主编、IEEE TPAMI编委、CVPR/ICCV/NeurIPS AC。


10:30-10:50    茶歇

10:50-12:20    

课程2:多模态生成、理解及统一架构基础知识与前沿展望

课程简介:多模态理解和生成两个领域蓬勃发展,当前主流多模态理解模型主要借助大语言模型作为理解和逻辑推理的“中枢”,以自回归式Transformer(AutoRegressive Transformer)为主干模型,而多模态生成以扩散式Transformer (Diffusion Transformer)作为主要模型。多模态生成领域一直在尝试自回归式生成,而近期学术界开始利用Diffusion构建多模态理解(大语言模型),两个领域在尝试对方的建模方式,预示着对多模态理解和生成在逐步走向统一的期望,而以自回归还是扩散建模来统一理解和生成仍有待争论,本次课程将讲解两种建模方式的基础知识和各自优势,并以此探讨自回归和扩散建模谁将作为主干来统一多模态,亦或者如何混搭两种建模的方案优劣,最后探讨生成理解统一架构目前存在的挑战,以及未来为整个领域带来的新机遇。


授课教师:袁粒

图片

北京大学科学智能学院(深圳研究生院)助理教授、博士生导师、入选国家高层次青年人才计划、国家优秀留学生奖(归国类)、2023年福布斯亚洲30U30名单等,主持国家科技创新2030重大项目课题和国自然基金等。 研究方向是视觉为中心的多模态机器学习,代表性学术工作包括VOLO, T2T-ViT等深度神经网络框架,以第一/通讯作者在国际期刊和顶会上发表论文40余篇,包括Nature Computational Science、IEEE TPAMI/CVPR等,谷歌学术引用一万余次,代表性应用工作包括ChatExcel、Open-Sora Plan视频生成开源计划。


12:20-14:00    午餐

14:00-15:30  

课程3:AI for Science-机遇与挑战

课程简介:近十年,以深度学习为代表的人工智能算法取得了突飞猛进的发展,并大规模应用到人类的生产生活实践中。将人工智能技术应用到科学研究,利用人工智能算法解决当前科学的未解问题已经成为产学研关注的重点。本次报告探索重大科学问题研究的范式,研究从微观到宏观自然科学的共性AI算法,通过人工智能与物理、化学、生物等自然学科的结合,加速人工智能在气象、新材料研发等领域的探索,赋能各行业发展。

授课教师:欧阳万里

香港中文大学教授,上海人工智能实验室领军科学家。曾任悉尼大学电子信息工程学院研究主任。研究领域:模式识别、深度学习、计算机视觉、AIforScience。谷歌学术引用5,4000+, H-index 指数 103。澳大利亚未来学者杰出青年人才计划、悉尼大学杰出科研校长奖、澳大利亚计算机科学领导者奖。其团队现已推出书生·风乌(气象)、书生·丰登(育种)、书生·翼飞(翼型设计)、书生·鉴原(化学)、书生·言普(谱学)等科学领域模型。ICCV最佳审稿人,担任人工智能领域顶级期刊TPAMI和IJCV副编,CVPR2023资深领域主席,CVPR2021、 ICCV2021领域主席。获得ImageNet和COCO物体检测第一名。


15:30-15:45    茶歇

15:45-17:15    

课程4:神经网络量化

课程简介:神经网络的量化(quantization)是将较高精度的浮点计算(如FP16/BF16)转换为较低精度的定点计算(如INT8甚至INT4)的过程,对于降低大规模神经网络的算力、显存、带宽、能耗、存储等各方面需求均有显著的作用,是神经网络在各种应用中实际使用时必备的一步。将简要介绍神经网络量化的一些基础知识,尤其是读论文时不容易了解到的一些基础知识,介绍一些经典的神经网络量化方法(主要包括PTQ的均匀量化和QAT的入门知识),并介绍一些量化的难点。此外,将介绍我们近期的一些工作,主要包括针对PTQ的QwT系列方法和针对QAT的GPLQ方法。本次介绍主要针对计算机视觉领域的神经网络量化。

授课教师:吴建鑫

于南京大学获计算机科学与技术学士与硕士学位,于佐治亚理工学院获计算机科学博士学位,现任南京大学人工智能学院/计算机软件新技术全国重点实验室教授。曾任CVPR、ICCV、ECCV、AAAI、IJCAI等会议的资深领域主席或领域主席,IEEE TPAMI编委,担任CVPR 2024程序主席。研究兴趣为计算机视觉与机器学习,在相关领域的重要学术期刊、会议发表了100多篇论文。具体来说,目前的研究兴趣为计算、数据资源受限情况下的深度学习与计算机视觉。


17:15-18:45    

课程5:InternVideo系列大模型与评测基准

课程简介:视频理解已经成为人工智能领域现阶段核心难题,面临着数据维度高、信息容量大、场景变化多等技术挑战,如何构建通用视频理解大模型已经成为一项极具挑战的任务。本次报告将主要介绍InternVideo系列视频大模型发展历程,2022年发布首个通用视频理解基础模型InternVideo1.0,构建了可泛化的视频基础表征能力,全面覆盖视频识别、开放感知、时空解析三大核心领域。2024年发布多模态视频理解大模型InternVideo2.0,在InternVideo1.0 基础上新增了多模态视频理解与对话能力,在识别检索、开放问答、高阶推理等复杂视频理解任务取得了国际领先性能。 2025年发布的全新升级版本InternVideo2.5,在复杂视频理解的时间跨度与细粒度取得了双维度提升,“记忆力”较前代模型扩容6倍,具备万帧长视频中精准“大海捞针”能力。同时,本报告还将介绍围绕通用视频理解构建的系列评测基准:短视频理解评测基准MVBench,流视频理解评测基准OVBench,长视频线索推断评测基准CGBench,叙事视频推理评测基准VRBench。最后将展望视频大模型与评测基准发展趋势。

授课教师:王利民

南京大学计算机学院教授、博士生导师。研究领域为计算机视觉和多模态大模型,专注视频理解与动作识别,在IJCV、T-PAMI、CVPR、ICCV、NeurIPS等学术期刊和会议发表论文100余篇,论文引用3.4万余次,两篇一作论文单篇引用超过4000次。在视频分析领域做出了一系列有代表性的工作,例如:TDD视频深度特征、TSN视频网络架构,VideoMAE视频预训练方法等。带领团队研发了首个性能领先的通用视频理解大模型InternVideo,被Google、Meta、NVIDIA等知名企业关注和使用,产生了重要国际影响力。曾获得广东省技术发明一等奖,ACM MM 2023唯一最佳论文提名奖、世界人工智能大会青年优秀论文奖。入选2022年度AI 2000人工智能全球最具影响力学者榜单,2022年度全球华人AI青年学者榜单,2021-2023年度爱思唯尔中国高被引学者榜单。担任CVPR/ICCV/NeurIPS等会议的领域主席和TPAMI/IJCV编委。


    2025年8月8日

08:30-10:00   

课程6:视觉感知与自动驾驶

课程简介:自动驾驶是人工智能与机器人领域的研究热点,在工业制造、农业生产、交通运输、现代服务等领域有着重要应用前景。报告将介绍自动驾驶视觉感知近年来的主要研究进展,包括视觉场景生成、三维占据预测、端到端自动驾驶、自动驾驶大模型等方法与技术,深入分析优缺点与应用前景,最后对自动驾驶视觉感知未来发展趋势进行展望。

授课教师:鲁继文

清华大学长聘教授、自动化系副主任、全国重点实验室副主任、IEEE/IAPR Fellow。主要研究方向包括计算机视觉与模式识别、人工智能安全与治理、具身智能与机器人,发表IEEE汇刊论文150余篇(T-PAMI论文44篇),CVPR/ICCV/ECCV论文150余篇,获授权国家发明专利60余项,主持国家自然科学基金青年科学基金2项(A类/B类)、重点基金3项、国家重点研发计划项目1项、北京市重点项目2项,获公安部科学技术奖一等奖1项,中国电子学会自然科学奖一等奖2项,国家级教学成果奖二等奖1项。担任中国仿真学会理事、视觉计算与仿真专委会主任,中国图象图形学学会视觉认知与计算专委会副主任,中国自动化学会专家咨询工作委员会副主任,国际期刊Pattern Recognition Letters主编,培养7名博士生获北京市和全国一级学会优秀博士学位论文。


10:00-10:20    茶歇

10:20-11:50    

课程7:动态场景三维重建与生成

课程简介:现实世界是三维的并且动态变化,从二维图像感知和重建三维动态场景具有重要的研究意义和应用价值。这一技术在自动驾驶、消费级应用、增强现实/元宇宙等方面具有广泛的应用前景。动态场景三维重建致力于从连续视频观测恢复所观测场景随时间变化的三维几何结构和外观信息。动态场景三维重建经历从显式优化方法到隐式表示方法再到生成方法的发展历程。本报告围绕动态场景三维重建与生成,在显式优化方法下探讨单一物体稀疏重建、多物体稠密重建、复杂场景稠密重建,在隐式学习方法下聚焦动态场景新视角合成和三维重建,最后对于基于生成模型的重建方法、重建与生成的结合和本领域的开放问题与发展趋势进行展望。

授课教师:戴玉超

西北工业大学电子信息学院教授、博士生导师,国家级青年人才,陕西省信息获取与处理重点实验室主任。研究方向为机器视觉与人工智能,近年来在TPAMI、IJCV、ICCV、CVPR、NeurIPS等国际著名期刊和会议上发表论文70余篇,谷歌学术引用超过14000次,H因子56。获CVPR 2012最佳论文奖(大陆高校30年来首次获得该奖项)、陕西省自然科学奖一等奖、CSIG青年科学家奖、火箭军“智箭火眼”人工智能挑战赛全国冠军、CVPR 2020最佳论文奖提名等奖项。担任IJCV编委、APSIPA杰出讲者、China3DV 2025大会主席、中国空间智能大会(ChinaSI 2025)程序主席和CVPR、ICCV、ECCV、NeurIPS等国际会议领域主席。研究成果应用于航母工程、空中加油、反无人机等。


11:50-14:00    午餐

14:00-15:30 

课程8:机器学习的“变”与“不变”

课程简介:在深度学习快速迭代的浪潮中,前沿研究聚焦于从“变”的角度构建机器学习方法,如增加数据/标记规模、设计创新网络架构、构建多样学习模式等。然而,从机器学习的基础研究视角,我们可发现机器学习的各个环节中存在更为本质的”不变性“规律与内涵,如数据高维标记空间的低维特征模式、网络基础模块的不变/等变性结构本质、学习模式设计的内在统一性规律等。把握这些不变性内涵,有利于我们更深刻理解提升机器学习泛化性、鲁棒性、可解释性机理的理论方法途径,更合理利用这些基础原理设计更加简洁合理的学习模式,构建更加具有深刻内涵的机理-数据双驱动、知识-网络相融合的有效机器学习方法。基于此,本报告将介绍针对高维标记空间低维不变性隐空间提炼的“标记分布建模”理论与方法、针对网络基础卷积模块旋转-尺度-仿射等变性结构刻画的“参数化卷积”理论与方法、针对机器学习方法超参设置不变性规律提炼的“模拟学习方法论”理论与方法,从而尝试探讨对机器学习方法如何从“变”中提炼其“不变”内涵的方法论思想,为机器学习的基础研究与工程应用提供一种可参考的视角。

授课教师:孟德宇

西安交通大学数学与统计学院教授,任大数据分析与计算分析工程实验室统计与大数据中心常务副主任。长期致力于机器学习基础理论与方法的研究,在机器学习相关领域期刊会议发表论文百余篇,谷歌学术引用超过35000次。现任IEEE Trans. PAMI,National Science Review等7个国内外期刊编委。


15:30-15:45    茶歇

15:45-17:15    

课程9:大模型背景下的强化学习

课程简介:强化学习是机器学习的主要研究方向之一,近期因在大模型中的应用而备受关注。本次讲习班将从强化学习的基础知识入手,覆盖深度强化学习、大模型中的强化学习等知识内容,着重从原理上介绍强化学习及其在大模型时代下的发展。

授课教师:俞扬

南京大学人工智能学院教授。主要从事人工智能、机器学习、强化学习方向的研究,工作获5项国际论文奖、3项国际算法竞赛冠军。入选国家青年人才计划、IEEE Intelligent Systems “AI’s 10 to Watch”,获CCF-IEEE青年科学家奖,首届亚太数据挖掘“青年成就奖”,并受邀在国际人工智能联合大会 IJCAI 2018上作“青年亮点报告”。


17:15-18:45    

课程10:Robotic Manipulation Fundamentals and Applications: A Tutorial

课程简介:A generalist robot should perform effectively across various environments. However, most existing approaches heavily rely on scaling action-annotated data to enhance their capabilities. Consequently, they are often limited to single physical specification and struggle to learn transferable knowledge across different embodiments and environments. To confront these limitations, we propose UniVLA, a new framework for learning cross-embodiment vision-language-action (VLA) policies. Our key innovation is to derive task-centric action representations from videos with a latent action model. This enables us to exploit extensive data across a wide spectrum of embodiments and perspectives. To mitigate the effect of task-irrelevant dynamics, we incorporate language instructions and establish a latent action model within the DINO feature space. Learned from internet-scale videos, the generalist policy can be deployed to various robots through efficient latent action decoding. We obtain state-of-the-art results across multiple manipulation and navigation benchmarks, as well as real-robot deployments. UniVLA achieves superior performance over OpenVLA with less than 1/20 of pretraining compute and 1/10 of downstream data. Continuous performance improvements are observed as heterogeneous data, even including human videos, are incorporated into the training pipeline. The results underscore UniVLA's potential to facilitate scalable and efficient robot policy learning.

授课教师:李弘扬

香港大学助理教授。研究方向为端到端具身智能系统。他主导的端到端自动驾驶项目UniAD,获得IEEE CVPR 2023最佳论文奖。UniAD产生了明显的社会经济效益,包括2024年特斯拉推出的FSD V13。多次担任CVPR、NeurIPS、ICLR、ICCV、ICML、RSS领域主席。他是《自然·通讯》审稿人、期刊《Automotive Innovations》客座编委。IEEE、CCF、CSIG高级会员、IEEE汽车委员会自动驾驶国际标准工作组组长。荣获2024年吴文俊人工智能青年科技奖、主持2023年上海市东方英才计划领军项目。


18:45-18:50    结业式



报名方式

详细报名信息请访问讲习班官方网站:

https://ccf.org.cn/16rvDBV

或扫描以下二维码:


名额有限,请广大师生、企业界朋友尽早报名,期待与您八月相聚江城。



路线信息

会议地点:湖北省武汉市武汉大学雷军科技楼 一楼报告厅





联系我们

本地组委会联系人:高源

邮箱:yuangaoeis AT whu DOT edu DOT cn

手机号:18681528632


专委会秘书处联系人:朱安娜

邮箱:annazhu AT whut DOT edu DOT cn

手机号:18627708137




图片


图片
图片
图片

点击“阅读原文”,加入CCF。

点我访问原文链接