首页 > 最新动态 > 多模态基础模型驱动的感知新范式|SPP第152期
最新动态
多模态基础模型驱动的感知新范式|SPP第152期
2025-11-0322


在人工智能(AI)和计算机视觉(CV)快速发展的领域,视觉语言模型(VLMs)以及视觉基础模型(SAM2)正在为解决高难度感知任务开辟新路径。本期SPP报告将探讨一系列创新方法,利用这些强大工具突破少样本学习、伪装视频目标检测以及长时间视频跟踪等方面的局限。首先,将介绍基于视觉语言模型的广义少样本3D点云分割,该方法通过整合VLMs,在极少样本条件下实现高效、泛化的3D点云分割。其次,介绍一种可在伪装视频中精准分割任意目标的方法,其将SAM2扩展至动态视频中的伪装场景。最后,提出通过层次化运动估计与内存优化提升SAM2的长时序跟踪能力,增强SAM2在长序列中的性能。通过优化内存占用并进行多尺度运动估计,实现长时间可靠跟踪,有效缓解目标漂移。这些工作展示了VLMs与基础模型如何适应真实世界感知难题,为构建更通用更鲁邦的AI系统铺平道路。报告将讨论核心思想、实验结果以及该领域的未来方向。欢迎关注本期SPP:11月5日(本周三)19:30–21:00。



本期直播你将收获哪些


1. 了解当前流行的视觉语言模型和基础模型
2. 理解当前的复杂感知挑战
3. 掌握多模态基础模型对复杂感知的提升方法;
4.相关领域的前沿趋势


演讲嘉宾


孙国磊

南开大学教授

南开大学计算机学院教授、博导,国家级青年人才。博士毕业于瑞士苏黎世理工学院(ETH Zurich),师从国际计算机视觉顶尖科学家Luc Van Gool教授(计算机视觉最高奖Marr奖获得者,谷歌学术总引用27万余次)。并随后担任博士后研究员。曾在阿联酋人工智能研究院任研究工程师,在美国大公司Meta、Adobe任研究科学家(实习)。研究方向为计算机视觉、视频理解、多模态大模型的应用与压缩。在CCF-A类等国际顶级期刊和会议上发表论文40余篇(含多篇Oral/Spotlight),授权国际/国内专利2 项,谷歌学术论文总引用8800余次。曾获CVPR、ICCV研讨会最佳论文奖,CVPR研讨会弱监督分割挑战赛冠军。作为核心成员参与瑞士 “私人化医疗与相关技术”项目。研究成果曾获英国国际媒体《New Scientist》报告。担任NeurIPS、ICLR、CVPR等学术会议领域主席或程序委员会委员。


开课时间


2025年11月5日(本周三)19:30-21:00


如何报名


SPP为免费直播。点击“阅读原文”立即报名,报名可在活动当天15:00前邮件获取到腾讯直播间链接,可与老师线上即时交流,也可通过预约文末CCF视频号观看活动直播。希望能通过这样的方式和你一起进步、成长。呼朋唤友来参加吧!






相关阅读

纹理滤波:从传统方法到深度学习|SPP第147期

不确定性知识图谱|SPP第148期

第39次CCF CSP认证真题精讲|SPP第149期

细粒度图像分类方法|SPP第150期

从像素到世界:三维视觉的基础表示|SPP第151期





图片

点击“阅读原文”,立即报名。

点我访问原文链接