在人工智能(AI)和计算机视觉(CV)快速发展的领域,视觉语言模型(VLMs)以及视觉基础模型(SAM2)正在为解决高难度感知任务开辟新路径。本期SPP报告将探讨一系列创新方法,利用这些强大工具突破少样本学习、伪装视频目标检测以及长时间视频跟踪等方面的局限。首先,将介绍基于视觉语言模型的广义少样本3D点云分割,该方法通过整合VLMs,在极少样本条件下实现高效、泛化的3D点云分割。其次,介绍一种可在伪装视频中精准分割任意目标的方法,其将SAM2扩展至动态视频中的伪装场景。最后,提出通过层次化运动估计与内存优化提升SAM2的长时序跟踪能力,增强SAM2在长序列中的性能。通过优化内存占用并进行多尺度运动估计,实现长时间可靠跟踪,有效缓解目标漂移。这些工作展示了VLMs与基础模型如何适应真实世界感知难题,为构建更通用更鲁邦的AI系统铺平道路。报告将讨论核心思想、实验结果以及该领域的未来方向。欢迎关注本期SPP:11月5日(本周三)19:30–21:00。
本期直播你将收获哪些
演讲嘉宾
孙国磊
南开大学教授
开课时间
2025年11月5日(本周三)19:30-21:00
如何报名
SPP为免费直播。点击“阅读原文”立即报名,报名可在活动当天15:00前邮件获取到腾讯直播间链接,可与老师线上即时交流,也可通过预约文末CCF视频号观看活动直播。希望能通过这样的方式和你一起进步、成长。呼朋唤友来参加吧!
相关阅读
点击“阅读原文”,立即报名。
