面向高质量视频生成的数据和描述方法｜SPP第130期_最新动态

首页 > 最新动态 > 面向高质量视频生成的数据和描述方法｜SPP第130期

最新动态

面向高质量视频生成的数据和描述方法｜SPP第130期

2025-05-0690

大模型时代，数据极为关键。而开源、高质量、大规模的视频数据以及对应的视频描述是稀缺的。本次SPP分享将围绕两大创新成果展开深入探讨。其一是将介绍一个面向高质量视频生成的数据集OpenVid-1M，它不仅是百万级的高质量文生视频数据集，最高支持1080p视频生成，还提出了一种多模态视频DiT模型结构（MVDiT），该数据集与模型已成功应用于视频生成、复原、插帧以及3D/4D生成等多个相关任务。其二是介绍一个实例级精细视频描述方法 InstanceCap，作为首个用于文本到视频生成的实例感知结构化描述方法，InstanceCap 通过将全局视频转化为实例，提升了对局部实例的准确描述能力；同时构建的InstanceVid数据集，涵盖2.2万个视频，有效增强了描述与视频之间的保真度。欢迎关注本期SPP：5月7日（本周三）19:30—21:00。

本期直播你将收获哪些

1、了解一个面向高质量视频生成的百万规模数据集OpenVid-1M（ICLR 2025）

2、了解一个实例级精细视频描述的方法InstanceCap（CVPR 2025）

演讲嘉宾

邰颖

CCF专业会员，南京大学智能科学与技术学院副教授

邰颖，南京大学智能科学与技术学院副教授，博导。入选姑苏创新创业领军人才计划项目（2024），南京大学紫金学者（2023）。主持国家自然科学青年基金、江苏省自然科学青年基金、南京大学-中国移动联合研究院生成方向项目(150万/年)、南京大学AI4S项目。课题组与字节、腾讯、阿里、中国移动、VIVO、Liblib AI等国内知名公司合作紧密。曾任腾讯优图实验室专家研究员(T12)及研究组长。主要研究方向为生成式计算机视觉技术，包括多模态图像/视频视觉生成、以人为中心的视觉感知和生成、以及高保真图像/视频修复等。目前在模式识别和计算机视觉国际权威会议、期刊（CCF-A类/JCR一区论文）已发表论文70余篇。谷歌学术被引用逾14,000次，两篇代表性一作论文分别被引用逾2,700次、2,000次；授权专利40余项。

开课时间

2025年5月7日（本周三）19:30-21:00

如何报名

SPP为免费直播。点击“阅读原文”立即报名，报名可在活动当天15:00前邮件获取到腾讯直播间链接，可与老师线上即时交流，也可通过预约文末CCF视频号观看活动直播。希望能通过这样的方式和你一起进步、成长。呼朋唤友来参加吧！

CCF推荐

【精品文章】

点击“阅读原文”，立即报名。

阅读原文

点我访问原文链接