大模型时代,数据极为关键。而开源、高质量、大规模的视频数据以及对应的视频描述是稀缺的。本次SPP分享将围绕两大创新成果展开深入探讨。其一是将介绍一个面向高质量视频生成的数据集OpenVid-1M,它不仅是百万级的高质量文生视频数据集,最高支持1080p视频生成,还提出了一种多模态视频DiT模型结构(MVDiT),该数据集与模型已成功应用于视频生成、复原、插帧以及3D/4D生成等多个相关任务。其二是介绍一个实例级精细视频描述方法 InstanceCap,作为首个用于文本到视频生成的实例感知结构化描述方法,InstanceCap 通过将全局视频转化为实例,提升了对局部实例的准确描述能力;同时构建的InstanceVid数据集,涵盖2.2万个视频,有效增强了描述与视频之间的保真度。欢迎关注本期SPP:5月7日(本周三)19:30—21:00。
本期直播你将收获哪些
演讲嘉宾
开课时间
2025年5月7日(本周三)19:30-21:00
如何报名
SPP为免费直播。点击“阅读原文”立即报名,报名可在活动当天15:00前邮件获取到腾讯直播间链接,可与老师线上即时交流,也可通过预约文末CCF视频号观看活动直播。希望能通过这样的方式和你一起进步、成长。呼朋唤友来参加吧!
CCF推荐
【精品文章】
点击“阅读原文”,立即报名。