2025年12月5日,CCF程序员大会多模态AI发展趋势与应用论坛在大理国际大酒店成功举行。本次会议邀请CCF TF数据科学SIG主席巴川、WyseOS创始人张京磊、中央编译出版社技术总监韩延刚、美国Dotsfy自动驾驶项目亚太区技术负责人王旭鹏、尖山灵析(长沙)科技有限公司创始人周晖及DuoDuoLand创始人陈思彤等知名企业的技术专家及连续创业者,和与会者一起深入探讨多模态AI发展趋势及应用案例,活动气氛轻松热烈,内容丰富有料,为大家贡献了一场精彩的技术与思维盛宴。
随着人工智能技术突破单一感知边界,我们正迈入一个融合文本、图像、音频、视频数据的多模态智能时代。这不仅是技术范式的深刻变革,更预示着新一轮产业创新的浪潮。本次论坛由CCF TF数据科学SIG主席、竞技世界前首席数据科学家巴川组织,由DuoDuoLand创始人陈思彤主持。巴川和WyseOS创始人张京磊、中央编译出版社技术总监韩延刚、美国Dotsfy自动驾驶项目亚太区技术负责人王旭鹏、尖山灵析(长沙)科技有限公司创始人周晖五位专家和大家分享了多模态AI技术在直播短视频、浏览器智能体、融合出版、自动驾驶、心理健康等行业的实践案例和发展趋势,并与参会者进行了交流讨论。
论坛首先由CCF TF数据科学SIG主席巴川做了开场致辞,欢迎大家来到大理CCF程序员大会,感谢大家支持多模态AI分论坛。巴川简述了多模态AI的时代背景和发展趋势,认为多模态AI技术已成为产学研多领域全面开花的技术潮流。并提醒大家在学习技术之余,也要劳逸结合,看看苍山雪洱海月,享受“大理福尼亚”之美。
随后巴川给大家带来了第一个主题分享《多模态AI在直播短视频领域的应用》。他选取自己的新书《多模态数据分析》部分内容,阐述了自己对多模态定义的理解、多模态数据的演变过程和研究意义;系统介绍了图片、文本、音频、视频等多模态数据的处理方法和主流技术;并以直播亮点挖掘、精彩短视频剪辑等案例介绍了多模态AI技术在企业的综合应用。巴川的分享体系感强、循序渐进又生动有趣,使大家在轻松愉快的氛围中收获满满。
未来的浏览器智能体能否像人一样理解网页并自主完成复杂任务?WyseOS创始人张京磊在《浏览器智能体从构建到落地实践指南》中,从构建多模态浏览器智能体的实践出发,介绍了以“Web Agent”为核心的多智能体平台,以及如何利用大模型对效果进行评价和离线训练的方法。WyseOS多智能体平台融合多模态动作大模型与视觉分析技术,构建能够理解并操作网页的智能体,推动浏览器从“内容消费”向“任务完成”转变,同时兼顾隐私保护与运行效能,目前已经在营销场景落地。
在本次论坛上,中央编译出版社技术总监韩延刚发表题为《多模态大模型技术赋能融合出版》的主题分享,系统呈现了编译社以AI技术驱动出版产业升级的实践成果与前瞻规划,引发行业广泛关注。分享中,韩延刚详细介绍了编译社将多模态大模型技术深度融入出版全链条的创新探索。文生图、文生视频、图生视频、图片解析、语音合成等核心技术,已在选题策划、编辑加工、营销推广等关键环节实现落地应用,通过多种形态呈现丰富内容、提升生产效率,为融合出版注入全新活力。依托优质特色数据资源构建核心竞争力,是编译社多模态技术应用的鲜明特色。目前,编译社已形成以新时代中国共产党思想理论外文版资源数据库、《马克思恩格斯全集》历史考证版第二版(MEGA2)数据库、马克思主义资源数据库为核心的数据集体系,为大模型训练提供了精准、权威的内容支撑。在此基础上,编译社成功打造在线商城、马克思阅读中心小程序、国传经典小程序等一系列应用层产品,借助大模型技术优化用户交互体验,实现优质内容资源的高效传播。韩延刚表示,未来中央编译出版社将持续深化多模态大模型技术与出版业务的融合创新,积极探索更多应用场景,推动技术成果向实际生产力转化,为出版行业高质量发展贡献力量。
本期嘉宾王旭鹏(Akon-Wong)拥有跨越北美自动驾驶、全球化招聘平台及金融法律领域的丰富技术背景,曾任南京航天数智AI实验室及南洋商业银行大数据中心负责人 。他深度分享了从单模态技术向多模态Agent演进的硬核实战路线。演讲内容不仅涵盖单模态时代的经典技术,如详解基于DBNet与CRNN+CTC的OCR文本检测识别原理,以及夺得2019法研杯冠军的BERT/XLNet司法长文本解析方案 ;更深入探讨多模态技术的进阶应用,包括利用Pointer Network与图模型解决印章与菜单等复杂版面的结构化理解,以及在自动驾驶场景下视频、时序与传感器数据的多模态语义融合。最终他展示了AI的最新形态——多模态Agent,通过“AgentInvest”金融投研智能体案例,解析如何利用LangGraph编排与ReAct范式,实现从用户需求澄清、多研究员并行搜索到专业研报生成的全流程自动化 ,带大家一览AI技术跨越文本、图像与时序的全球化应用图景。
尖山灵析(长沙)科技有限公司创始人周晖在本次论坛上作了题为《从感知到“心智”:多模态AI驱动的心理健康新范式》的分享。报告指出,多模态AI技术正跨越感知融合阶段,进入具备深度理解能力的“心智”阶段。该报告紧密围绕论坛主题,系统探讨了实现这一演进的关键路径:通过构建统一的心理语义空间,有效整合文本、语音、视觉等多源信息,从而使AI对用户心理状态的理解,实现从表层情绪识别到深层认知意图的跃迁。据介绍,基于这一技术内核,团队正研发集多模态感知、专业心理大模型与自适应闭环于一体的“汪多福”智能体,并已在教育、家庭等场景开展初步应用。该研究为多模态AI技术落地提供了一个典型的垂直领域范本,不仅展示了其在实现规模化、个性化人文关怀服务方面的巨大潜力,也为AI技术向更具深度与温度的“应用新发展”提供了重要思路。
最后,与会嘉宾展开了一场主题为《多模态AI:从感知融合到价值创造的产业革命》的圆桌讨论,集结了横跨学界、产业与投资界的关键力量,围绕多模态AI如何从技术概念转化为产业驱动力展开深度探讨。本次活动由DuoDuoLand创始人陈思彤主持,汇聚了四位来自不同领域的专家:WyseOS多智能体平台创始人张京磊、中央编译出版社技术总监韩延刚、美国Dotsfy自动驾驶项目亚太技术负责人王旭鹏和尖山灵析(长沙)科技有限公司创始人周晖。
整场讨论聚焦三个关键维度:第一部分从“感知融合”到“交互重构”:深度畅聊多模态AI将如何定义下一代人机交互的核心入口形态,其演变方向究竟是面向任务的智能体、虚实融合的智能硬件,还是其他新型交互终端;第二部分从“技术突破”到“生态构建”:系统剖析了从实验室原型到规模化落地过程中面临的核心挑战,包括高质量数据集缺失、工程化能力不足、跨领域人才稀缺等现实瓶颈;最后在价值层面,从人文角度反思了技术发展的伦理边界,探讨如何让多模态AI成为增强人类创造力与社会连接的赋能工具而非替代品。
与会专家一致认为,多模态AI的真正突破不仅在于算法的精进,更在于技术、场景、生态与人文价值的系统协同。本次圆桌既是对当前产业实践的深度总结,同时在多模态AI从感知融合走向价值创造的进程中,这些来自一线的实践洞察,或许能为行业发展带来更明确的路径参考。
点击“阅读原文”,加入CCF。
