首页 > 最新动态 > 语音合成大爆发:从文本朗读到多模态生成,AI声音彻底变天 | CCF数图焦点第102期
最新动态
语音合成大爆发:从文本朗读到多模态生成,AI声音彻底变天 | CCF数图焦点第102期
2026-04-1019

击底部阅读原文,有兴趣的都可以免费学习


编者寄语

随着深度学习、大模型等方法的引入,语音合成技术取得了令人瞩目的突破性进展。最新语音合成系统不仅能生成与真人几乎无异的自然语音,还能对音色、情感等语音属性进行灵活控制,实现富有表现力的个性化合成。语音合成技术发展也极大拓展了应用场景,从智能语音助手、有声内容创作,到虚拟人生成、多模态人机交互等,正在成为推动人工智能普及和落地的关键技术之一,受到学术界和工业界的广泛关注。语音合成实现的文本到语音转换这一单一功能,已无法满足当前人工智能生成内容(AIGC)应用对于音视频多模态生成结果的需求,跨模态生成技术成为语音合成未来重要的发展方向之一。


本选题旨在推动语音合成技术研究进展与实践经验的分享与讨论,将CCF数字图书馆相关报告和视频以及其他与选题相关的资源进行聚合,方便会员集中观看学习。


编委主任:

苏金树 CCF会士 军事科学院教授

本期主编:

凌震华 CCF语音对话与听觉专委会秘书长 中国科学技术大学信息科学技术学院教授

吴锡欣 CCF语音对话与听觉专委会执行委员 香港中文大学助理教授


点击底部阅读原文,有兴趣的都可以免费学习


目录


击底部阅读原文,可免费学习第102期详细内容





图片

点击“阅读原文”浏览《CCF数图焦点》第102期详细内容。

点我访问原文链接