MOSS-TTSD是清华大学语音与语言实验室联合腾讯aiLab 等机构开发的开源双语对话语音合成模型。它支持中英文,能把两个说话者的对话脚本转换成自然、有表现力的对话语音。该模型基于 Qwen3-1.7B-base 模型继续训练,用离散化语音序列建模,通过 XY-Tokenizer 把语音压缩到 1kbps,同时保留语义和声学信息。
MOSS-TTSD模型支持中英双语,能零样本克隆多个说话人的音色,最长可生成 960 秒的语音,适合 AI 播客、影视配音、长篇访谈等场景。它的模型权重、推理代码和 API 接口都已开源,还支持免费商业使用。

主要特点
✅高表现力的对话语音:依托统一的语义 – 声学神经音频编解码器、预训练的大型语言模型,以及数百万小时的 TTS 数据和 40 万小时的合成与真实对话语音构建,能生成有自然对话韵律、表现力强的类人对话语音。
✅双扬声器语音克隆:支持零样本双扬声器语音克隆,能根据对话脚本准确切换说话人,生成对话语音。
✅中英双语支持:可生成中英文两种语言的高表现力语音。
✅长语音生成:借助低比特率编解码器和训练框架优化,专门针对长语音生成做了训练。
✅完全开源且可商用:MOSS-TTSD 及其未来更新会完全开源,且支持免费商业使用。
MOSS-TTSD技术原理
✅模型架构:在 Qwen3-1.7B-base 模型基础上微调,采用离散化语音建模。通过 8 层 RVQ(残差向量量化)把语音信号转换成离散 token 序列,用自回归方式结合 Delay Pattern 生成,最后由解码器还原成语音。
✅核心创新:XY-Tokenizer 有双阶段多任务学习流程。第一阶段同时训练自动语音识别(ASR)和语音重建任务,融合语义和粗粒度声学信息;第二阶段固定编码器和量化器,只训练解码器,加入重建损失和 GAN 损失,增强细节表现。
✅数据规模与预训练:用约 100 万小时的单说话人语音数据和 40 万小时的对话语音数据训练,数据经过严格筛选和标注,还进行了中英文 TTS 预训练。

应用场景
✅AI 播客制作:MOSS-TTSD能自动把文本转成多人对话的播客音频,支持零样本人声克隆和长语音生成,能降低制作成本。
✅影视配音与动画:为影视作品、动画生成自然对话语音,支持多语言切换,提高配音效率。
✅长篇访谈与会议记录:把访谈或会议文本转成语音,保留对话的韵律和情感,方便存档和分享。
优势与特点
✅开源且商用友好:MOSS-TTSD模型权重、推理代码和 API 接口都已开源,用户可以免费商业使用。
✅自然度和表现力:声音自然度和表现力达到业界领先水平。
✅支持声音事件控制:比如笑声等非语言声音,让语音更有表现力。
开源地址:https://github.com/OpenMOSS/MOSS-TTSD
MOSS-TTSD官网:https://www.open-moss.com/cn/
© 版权声明
1. 本平台所有原创文章(包括但不限于文字、配图、排版设计等原创内容),均遵循 知识共享署名 - 非商业性使用 4.0 国际许可协议(CC BY-NC 4.0) 对外授权,任何主体使用时需严格遵守协议约定。
2. 本平台转载文章的版权归原作者或原版权方所有,文中观点不代表本平台立场。本平台对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。
3. 转载仅为传递行业资讯、实用知识等有益信息,不以盈利为目的;若涉及侵权,本平台在收到原方有效通知后将立即删文并配合处理,不承担额外法律责任。
4. 联系方式:hr@szsyw.cn
5. 微信公众号: 扫码关注

相关文章
没有相关内容!
暂无评论...