有哪些好的开源中文语音合成系统？

作者：钱嘟嘟左卫门
链接：https://www.zhihu.com/question/307676972/answer/110893020561
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

阿里通义团队的开源AI语音合成模型：CosyVoice

简介：

CosyVoice 是一个由阿里巴巴通义团队开发的开源多语言大型语音生成模型，支持多种语言和跨语言场景，并提供低延迟的流式语音生成能力。

为各种应用场景生成自然、流畅且富有表现力的语音。最近已经更新到cosyvoice 2.0版本，各项功能都有比较大的升级。

GitHub开源关键字：FunAudioLLM/CosyVoice^[1]，目前已经有11.1k个star⭐️。可以访问他们的项目官网查^[2]看相关资料，而且有很多在线例子可以听一下。以及arxiv文章^[3]和huggingface地址^[4]体验一下。

1. 多语言支持：支持中文、英语、日语、韩语以及多种中文方言（如粤语、四川话、上海话、天津话、武汉话等）。

2. 零样本语音克隆：只需 3 秒的提示语音，即可克隆任意说话者的语音。

3. 跨语言和混合语言：支持跨语言和混合语言的零样本语音克隆。例如用中文提示语音生成英文语音。

4. 超低延迟双向流式支持：集成了离线和流式建模技术，实现低至 150 毫秒的延迟，同时保持高质量的音频输出。

5. 超高精度：在 Seed-TTS 评估集的硬测试集上取得最低的字符错误率。

6. 韵律和音质：在韵律、音质和情感对齐方面显著增强，MOS 评分从 5.4 提高到 5.53。

7. 情感和方言灵活性：支持更精细的情感控制和口音调整。