有哪些好的开源中文语音合成系统?
作者:钱嘟嘟左卫门
链接:https://www.zhihu.com/question/307676972/answer/110893020561
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
链接:https://www.zhihu.com/question/307676972/answer/110893020561
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
阿里通义团队的开源AI语音合成模型:CosyVoice

简介:
CosyVoice 是一个由阿里巴巴通义团队开发的开源多语言大型语音生成模型,支持多种语言和跨语言场景,并提供低延迟的流式语音生成能力。
为各种应用场景生成自然、流畅且富有表现力的语音。最近已经更新到cosyvoice 2.0版本,各项功能都有比较大的升级。
GitHub开源关键字:FunAudioLLM/CosyVoice[1],目前已经有11.1k个star⭐️。可以访问他们的项目官网查[2]看相关资料,而且有很多在线例子可以听一下。以及arxiv文章[3]和huggingface地址[4]体验一下。

主要功能特点:
1. 多语言支持:支持中文、英语、日语、韩语以及多种中文方言(如粤语、四川话、上海话、天津话、武汉话等) 。
2. 零样本语音克隆:只需 3 秒的提示语音,即可克隆任意说话者的语音。
3. 跨语言和混合语言:支持跨语言和混合语言的零样本语音克隆。例如用中文提示语音生成英文语音。
4. 超低延迟双向流式支持:集成了离线和流式建模技术,实现低至 150 毫秒的延迟,同时保持高质量的音频输出 。
5. 超高精度:在 Seed-TTS 评估集的硬测试集上取得最低的字符错误率。
6. 韵律和音质:在韵律、音质和情感对齐方面显著增强,MOS 评分从 5.4 提高到 5.53。
7. 情感和方言灵活性:支持更精细的情感控制和口音调整 。
多语言:



主要技术:
