一款超逼真TTS模型发布且支持带情感的语音克隆
Llasa TTS 是香港科技大学开发的一款基于 LLaMA 微调的 文本到语音(TTS)模型,支持中英双语生成。
不仅支持中英文的文本转语音功能,还支持语音克隆,只需15S的声音素材即可完美复刻,还能克隆目标语音的情感特色。
Llasa TTS 是香港科技大学开发的一款基于 LLaMA 微调的文本到语音(TTS)模型,支持中英双语生成。
不仅支持中英文的文本转语音功能,还支持语音克隆,只需 15S 的声音素材即可完美复刻,还能克隆目标语音的情感特色。
模型训练使用了 250,000 小时的中英双语语音数据,与传统的 TTS 模型相比,Llasa 在语音自然性、情感表达以及风格匹配上都有显著提升。
不仅能从纯文本生成语音,还支持通过语音样例提示生成具有类似风格和情感的语音,表现力极其出色。无论是为语音助手生成自然对话,还是用于配音和个性化语音场景,Llasa 都是一个不错的选择
在 HuggingFace 下载模型权重:
- Llasa-1B 模型:https://huggingface.co/HKUSTAudio/Llasa-1B
- Llasa-3B 模型:https://huggingface.co/HKUSTAud
作者:人工智能头条
链接:https://zhuanlan.zhihu.com/p/20611356587
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。