Github开源文本转语音神器Spark-TTS开源了,克隆声音仅需3秒?

* 戳上方蓝字“牛皮糖不吹牛”关注我

大家好,我是牛皮糖!今天给大家介绍 一款让全网科技圈沸腾的开源项目——Spark-TTS!这个由港科大、上海交大等顶尖团队打造的文本转语音模型,正在GitHub上狂揽star,它带来的三大黑科技彻底颠覆行业认知!

无需训练直接克隆声音上传任意10秒语音片段,瞬间复刻声纹特征!无论是跨语种的中英混说,还是模仿特定语调,通通零样本实现。自媒体博主惊呼:”我的百万声库要失业了!”

Spark-TTS 完全基于 Qwen2.5 构建,无需使用流匹配等额外生成模型。它无需依赖单独的模型来生成声学特征,而是直接从 LLM 预测的代码中重建音频。这种方法简化了流程,提高了效率并降低了复杂性。

中英文自由切换一句话里中文接英文毫无卡顿,发音自然到像真人!测试视频中”Welcome to 上海迪士尼乐园”的丝滑切换,让网友直呼”这简直母语者水平”

️ 一句话定制专属声线调整性别/音高/语速参数,秒造虚拟主播!开发者实测:用”温柔御姐+1.2倍速”生成的《三体》有声书,播放量暴涨300%!

更震撼的是✔️ 完全开源免费,个人商用均可✔️ 支持本地部署,无需联网✔️ 最低4G显存即可运行

三步极速体验

  1. 1. 执行git clone秒装工具库
  2. 2. 输入python webui.py启动可视化界面
  3. 3. 拖入语音文件+输入文字=生成专属音频

⚠️ 友情提示技术虽强,请遵守伦理规范!严禁用于伪造他人声音等违法行为,开发者已在代码库植入水印追踪功能~

GitHub搜索”Spark-TTS”

#人工智能 #黑科技 #程序员 喜欢记得「转发」+「在看」哦~ 你希望用这个技术做什么?评论区聊聊!

动图封面

·················END·················

推荐阅读

• Github 资料项目合集

• 4核 16G 就能 RAGFlow Quick start 快速入门

• github 7.8k star 将小爱音箱接入 ChatGPT 和豆包,改造成你的专属语音助手。