ElevenLabs 开源平替爆火,狂揽 2.2 万 Star!

前段时间帮朋友做一档独立播客,需要给两位虚拟嘉宾配音,试了一圈方案,心态有点崩。

用 ElevenLabs 只有几分钟免费额度,对商业项目来说,更重要的是隐私问题。

于是在 GitHub 上找到了 Voicebox ,已斩获了 22000+ Star 的开源免费工具。

作者给它的定位很直接,一个本地优先的声音克隆工作站,定义为 ElevenLabs 的开源替代。

但真正打动我们的,声音数据、模型权重,全留在本地电脑,不经过任何云端。

而且把开源社区里最能打的 7 款 TTS 引擎,全部集成到同一个桌面端里,可按场景灵活切换。

多语种主力是 Qwen3-TTS,支持中英日韩等 10 种语言,还能给指令让模型「说慢一点」。

Chatterbox Multilingual 则覆盖 23 种语言,连阿拉伯语、斯瓦希里语都有。

英文专精则有轻量的 LuxTTS,1GB 显存就能跑。

预设音色路线里,Kokoro 内置了 50 个精选人声,模型只有 82M,CPU 直接起飞。

功能层面最惊喜的,是 Chatterbox Turbo 那套副语言标签。

在输入框里打个 /,就能插入 [laugh][sigh][gasp] 这些标记。

生成出来的语音,真的会在对应位置出现笑声、叹气。

以前做播客要靠剪辑师后期贴音效,现在一行提示词就搞定。

光克隆还不够,后期处理也得专业。

Voicebox 把 Spotify 的 pedalboard 音频库集成了进来,提供变调、混响、延迟、压缩等 8 种效果器。

自带 4 个预设(机器人音、收音机音、回声室、深沉男声),每个语音资料还能绑定默认效果链,生成即带效果。

长文本这块,最长能生成 50000 字符,自动按句子边界切分。

再用 0 到 200 毫秒的淡入淡出拼接,做有声书、整集播客脚本,丢进去就能跑。

多人对话场景则有 Stories 编辑器,多轨时间线加拖拽剪辑,操作逻辑跟 DAW 一样顺手。

性能方面,Apple Silicon 吃 MLX 后端调用 Metal 加速,比 CPU 快 4 到 5 倍。

NVIDIA 走 CUDA,AMD 走 ROCm,Intel Arc 走 IPEX/XPU,显卡选择很宽松。

底层是 Tauri + Rust,没走 Electron,安装包和内存占用都很克制。

对开发者来说,还有个隐藏好东西:完整的 REST API。

装好后本地会起一个 17493 端口的服务,curl 命令就能生成语音。

游戏动态对白、无障碍朗读、播客自动化流水线,都能直接接上。

安装过程比较省心,macOS 和 Windows 都有打包好的安装包,到 Releases 页面下载 dmg 或 msi 即可。

Linux 目前还没预编译二进制,需要参考官方文档从源码构建,Docker 方案也支持。

第一次启动会下载模型权重,Kokoro 只有 82M,Qwen3-TTS 要几个 G,建议按需下载。

写在最后

过去一年多,TTS 领域迎来了几次关键突破,Qwen3-TTS、Chatterbox、Kokoro、HumeAI TADA 相继开源。

端侧推理框架 MLX 让 Apple Silicon 跑大模型成为常态,能力侧的零件其实早就齐了。

但开源 TTS 生态一直有个断层:模型在 Hugging Face,权重分散在各个仓库。

能跑起来的是会配 Python 的工程师,真正需要声音的创作者反而用不上。

Voicebox 的价值,就是把这层断层补上了。

它让声音合成从命令行工具,变成了一个像 Logic Pro、像 Figma 那样的生产力工具。

这也是为什么它能在短时间内攒到 22000+ Star,社区一直在等这样一个整合者。

本地化加免订阅加一站式这条路,大概率会成为 2026 年开源 AI 工具的主流形态。

云端订阅服务的护城河,正在被一个个这样的项目慢慢填平。

GitHub 项目地址:github.com/jamiepine/vo

今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!