ElevenLabs 开源平替爆火，狂揽 2.2 万 Star！

前段时间帮朋友做一档独立播客，需要给两位虚拟嘉宾配音，试了一圈方案，心态有点崩。

用 ElevenLabs 只有几分钟免费额度，对商业项目来说，更重要的是隐私问题。

于是在 GitHub 上找到了 Voicebox ，已斩获了 22000+ Star 的开源免费工具。

作者给它的定位很直接，一个本地优先的声音克隆工作站，定义为 ElevenLabs 的开源替代。

但真正打动我们的，声音数据、模型权重，全留在本地电脑，不经过任何云端。

而且把开源社区里最能打的 7 款 TTS 引擎，全部集成到同一个桌面端里，可按场景灵活切换。

多语种主力是 Qwen3-TTS，支持中英日韩等 10 种语言，还能给指令让模型「说慢一点」。

Chatterbox Multilingual 则覆盖 23 种语言，连阿拉伯语、斯瓦希里语都有。

英文专精则有轻量的 LuxTTS，1GB 显存就能跑。

预设音色路线里，Kokoro 内置了 50 个精选人声，模型只有 82M，CPU 直接起飞。

功能层面最惊喜的，是 Chatterbox Turbo 那套副语言标签。

在输入框里打个 /，就能插入 [laugh]、[sigh]、[gasp] 这些标记。

生成出来的语音，真的会在对应位置出现笑声、叹气。

以前做播客要靠剪辑师后期贴音效，现在一行提示词就搞定。

光克隆还不够，后期处理也得专业。

Voicebox 把 Spotify 的 pedalboard 音频库集成了进来，提供变调、混响、延迟、压缩等 8 种效果器。

自带 4 个预设（机器人音、收音机音、回声室、深沉男声），每个语音资料还能绑定默认效果链，生成即带效果。

长文本这块，最长能生成 50000 字符，自动按句子边界切分。

再用 0 到 200 毫秒的淡入淡出拼接，做有声书、整集播客脚本，丢进去就能跑。

多人对话场景则有 Stories 编辑器，多轨时间线加拖拽剪辑，操作逻辑跟 DAW 一样顺手。

性能方面，Apple Silicon 吃 MLX 后端调用 Metal 加速，比 CPU 快 4 到 5 倍。

NVIDIA 走 CUDA，AMD 走 ROCm，Intel Arc 走 IPEX/XPU，显卡选择很宽松。

底层是 Tauri + Rust，没走 Electron，安装包和内存占用都很克制。

对开发者来说，还有个隐藏好东西：完整的 REST API。

装好后本地会起一个 17493 端口的服务，curl 命令就能生成语音。

游戏动态对白、无障碍朗读、播客自动化流水线，都能直接接上。

安装过程比较省心，macOS 和 Windows 都有打包好的安装包，到 Releases 页面下载 dmg 或 msi 即可。

Linux 目前还没预编译二进制，需要参考官方文档从源码构建，Docker 方案也支持。

第一次启动会下载模型权重，Kokoro 只有 82M，Qwen3-TTS 要几个 G，建议按需下载。

写在最后

过去一年多，TTS 领域迎来了几次关键突破，Qwen3-TTS、Chatterbox、Kokoro、HumeAI TADA 相继开源。

端侧推理框架 MLX 让 Apple Silicon 跑大模型成为常态，能力侧的零件其实早就齐了。

但开源 TTS 生态一直有个断层：模型在 Hugging Face，权重分散在各个仓库。

能跑起来的是会配 Python 的工程师，真正需要声音的创作者反而用不上。

Voicebox 的价值，就是把这层断层补上了。

它让声音合成从命令行工具，变成了一个像 Logic Pro、像 Figma 那样的生产力工具。

这也是为什么它能在短时间内攒到 22000+ Star，社区一直在等这样一个整合者。

本地化加免订阅加一站式这条路，大概率会成为 2026 年开源 AI 工具的主流形态。

云端订阅服务的护城河，正在被一个个这样的项目慢慢填平。

今天的分享到此结束，感谢大家抽空阅读，我们下期再见，Respect！