开源AI低延时高保真同声传译：hibiki

发表于： 2025年3月19日 2025年3月19日
分类：未分类

作者：钱嘟嘟左卫门
链接：
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

hibiki 是由 Kyutai Labs 开发的开源实时语音翻译模型，专为高保真度的语音到语音（S2ST）和语音到文本（S2TT）翻译设计。
与离线翻译（需要等待源语句结束才能开始翻译）不同，可以直接实时积累上下文信息，从而实时地逐块生成正确的翻译。

GitHub开源关键字：kyutai-labs/hibiki，目前已经有800+个star⭐️。

主要功能：
1. 实时语音到语音翻译（S2ST）：将一种语言的语音实时翻译成另一种语言的语音，保留说话者的音色和语调。
2. 实时语音到文本翻译（S2TT）：将语音实时翻译成目标语言的文本，提供更灵活的使用场景。
3. 语音转换：可以选择性地进行语音转换，保留说话者的声音。
4. 多流架构：利用 Moshi 的多流架构，联合建模源语音和目标语音。
5. 恒定帧率输出：以 12.5Hz 的恒定帧率生成文本和音频 tokens，从而实现连续的音频输出流和带有时间戳的文本翻译。
6. 低延迟翻译：基于实时积累上下文信息，逐块生成翻译内容，延迟极低，接近人类口译水平。
7. 高保真度：生成的语音自然流畅，与源语音的音色和语调高度相似，用户体验接近专业人类口译。

#AI #LLM（大型语言模型） #人工智能 #AI智能翻译 #同声传译 #AI同声传译 #AI开源工具 #AI开源项目 #人工智能开源项目分享 #AI音频翻译 #AI智能翻译助理

admin

2665