开源AI低延时高保真同声传译:hibiki
作者:钱嘟嘟左卫门
链接:
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
链接:
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
hibiki 是由 Kyutai Labs 开发的开源实时语音翻译模型,专为高保真度的语音到语音(S2ST)和语音到文本(S2TT)翻译设计。
与离线翻译(需要等待源语句结束才能开始翻译)不同,可以直接实时积累上下文信息,从而实时地逐块生成正确的翻译 。
与离线翻译(需要等待源语句结束才能开始翻译)不同,可以直接实时积累上下文信息,从而实时地逐块生成正确的翻译 。
GitHub开源关键字:kyutai-labs/hibiki,目前已经有800+个star⭐️。
主要功能:
1. 实时语音到语音翻译(S2ST):将一种语言的语音实时翻译成另一种语言的语音,保留说话者的音色和语调。
2. 实时语音到文本翻译(S2TT):将语音实时翻译成目标语言的文本,提供更灵活的使用场景。
3. 语音转换:可以选择性地进行语音转换,保留说话者的声音 。
4. 多流架构:利用 Moshi 的多流架构,联合建模源语音和目标语音 。
5. 恒定帧率输出:以 12.5Hz 的恒定帧率生成文本和音频 tokens,从而实现连续的音频输出流和带有时间戳的文本翻译 。
6. 低延迟翻译:基于实时积累上下文信息,逐块生成翻译内容,延迟极低,接近人类口译水平。
7. 高保真度:生成的语音自然流畅,与源语音的音色和语调高度相似,用户体验接近专业人类口译。
#AI #LLM(大型语言模型) #人工智能 #AI智能翻译 #同声传译 #AI同声传译 #AI开源工具 #AI开源项目 #人工智能开源项目分享 #AI音频翻译 #AI智能翻译助理



