小米最新开源!覆盖600+语种方言声音克隆TTS,只需3-10秒声音,可控一键合成声音,超40倍速OmniVoice

小米最新开源!覆盖600+语种方言声音克隆TTS,只需3-10秒声音,可控一键合成声音,超40倍速OmniVoice

2026 年 4 月,小米 AI 实验室旗下的语音团队 k2-fsa 开源了多语言文本转语音模型 OmniVoice。它是业内首个覆盖数百语种的语音克隆 TTS 模型,具有以下特点:
  • 强大的语音克隆能力:只需上传一段 3 到 10 秒的参考音频,输入文字,即可用参考音频中的声音生成新音频。模型内置去噪处理,对参考音频质量要求不高,但仍建议在安静环境录制。
  • 丰富的语音设计功能:可通过文字描述设计声音,支持性别、年龄、音调、方言等属性自由组合,能为有声书、游戏等场景批量生成角色配音。
  • 支持非语言符号控制:可在文本里插入如<beginning of the code>

    (laughter)

    <end of the code>

<beginning of the code>

(sigh)

<end of the code>

<beginning of the code>

(breath)

<end of the code>

等特殊标签,使生成的语音带有笑声、叹气等情感,更自然生动。

  • 精准的发音纠正:针对中文多音字或专有名词,可直接用拼音标注读音,模型会按指定读法生成,解决了很多TTS工具发音出错的问题。
  • 广泛的语言覆盖:支持646种语言,语言覆盖范围是目前所有开源模型里最广的。
  • 高效的推理速度:实时因子(RTF)低至0.025,生成1秒音频只需0.025秒,比实时快40倍,在好显卡上生成40秒音频大概只需1秒左右。
  • 免费且可商用:采用Apache-2.0协议,代码和模型权重放在GitHub和Hugging Face上,个人和商业使用都不收费。
在配置方面,建议使用 NVIDIA GPU,显存 6GB 起步,10GB 以上更稳定,系统以 Linux 为宜,macOS(Apple Silicon)也支持,Windows 可通过 WSL2 或整合包运行,内存 16GB 以上。安装方式有整合包(适合新手)和源码安装(适合有 Python 基础的人)两种。
声明:如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。 注:文中内容出了标题和图片以外,内容为AI所写,如有雷同,请联系wuliuyiwu@foxmail.com删除,谢谢!