小米最新开源！覆盖600+语种方言声音克隆TTS，只需3-10秒声音，可控一键合成声音，超40倍速OmniVoice-轻舞飞扬网赚

小米最新开源！覆盖600+语种方言声音克隆TTS，只需3-10秒声音，可控一键合成声音，超40倍速OmniVoice

2026 年 4 月，小米 AI 实验室旗下的语音团队 k2-fsa 开源了多语言文本转语音模型 OmniVoice。它是业内首个覆盖数百语种的语音克隆 TTS 模型，具有以下特点：

强大的语音克隆能力：只需上传一段 3 到 10 秒的参考音频，输入文字，即可用参考音频中的声音生成新音频。模型内置去噪处理，对参考音频质量要求不高，但仍建议在安静环境录制。
丰富的语音设计功能：可通过文字描述设计声音，支持性别、年龄、音调、方言等属性自由组合，能为有声书、游戏等场景批量生成角色配音。
支持非语言符号控制：可在文本里插入如<beginning of the code>

(laughter)

<end of the code>

(sigh)

(breath)

等特殊标签，使生成的语音带有笑声、叹气等情感，更自然生动。

精准的发音纠正：针对中文多音字或专有名词，可直接用拼音标注读音，模型会按指定读法生成，解决了很多TTS工具发音出错的问题。
广泛的语言覆盖：支持646种语言，语言覆盖范围是目前所有开源模型里最广的。
高效的推理速度：实时因子（RTF）低至0.025，生成1秒音频只需0.025秒，比实时快40倍，在好显卡上生成40秒音频大概只需1秒左右。
免费且可商用：采用Apache-2.0协议，代码和模型权重放在GitHub和Hugging Face上，个人和商业使用都不收费。

在配置方面，建议使用 NVIDIA GPU，显存 6GB 起步，10GB 以上更稳定，系统以 Linux 为宜，macOS（Apple Silicon）也支持，Windows 可通过 WSL2 或整合包运行，内存 16GB 以上。安装方式有整合包（适合新手）和源码安装（适合有 Python 基础的人）两种。

声明：如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。注：文中内容出了标题和图片以外，内容为AI所写，如有雷同，请联系wuliuyiwu@foxmail.com删除，谢谢！

小米最新开源！覆盖600+语种方言声音克隆TTS，只需3-10秒声音，可控一键合成声音，超40倍速OmniVoice

评论(0)

提示：请文明发言取消回复

近期文章

近期评论

小米最新开源！覆盖600+语种方言声音克隆TTS，只需3-10秒声音，可控一键合成声音，超40倍速OmniVoice

评论(0)

提示：请文明发言 取消回复

相关文章

TK跨境运营全攻略：从基础设置到商业闭环到低成本量产，月净利润超5万美元

游戏全自动搬砖项目，全自动操作，日收益1k+，无门槛简单上手【揭秘】

快递回收自助玩法，亲测只需一部手机就能干，新手小白当天上手，每天半小时白捡5张+【揭秘】

快手短剧蓝海赛道，全托管自动发布，多号操作轻松放大收益

近期文章

近期评论

提示：请文明发言取消回复