AI音色克隆全实操视频课|零基础保姆式教学,人声仿真合成,小白也能快速上手

准备工作:需一台服务器,登录后在终端输入/bin/bash /root/run.sh启动 Gradio WebUI 服务。若端口被占用,可修改/root/run.sh中–port参数。启动成功后,使用 Chrome 90+、Edge 90 + 或 Firefox 88 + 浏览器,访问http://服务器IP:7860。确保上传的参考音频为 WAV 或 MP3 格式,时长在 3-10 秒之间,人声清晰无杂音。
核心操作:常用 “3 秒极速复刻” 模式,在 “合成文本” 框输入内容,上传或录制 3-10 秒的参考音频,填写与音频相同的参考文本,勾选 “流式推理” 后点击 “生成音频”,即可得到克隆音色的音频,右键可下载。还可使用 “跨语种复刻”“自然语言控制” 等模式,实现用中文音色说外文或按特定要求发音等功能。
ViiTor AI
声音复刻:访问ViiTor AI 官网,注册登录后进入 “音色库”,点击创建复刻音色。上传或录制 3-15 秒的干净清晰音频或视频素材,给音色命名后点击 “合成”,系统会自动建模,完成后音色会出现在 “个人的” 音色库中。
配音应用:登录后点击左侧 “配音工作室”,创建新任务。输入配音内容,添加说话人并选择复刻好的音色,试听确认无误后,可一键导出音频用于视频等场景。
ChatTTS
环境搭建:需安装 Conda(推荐 Miniconda),确保 8GB 内存(16GB 更佳),可选 NVIDIA GPU。克隆项目git clone https://github.com/2noise/ChatTTS,进入项目目录cd ChatTTS。创建虚拟环境conda create -n chattts python=3.11并激活conda activate chattts,安装依赖pip install -r requirements.txt,可使用国内镜像源加速。手动下载模型权重到ChatTTS/asset/目录。
克隆操作:启动 Web UI,运行python examples/web/webui.py,默认端口为 8080。在文本框输入文字,点击 “生成语音” 即可得到克隆语音。也可通过 Speaker Embedding 生成自定义音色,具体可参考相关代码操作。
GPT-SoVITS
环境搭建:Windows 用户访问项目仓库获取源码,双击运行go-webui.bat文件。Linux/macOS 用户打开终端,执行git clone https://gitcode.com/GitHub_Trending/gp/GPT-SoVITS,进入目录cd GPT-SoVITS,赋予权限chmod +x install.sh,运行./install.sh。安装完成后,访问http://localhost:9874进入操作界面。
音频处理:准备 1-5 分钟的清晰音频,在安静环境下录制,保持距离麦克风 30-50 厘米,包含不同语调。使用tools/uvr5/目录下的工具分离人声,通过tools/slice_audio.py将音频切割为 3-10 秒片段,运行tools/cmd-denoise.py去除背景噪音。
模型训练与测试:使用 ASR 工具生成文本标注,保存为metadata.csv。在 Web 界面 “训练” 选项卡设置参数进行训练,训练完成后进行测试,可根据相似度、自然度等评估模型性能,若效果不佳,可通过增加数据量、调整参数等方式优化。

评论(0)