F5-TTS 安装与使用教程
F5-TTS 是一个 高质量的文本转语音(TTS, Text-to-Speech) 开源项目
1. 环境准备
1.1 安装 Conda(如果未安装)
F5-TTS 依赖 Python 3.10,建议使用 Conda 创建隔离环境。如果您的系统尚未安装 Conda,可以前往 Anaconda 官网 或 Miniconda 官网 下载并安装合适的版本。
1.2 创建 Conda 环境并激活
# 创建 Python 3.10 的 Conda 环境
conda create -n f5-tts python=3.10
# 激活环境
conda activate f5-tts
2. 安装 PyTorch
NVIDIA-CUDA
pip install torch==2.4.0+cu124 torchaudio==2.4.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124
3. 下载 F5-TTS 源码并安装
# 克隆 F5-TTS 仓库
git clone https://github.com/SWivid/F5-TTS.git
cd F5-TTS
# 安装 F5-TTS
pip install -e .
4. 运行 F5-TTS
F5-TTS 提供了一个 Gradio Web 界面,可用于进行文本转语音推理。运行以下命令即可启动 Web UI:
f5-tts_infer-gradio
启动后,终端会显示一个本地地址
* Running on local URL: http://127.0.0.1:7860
打开浏览器访问该地址即可使用 F5-TTS 进行文本转语音转换。
5. 音频处理
使用 ffmpeg
将 .m4a
文件转换为 .wav
并剪辑前 15 秒,可以使用以下命令:
ffmpeg -i input.m4a -t 15 -acodec pcm_s16le -ar 44100 -ac 2 output.wav
参数说明:
-i input.m4a
:输入文件-t 15
:剪辑前 15 秒-acodec pcm_s16le
:使用 PCM 16-bit little-endian 编码-ar 44100
:设置采样率为 44100Hz-ac 2
:输出为双声道output.wav
:输出文件名
如果你需要从某个时间点(如 30 秒处)开始剪辑 15 秒,可以使用 -ss
选项:
ffmpeg -i input.m4a -ss 30 -t 15 -acodec pcm_s16le -ar 44100 -ac 2 output.wav
这样会从第 30 秒开始截取 15 秒音频并转换为 WAV 格式。
发表回复