F5-TTS 安装与使用教程

F5-TTS 安装与使用教程

F5-TTS 是一个 高质量的文本转语音(TTS, Text-to-Speech) 开源项目

1. 环境准备

1.1 安装 Conda(如果未安装)

F5-TTS 依赖 Python 3.10,建议使用 Conda 创建隔离环境。如果您的系统尚未安装 Conda,可以前往 Anaconda 官网Miniconda 官网 下载并安装合适的版本。

1.2 创建 Conda 环境并激活

# 创建 Python 3.10 的 Conda 环境
conda create -n f5-tts python=3.10  

# 激活环境
conda activate f5-tts

2. 安装 PyTorch

NVIDIA-CUDA

pip install torch==2.4.0+cu124 torchaudio==2.4.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124

3. 下载 F5-TTS 源码并安装

# 克隆 F5-TTS 仓库
git clone https://github.com/SWivid/F5-TTS.git
cd F5-TTS

# 安装 F5-TTS
pip install -e .

4. 运行 F5-TTS

F5-TTS 提供了一个 Gradio Web 界面,可用于进行文本转语音推理。运行以下命令即可启动 Web UI:

f5-tts_infer-gradio

启动后,终端会显示一个本地地址

* Running on local URL:  http://127.0.0.1:7860

打开浏览器访问该地址即可使用 F5-TTS 进行文本转语音转换。

5. 音频处理

使用 ffmpeg.m4a 文件转换为 .wav 并剪辑前 15 秒,可以使用以下命令:

ffmpeg -i input.m4a -t 15 -acodec pcm_s16le -ar 44100 -ac 2 output.wav

参数说明:

  • -i input.m4a :输入文件
  • -t 15 :剪辑前 15 秒
  • -acodec pcm_s16le :使用 PCM 16-bit little-endian 编码
  • -ar 44100 :设置采样率为 44100Hz
  • -ac 2 :输出为双声道
  • output.wav :输出文件名

如果你需要从某个时间点(如 30 秒处)开始剪辑 15 秒,可以使用 -ss 选项:

ffmpeg -i input.m4a -ss 30 -t 15 -acodec pcm_s16le -ar 44100 -ac 2 output.wav

这样会从第 30 秒开始截取 15 秒音频并转换为 WAV 格式。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注