F5-TTS 安装与使用教程

预计阅读时间: 5 分钟

F5-TTS 是一个 高质量的文本转语音（TTS, Text-to-Speech） 开源项目

F5-TTS 依赖 Python 3.10，建议使用 Conda 创建隔离环境。如果您的系统尚未安装 Conda，可以前往 Anaconda 官网或 Miniconda 官网下载并安装合适的版本。

# 创建 Python 3.10 的 Conda 环境
conda create -n f5-tts python=3.10  

# 激活环境
conda activate f5-tts

NVIDIA-CUDA

pip install torch==2.4.0+cu124 torchaudio==2.4.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124

# 克隆 F5-TTS 仓库
git clone https://github.com/SWivid/F5-TTS.git
cd F5-TTS

# 安装 F5-TTS
pip install -e .

F5-TTS 提供了一个 Gradio Web 界面，可用于进行文本转语音推理。运行以下命令即可启动 Web UI：

f5-tts_infer-gradio

启动后，终端会显示一个本地地址

* Running on local URL:  http://127.0.0.1:7860

打开浏览器访问该地址即可使用 F5-TTS 进行文本转语音转换。

使用 ffmpeg 将 .m4a 文件转换为 .wav 并剪辑前 15 秒，可以使用以下命令：

ffmpeg -i input.m4a -t 15 -acodec pcm_s16le -ar 44100 -ac 2 output.wav

如果你需要从某个时间点（如 30 秒处）开始剪辑 15 秒，可以使用 -ss 选项：

ffmpeg -i input.m4a -ss 30 -t 15 -acodec pcm_s16le -ar 44100 -ac 2 output.wav

这样会从第 30 秒开始截取 15 秒音频并转换为 WAV 格式。

启鑫的黑板报