Fish Speech - 新的 TTS 解决方案

news/2024/12/22 13:28:38/

文章目录

    • 一、关于 Fish Speech
      • 架构
      • Fish Speech V1.1 技术介绍[视频]
    • 二、配置
      • 1、Linux 配置
      • 2、Docker 配置
    • 三、快速开始
      • 1、设置
        • For Windows User / win用户
        • For Linux User / Linux 用户
      • 2、准备模型
      • 3、WebUI Inference
    • 四、Break-down CLI Inference
      • 1、从语音生成 prompt:
      • 2、从文本生成语义 token:
      • 3、从语义 token 生成人声:

一、关于 Fish Speech

Fish Speech : Brand new TTS solution

  • github : https://github.com/fishaudio/fish-speech (240916 10.7k)
  • Fish Audio demo : https://fish.audio/
  • 快速开始 : https://github.com/fishaudio/fish-speech/blob/main/inference.ipynb
  • 官方文档:https://speech.fish.audio/zh/
  • 示例:https://speech.fish.audio/zh/samples/
  • 视频介绍(bilibili):
    https://www.bilibili.com/video/BV1pu46eVEk7
    https://www.bilibili.com/video/BV1wz421B71D
    https://www.bilibili.com/video/BV1zJ4m1K7cj

架构


Fish Speech V1.1 技术介绍[视频]

Fish Speech V1.1 技术介绍


二、配置


1、Linux 配置

# 创建一个 python 3.10 虚拟环境, 你也可以用 virtualenv
conda create -n fish-speech python=3.10
conda activate fish-speech# 安装 pytorch
pip3 install torch torchvision torchaudio# 安装 fish-speech
pip3 install -e .[stable]# (Ubuntu / Debian 用户) 安装 sox + ffmpeg
apt install libsox-dev ffmpeg

2、Docker 配置

1)安装 NVIDIA Container Toolkit:

Docker 如果想使用 GPU 进行模型训练和推理,需要安装 NVIDIA Container Toolkit :

对于 Ubuntu 用户:

# 添加远程仓库
curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \&& curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list
# 安装 nvidia-container-toolkit
sudo apt-get update
sudo apt-get install -y nvidia-container-toolkit
# 重启 Docker 服务
sudo systemctl restart docker

对于使用其他 Linux 发行版的用户,安装指南请参考:NVIDIA Container Toolkit Install-guide。

注:对于中国大陆的用户,您可能需要使用代理来完成相关工具的安装。


2)拉取并运行 fish-speech 镜像

# 拉取镜像
docker pull fishaudio/fish-speech:latest-dev
# 运行镜像
docker run -it \--name fish-speech \--gpus all \-p 7860:7860 \fishaudio/fish-speech:latest-dev \zsh
# 如果需要使用其他端口,请修改 -p 参数为 YourPort:7860

3)下载模型依赖

确保您在 docker 容器内的终端,然后再从我们的 huggingface 仓库下载所需的 vqganllama 模型。

huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4

对于中国大陆用户,可以通过镜像站下载。

HF_ENDPOINT=https://hf-mirror.com huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4

4)配置环境变量,访问 WebUI

在 docker 容器内的终端,输入 export GRADIO_SERVER_NAME="0.0.0.0" ,从而让外部可以访问 docker 内的 gradio 服务。 接着在 docker 容器内的终端,输入 python tools/webui.py 即可开启 WebUI 服务。

如果是 WSL 或者是 MacOS ,访问 http://localhost:7860 即可打开 WebUI 界面。

如果是部署在服务器上,更换 localhost 为您的服务器 ip 即可。


三、快速开始

1、设置


For Windows User / win用户
!chcp 65001

For Linux User / Linux 用户
import locale
locale.setlocale(locale.LC_ALL, 'en_US.UTF-8')

2、准备模型

# For Chinese users, you probably want to use mirror to accelerate downloading
# !set HF_ENDPOINT=https://hf-mirror.com
# !export HF_ENDPOINT=https://hf-mirror.com !huggingface-cli download fishaudio/fish-speech-1.4 --local-dir checkpoints/fish-speech-1.4/

3、WebUI Inference

You can use --compile to fuse CUDA kernels for faster inference (10x).

!python tools/webui.py \--llama-checkpoint-path checkpoints/fish-speech-1.4 \--decoder-checkpoint-path checkpoints/fish-speech-1.4/firefly-gan-vq-fsq-8x1024-21hz-generator.pth \# --compile

四、Break-down CLI Inference


1、从语音生成 prompt:

你应该能得到一个 fake.npy 文件.

## Enter the path to the audio file here
src_audio = r"D:\PythonProject\vo_hutao_draw_appear.wav"!python tools/vqgan/inference.py \-i {src_audio} \--checkpoint-path "checkpoints/fish-speech-1.4/firefly-gan-vq-fsq-8x1024-21hz-generator.pth"from IPython.display import Audio, display
audio = Audio(filename="fake.wav")
display(audio)

2、从文本生成语义 token:

该命令会在工作目录下创建 codes_N 文件, 其中 N 是从 0 开始的整数.

您可以使用 --compile 来融合 cuda 内核以实现更快的推理 (~30 tokens/秒 -> ~300 tokens/秒)

!python tools/llama/generate.py \--text "hello world" \--prompt-text "The text corresponding to reference audio" \--prompt-tokens "fake.npy" \--checkpoint-path "checkpoints/fish-speech-1.4" \--num-samples 2# --compile

3、从语义 token 生成人声:

!python tools/vqgan/inference.py \-i "codes_0.npy" \--checkpoint-path "checkpoints/fish-speech-1.4/firefly-gan-vq-fsq-8x1024-21hz-generator.pth"from IPython.display import Audio, display
audio = Audio(filename="fake.wav")
display(audio)

2024-09-16(一)


http://www.ppmy.cn/news/1526647.html

相关文章

opencv学习:图像掩码处理和直方图分析及完整代码

图像掩码是一种二值图像,用于控制图像处理操作的应用区域。通过将掩码与原图像进行按位与操作,可以提取或屏蔽图像的特定部分。直方图是图像处理中的一个重要工具,用于分析图像的灰度分布。 实验步骤 使用OpenCV读取图像文件“phone.png”为…

CRM客户关系管理系统开发源码小程序

CRM(Customer Relationship Management)客户关系管理系统是一种用于管理企业与客户之间关系的软件系统。它集成了多种技术和方法,旨在帮助企业更好地理解客户需求、提升客户满意度、增强客户忠诚度,并最终提高业务绩效。CRM系统通…

大模型训练数据库Common Crawl

Common Crawl介绍 ‌‌Common Crawl是一个非营利组织,致力于通过大规模分布式爬虫系统定期抓取整个Web并将其存储在一个可公开访问的数据库中。Common Crawl的数据收集和处理过程包括使用Python开源爬虫工具收集全球范围内的网站数据,并将其上传到‌Com…

Superset二次开发之源码DependencyList.tsx 分析

功能点 路径 superset-frontend\src\dashboard\components\nativeFilters\FiltersConfigModal\FiltersConfigForm\DependencyList.tsx /*** Licensed to the Apache Software Foundation (ASF) under one* or more contributor license agreements. See the NOTICE file* dist…

速盾高防cdn比较好的cdn

随着互联网的快速发展,CDN(Content Delivery Network)作为一种加速网络内容传输的技术应运而生。CDN通过在全球各地建立分布式服务器节点,将用户请求分配到最近的服务器上,从而提高了网络传输速度和用户体验。在众多的…

接口测试从入门到精通项目实战

视频网址:2024最新接口测试从入门到精通项目实战(全套接口测试教程)_哔哩哔哩_bilibili 接口架构设计分析 http协议详解 JMeter 目录介绍 常用组件 执行接口测试 接口文档:tlias智能学习辅助系统接口文档-V1.0-CSDN博客 实战 前…

HP Z2 G3 Mini,有点游戏主机异型那味儿了

HP Z2 G3 Mini,有点游戏主机异型那味儿了 小伙伴们大家好呀,今天我们来围观的是这款HP Z2 G3 Mini主机,当我看到这款主机的第一眼,就有点喜欢上了它。它这个独特而又有个性的外形,丰富的接口,低廉的价格,不错的性能,让我很是喜欢。主界面有HP的Logo以及一个开关机键,侧…

【C语言】分支和循环专题应用

分支和循环专题应用 1、随机数生成1.1rand1.2 srand函数介绍1.3 time函数介绍1.4 设置随机数的范围 2、猜数字游戏的代码及实现 通过了分支和循环的介绍学习之后,我们可以运用分支和循环语句写出一些有趣的代码了,让我们来一起探索吧! 写一个…