Bark:基于转换器的文本到音频模型

news/2025/3/26 13:32:27/

Bark是由Suno创建的一个基于转换器的文本到音频模型。Bark可以生成高度逼真的多语言语音以及其他音频,包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流,如大笑、叹息和哭泣。为了支持研究社区,我们正在提供对预先训练的模型检查点的访问,以便进行推理。

1、安装

pip install git+https://github.com/suno-ai/bark.git

or

git clone https://github.com/suno-ai/bark
cd bark && pip install . 

 2、支持的语言

LanguageStatus
English (en)
German (de)
Spanish (es)
French (fr)
Hindi (hi)
Italian (it)
Japanese (ja)
Korean (ko)
Polish (pl)
Portuguese (pt)
Russian (ru)
Turkish (tr)
Chinese, simplified (zh)

3、基本用法

from bark import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav
from IPython.display import Audio

# download and load all models
preload_models()

# generate audio from text
text_prompt = """
     Hello, my name is Suno. And, uh — and I like pizza. [laughs] 
     But I also have other interests such as playing tic tac toe.
"""
audio_array = generate_audio(text_prompt)

# save audio to disk
write_wav("bark_generation.wav", SAMPLE_RATE, audio_array)
  
# play text in notebook
Audio(audio_array, rate=SAMPLE_RATE)

如果转换其它语言,比如日文

text_prompt = """추석은 내가 가장 좋아하는 명절이다. 나는 며칠 동안 휴식을 취하고 친구 및 가족과 시간을 보낼 수 있습니다.
"""
audio_array = generate_audio(text_prompt)

音乐:

text_prompt = """♪ In the jungle, the mighty jungle, the lion barks tonight ♪
"""
audio_array = generate_audio(text_prompt)

语言预置(只列出中文的):

text_prompt = """I have a silky smooth voice, and today I will tell you about the exercise regimen of the common sloth.
"""
audio_array = generate_audio(text_prompt, history_prompt="v2/en_speaker_1")

 一些非语音的声音:

  • [laughter]
  • [laughs]
  • [sighs]
  • [music]
  • [gasps]
  • [clears throat]
  •  or ... for hesitations
  •  for song lyrics
  • CAPITALIZATION for emphasis of a word
  • [MAN] and [WOMAN] to bias Bark toward male and female speakers, respectively

 


http://www.ppmy.cn/news/58381.html

相关文章

SDL库入门:掌握跨平台游戏开发和多媒体编程

目录标题 1.引言2. SDL基本概念与架构SDL的设计原则与模块架构SDL版本:SDL 1.2与SDL 2.0跨平台支持:Windows、Linux、macOS等 3. 初始化与窗口创建SDL初始化与库设置窗口创建与渲染器初始化设置视频模式与全屏切换 4. 图形绘制与纹理管理SDL\_Surface与S…

【从0到1了解Libarchive】Libarchive的用途意义以及成功入门Libarchive

目录 0 如果你还不知道Libarchive是什么请一定要先看一下 1 简介 1.1 为什么实现Libarchive 1.2 到底都有谁在用呢? 1.3 Libarchive都有哪些功能 1.4 我们可以通过这些获取更多信息 1.5 如何贡献 2 Libarchive归档与压缩 3 Libarchive编译 4 Libarchive简…

AutoHotKey简单入门

简单入门 快捷键 ^j::Send, Hello world! Return^j::代表CtrlJ,其中^代表Ctrl键 Send命令:在光标处输入Hello world! 也就是说,你按下CtrlJ后,将会输入字符串Hello world! Return即返回 热字串 ::ftw::Free the whales Ret…

数据结构(六)—— 二叉树(5)

文章目录 经典 700 二叉搜索树中的搜索开塞递归迭代 1 404 左叶子之和递归 2 513 找树左下角的值层序遍历递归 3 112 路径总和递归回溯迭代 stack(看看即可) 4 113 路径总和 II 此题需要前博客 二叉树(4)回溯 的基础递归回溯 5 61…

1.0 Vue的编译和运行

1、编程范式:命令式和声明式 编程范式是指一种程序语言的代码风格、样式,每一种范式都包含了代码特征和结构,以及处理错误的方式。 例如现在需要实现生成一个div模块,其显示的文本内容为hello world,添加一个点击事件…

【Python百日进阶-Web开发-Feffery】Day613- 趣味Dash_13:PDF转换中心的项目优化

文章目录 一、环境准备1.1 初始化基础`Python + Dash`环境1.2 本项目中需要增加的第三方包二、本项目B站视频讲解三、页面效果四、项目源码一、环境准备 1.1 初始化基础Python + Dash环境 CSDN文档参见:https://blog.csdn.net/yuetaope/article/details/129795264 Bilibili视…

让语言学习更简单的 WordFlow

作为一个英语并不是那么特别好的计算机专业学生,长期积累英语的学习对个人发展还是有意义的。简单来说,我在语言上最大的两个问题,一个自己「不理解」,另一个是自己「不会表达」。 上述两个问题主要体现在口语层面,而…

R语言的贝叶斯时空数据模型

时间-空间数据(以下简称“时空数据”)是最重要的观测数据形式之一,很多科学研究的数据都以时空数据的形式得以呈现,而科学研究目的可以归结为挖掘时空数据中的规律。另一方面,贝叶斯统计学作为与传统统计学…