音乐是人类最古老也最普遍的艺术形式之一,它能够表达我们的情感、想法和文化。音乐的创作过程既有艺术性,也有逻辑性,它涉及到词曲、旋律、节奏、结构、风格等多个方面。随着人工智能(AI)技术的发展,越来越多的研究者和企业开始探索如何利用 AI 来辅助或自动生成音乐,从而开拓音乐创作的新可能。在这篇博客中,我们将介绍一些音乐 AI 大模型的原理和应用,以及它们对音乐创作的影响和挑战。
首先,我们来看看谷歌最近发布的全新的 AI 模型——MusicLM,该模型可以从文本甚至图像中生成高保真音乐,也就是说可以把一段文字、一幅画转化为歌曲,且曲风多样。MusicLM 是继文字生成 AI 模型 Wordcraft、视频生成工具 Imagen Video 之后,谷歌又一次推出生成式 AI 模型工具,这一次谷歌将目标瞄准了音乐领域。目前,谷歌还未向公众开放 MusicLM,因为版权等问题。如果你想了解更多关于 MusicLM 的细节和实验结果,请参考这篇论文(链接)。
MusicLM 的原理是将条件音乐生成过程视为分层序列到序列建模任务,它可以生成 24 kHz 的音乐。MusicLM 的训练数据集包含了 28 万小时的音乐数据,涵盖了多种风格和乐器。MusicLM 的实验表明,它在音频质量和对文本描述的遵守方面都优于以前的系统。此外,MusicLM 还可以以文本和旋律为条件,因为它可以根据文本标题中描述的风格转换口哨和哼唱的旋律。
接下来,我们将看看除了谷歌之外,还有哪些音乐 AI 大模型。
相关的代表性例子
- Muzic,微软亚洲研究院开源的 AI 音乐研究项目,包括音乐理解和生成方面的五个研究工作,如音乐预训练模型 MusicBERT,词曲写作模型 SongMASS,说唱生成模型 DeepRapper 等。这些工作利用了深度学习和音乐知识相结合的方法来实现不同方面的音乐创作。如果你想体验一下 Muzic 的音乐生成效果,请访问这个网站(链接)。
- MusicGen,Meta 发布的 AI 音乐模型,可以根据文本或图像生成不同风格的音乐,如古典、爵士、摇滚等。MusicGen 是基于深度神经网络和变分自编码器(VAE)的方法来实现多样化和高质量的音乐生成。如果你想体验一下 MusicGen 的音乐生成效果,请访问这个网站(链接)。
- Jukebox,OpenAI 发布的 AI 音乐模型,可以根据歌手、风格或歌词生成音乐,也可以继续现有的歌曲或合成新的歌手。Jukebox 是基于自回归的变换器(Transformer)模型来实现音乐生成,它可以从海量的音乐数据中学习音乐的风格、情感和结构。如果你想体验一下 Jukebox 的音乐生成效果,请访问这个网站(链接)。
国内的代表性例子
中国国内有做AI音乐模型的公司,根据网上的一些资料,以下是一些代表性的例子:
- 音律闪动,是一家以AI写歌为主营业务的公司,正在打磨一款名为「歌歌AI写歌」的AI歌曲创作类产品。该产品采用了多个专业模型和专家系统组成而成的AI产品,可以根据用户的输入条件生成包括歌词、人声、旋律在内的完整音乐。
- 我要写歌,是一款基于深度学习和音乐知识相结合的方法来实现不同方面的音乐创作的APP。该APP可以根据用户输入的歌名、风格、情感等信息,自动生成歌词、旋律和编曲,并提供多种人声合成选项。
- 音乐云,是一款基于大数据和人工智能技术的音乐创作平台。该平台可以根据用户输入的关键词或图像,自动生成适合的音乐素材,并提供在线编辑、混音、导出等功能。
这些公司的AI音乐模型采用了不同的技术路线,有的是符号音乐生成路线,有的是大模型路线,有的是AI剪辑路线。具体来说:
这些音乐 AI 大模型都展示了深度学习在音乐创作方面的强大能力和潜力。它们可以从海量的数据中学习音乐知识和规律,并根据不同的输入条件生成多样化和高质量的音乐。它们也可以帮助人类音乐创作者提供灵感和参考,并拓展他们的创作空间和表达方式。
当然,AI 音乐也面临着一些挑战和问题,比如版权归属、创意价值、伦理道德等。AI 音乐是否会取代人类音乐创作者?AI 音乐是否能够真正理解和传达音乐的情感和意义?AI 音乐是否会造成音乐的同质化和失真?这些都是值得我们思考和讨论的问题。
通过这篇博客,我们了解了一些音乐 AI 大模型的原理和应用,以及它们对音乐创作的影响和挑战。我们认为,AI 音乐大模型是一个非常有趣和有前景的研究领域,它将音乐与 AI 相结合,创造了音乐创作的新可能。我们期待看到更多的 AI 音乐大模型的出现,也期待看到更多的人类与 AI 的音乐合作,共同推动音乐艺术的发展和创新。如果你对 AI 音乐感兴趣,欢迎在评论区留言分享你的想法和见解。
符号音乐生成路线,是指先标注大量乐谱,再训练模型,最后生成的结果也是乐谱。这种方式类似NLP模型的训练,但弊端在于生成的结果是乐谱而非音乐,还需要额外的算法或工具将乐谱转换成音乐。
大模型路线,是指直接用海量音频训练模型,最后生成的结果是音频。这种方式利用了深度神经网络和变分自编码器(VAE)或自回归变换器(Transformer)等方法来实现多样化和高质量的音乐生成。但这种方式需要高昂的算力和资金,而且在音质、音色、歌词等方面还有待提升。
AI剪辑路线,是指积累庞大的歌曲素材库,再对这些素材打标,接着用AI进行剪辑。这种方式并不属于真正意义上的AI生成,而是利用AI进行素材拼接。这种方式需要维护庞大的素材库,并且生成效果不够流畅和自然。
总之,中国国内有做AI音乐模型的公司,并且有一些创新和突破。但目前AI音乐模型还面临着一些挑战和问题,比如版权归属、创意价值、伦理道德等。AI音乐是否会取代人类音乐创作者?AI音乐是否能够真正理解和传达音乐的情感和意义?AI音乐是否会造成音乐的同质化和失真?这些都是值得我们思考和讨论的问题。
信息源
(1) AIGC产业链全梳理 – 知乎 – 知乎专栏. https://zhuanlan.zhihu.com/p/584419740.
(2) 结合自研AI模型和音乐专业能力,「音律闪动」希望让每个人都能成为专业音乐创作者|Chat AI-36氪. https://36kr.com/p/2233426064633729.
(3) 中信建投:打通AI音乐技术新路径,大模型时代加速发展|界面新闻 · 快讯. https://www.jiemian.com/article/9387676.html.
(4) 2022 年人工智能音乐发展现状:初创公司、音乐人及挑战 – 知乎. https://zhuanlan.zhihu.com/p/556608208.