AI如何创造音乐?版权又将如何界定?
更新时间:2025-04-20 01:35 浏览量:4
1956 年,计算领域的顶尖科学家齐聚达特茅斯学院参加夏季会议时,“人工智能”一词刚刚出现。
近 70 年后,在该领域经历了数次兴衰循环之后,处于蓬勃发展阶段。过去三年,生成文本的大语言模型发展迅猛,而基于扩散模型的另一类人工智能,正以前所未有的态势冲击创意领域。扩散模型能将随机噪声转化为有序模式,在文本提示或其他输入数据的引导下,生成全新的图像、视频或语音。顶尖的扩散模型生成的内容,与人类创作难分伯仲,也能产出奇异、超现实,一看就不似人类创作的作品。
如今,这些模型正在进军音乐领域。人工智能创作的音乐作品,从交响乐到重金属,正全方位融入我们的生活。这些歌曲可能会出现在流行媒体平台歌单、派对和婚礼播放列表、影视配乐中。
音乐形象
扩散模型在音乐创作中的原理与图像生成类似,但它并非像乐队创作那样,从钢琴和弦开始,逐步加入人声、鼓等元素,而是一次性生成所有音乐元素。这一过程基于这样一个事实:歌曲的诸多复杂特征可以在单个波形中直观呈现,波形表示的是声波幅度随时间的变化,它实际上包含了所有不同乐器和音色的频率总和。
由于波形或类似的频谱图可以像图像一样进行处理,因此可以基于它们创建扩散模型。训练模型时,会向其输入数百万段现有歌曲片段,并为每个片段添加描述标签。生成新歌曲时,模型从纯随机噪声开始,根据提示词中的描述反向生成新的波形。
人工智能音乐公司Udio与Suno 公司在音乐生成模型领域竞争激烈。两家公司都致力于开发让非专业音乐人也能创作音乐的 AI 工具。Suno 规模更大,用户超过 1200 万,并在 2024 年 5 月获得了 1.25 亿美元融资,还与知名音乐人 Timbaland 展开合作;Udio 则在 2024 年 4 月获得了来自 Andreessen Horowitz 等知名投资机构以及音乐家的 1000 万美元种子轮融资。
目前来看,Udio 和 Suno 的成果显示,相当一部分人似乎并不在意自己听的音乐是由人类创作还是机器生成。Suno 为创作者提供了艺术家页面,部分页面吸引了大量粉丝,这些创作者完全借助 AI 生成歌曲,还常常搭配 AI 生成的艺术家形象。他们并非传统意义上的音乐人,而是精通提示词输入的高手,他们创作的作品很难归属于某一位作曲家或歌手。
然而,音乐产业对此持抵制态度。2024 年 6 月,这两家公司被主要唱片公司起诉,相关诉讼仍在进行中。环球、索尼等唱片公司指控 AI 模型在训练过程中使用了大量受版权保护的音乐,生成的歌曲“模仿真实人类录音品质”。
在针对 Suno 的诉讼案例中,就提到了一首类似 ABBA 风格的歌曲《Prancing Queen》。Suno 未回应诉讼置评请求,但在 8 月发布的声明中,首席执行官Mikey Shulman在公司博客上表示,公司在公开网络获取音乐用于训练,其中确实包含受版权保护的内容,但他认为“学习并不构成侵权”;Udio 的代表则表示,公司不会对未决诉讼发表评论。诉讼发生时,Udio 发布声明称,其模型设有过滤器,可确保不会复制受版权保护的作品或模仿艺术家的声音。
美国版权局在 1 月份发布的指导意见让情况更加复杂。该意见指出,如果人工智能生成的作品融入了大量人类投入,就可以获得版权。一个月后,纽约的一位艺术家获得了在 AI 辅助下创作的视觉艺术作品的首个版权。或许不久后,第一首 AI 生成的歌曲也将获得版权。
新颖性和模仿性
这些法律案件陷入了一个模糊地带,与其他 AI 相关的法庭争端类似。核心问题在于,是否允许 AI 模型使用受版权保护的内容进行训练,以及生成的歌曲是否构成对人类艺术家风格的不当复制。
无论法院最终如何判决,AI 音乐都有可能以某种形式蓬勃发展。有报道称,YouTube 一直在与主要唱片公司洽谈,希望获得音乐授权用于 AI 训练。Meta 近期也扩大了与环球音乐集团的合作协议,这意味着 AI 生成音乐的授权或许已提上日程。
如果 AI 音乐持续发展,它究竟有哪些价值?这涉及3个关键因素:训练数据、扩散模型本身以及提示词。模型的质量取决于其学习的音乐库及其描述的丰富程度,描述越精准,模型效果越好。模型的架构决定了它如何运用所学知识生成歌曲。而输入模型的提示词,以及模型对提示词的“理解”程度,同样至关重要。
AI 生成的音乐究竟是创作还是简单复制训练数据?可以说,最关键的问题在于训练数据的广泛性、多样性以及标注的准确性。Suno 和 Udio 都未公开其训练集中包含哪些音乐,不过在诉讼过程中,这些细节可能会被披露。
Udio 表示,歌曲的标注方式对模型极为重要。简单的描述可能只是确定歌曲的流派,而更细致的描述还可以包括歌曲的情感基调,比如忧郁、振奋或平静等,专业描述则可能涉及 2-5-1 和弦进行或特定音阶。Udio 称,他们通过机器标注和人工标注相结合的方式来实现。
竞争激烈的 AI 音乐生成平台还需要不断学习新的歌曲,否则其生成的作品会逐渐过时。目前,AI 生成的音乐依赖于人类创作的艺术作品,但未来,AI 音乐模型或许会利用自身的输出成果进行训练,这一方法已在其他 AI 领域展开试验。
由于模型从随机噪声采样开始生成音乐,结果具有不确定性,即便输入相同的提示词,每次生成的歌曲也会不同。许多扩散模型开发者,包括 Udio,还会在生成过程中额外添加随机性,即对每一步生成的波形进行微调,希望借此让输出结果更具趣味性或真实感。
如果创造性产出的定义是既新颖又有用,那么机器或许能在“有用”这一标准上与人类媲美,但在“新颖性”方面,人类更胜一筹。
为了验证这一观点,我花了几天时间体验 Udio 的模型。使用该模型生成 30 秒的音乐样本大约需要一两分钟,如果是付费版本,则可以生成完整的歌曲。我选择了 12 种音乐流派,为每种流派生成歌曲样本,并找到人类创作的类似风格歌曲。然后我设计了一个测验,让同事们分辨哪些歌曲是 AI 创作的。
最终测试结果的平均正确率为 46%。对于某些流派,尤其是器乐曲,听众常常判断错误。在观察大家测试的过程中我发现,他们认为是 AI 合成歌曲的特征,比如奇怪的发声效果、诡异的歌词,往往并不可靠。不出所料,人们对不太熟悉的音乐流派判断准确率更低。有些人对乡村音乐或灵魂乐的判断比较准确,但很多人在爵士乐、古典钢琴曲或流行乐的判断上表现不佳。创造力研究专家Beaty的测试正确率为 66%,作曲家Brandt的正确率为 50%(不过他在管弦乐和钢琴奏鸣曲的测试中回答得很准确)。
需要明确的是,这些 AI 生成的歌曲并非完全归功于模型本身,如果没有人类艺术家的作品作为训练数据,这些歌曲根本无法诞生。但仅通过简单的提示词,该模型就能生成很多人难以辨别是否为机器创作的歌曲。在聚会上播放这些歌曲,也不太容易被人察觉异样。我还发现了两首自己很喜欢的歌曲,即使是专业音乐人或对音乐很挑剔的人,也不会觉得突兀。不过,听起来真实并不等同于听起来有创意。这些歌曲缺乏独特的风格,没有贝多芬式的“神来之笔”,也没有突破流派限制或展现出主题上的大胆创新。在测试中,人们有时很难判断一首歌究竟是 AI 生成的,还是质量欠佳的人类作品。
人们或许会好奇这些音乐背后的创作者是谁。但归根结底,无论其中有多少人工智能成分,也无论有多少人类成分,它终究是艺术,人们会根据其美学价值的优劣来评判它。
原文链接: