AI研习丨智能音乐生成技术与元宇宙

更新时间：2025-01-24 17:21 浏览量：36

文/张克俊

1 背景

1.1 元宇宙与音乐艺术

元宇宙为音乐艺术提供了生长的土壤，未来人们可以在上面自由创作，可以与更多人交流学习。同时，元宇宙中虚拟现实等一系列技术为艺术家提供了艺术展现的新方式，有望突破时空限制，使得我们可以很容易地打造一个音乐艺术的生态圈，进而极大地提升音乐创作者和听众的情感共鸣体验。比如，现场的报告通常比线上的体验好，因为线下不仅有分享者与听者之间的交流，还有听众与听众之间的交流（体验）。因此，我们认为，随着元宇宙技术的发展，AIGC领域特别是智能音乐生成领域将需要更多地考虑高质量生成、人机协作生成和个性化生成等问题。

1.2 元宇宙背景下音乐人机共创

有鉴于此，我们开始思考如何在元宇宙背景下开展智能音乐生成研究，并有效解决上述问题。我们认为，想要满足元宇宙中对音乐生成的要求，不但需要重视人机共创，也需要重视开放式协作。人机共创和开放式协作将相辅相成。下面从开放性协作、人机共创角度介绍我们实验室四个方面的工作。

第一，人机独立发展阶段（Guo，et al，2022）。人机独立创作无合作，依赖数据。

第二，知识融入阶段 (Chen，et al，2022）。将人类的创作知识融入AI，人与机器有协作。

第三，认知拓展阶段（Wang，et al，2022）。不仅有协作，还可以在其中找到更高层面的认知拓展-更高的需求。

第四，理解升级阶段。丰富创作策略，实现人机共创，达到人机融合。

值得一提的是，这四个阶段并没有严格界定的顺序或先后，仅是一个对人机协作范式不断迭代的过程。

2 研究

2.1 人机独立

人机独立阶段，我们主要研究由大数据引导的歌曲翻译任务（人机独立）。

相较于传统的文本翻译，歌曲翻译需要满足更多的要求。包括以下三点：①可信度，即翻译结果需要保留原始语义；②和谐度，即翻译得到的歌词与原曲所构成的有机整体是和谐的，尽量避免误听的情况；③艺术性，即歌词不能像普通文本一样平铺直叙，需要有美感，也就是看起来像“歌词”。其中，想要达到第二点和谐度，首先需要保证词曲的长度相近，避免难以对齐的情况；其次则需要使旋律节奏与歌词节奏相呼应；最后，旋律走向也需要与歌词音调走向呼应。因此，单纯基于文本翻译模型的歌词翻译系统会出现原有节奏被破坏、歌词无法唱出来等问题。为此我们从局部层面和全局层面挖掘乐理知识和翻译约束，采用无监督学习的方式，引导式地进行自动歌曲翻译。

首先，使用海量文本翻译数据训练一个翻译模型，以确保翻译可信度；其次，增加乐理约束以确保和谐度，具体来说，在训练阶段增加长度标签以控制模型输出长度，在解码阶段添加节奏和音高的对齐约束；然后，利用非对齐歌词数据及少量的歌词翻译数据对基础翻译模型的语言模型部分继续优化，以生成更像歌词的翻译结果。

模型可以被分解为：①训练阶段，风格化与长度约束的歌词翻译模型；②推理阶段，音高与节奏约束的波束搜索。

实际中，如图1所示，GagaST模型成功平衡语义和可唱性，在自动和人工评估中取得不错的效果，能够很好地找到某个英文用中文的哪些歌词来替代，既能达到意思相近又能达到旋律相近。

在这项研究中，人不需要参与，也不需要协作就可以实现预定目标，因此我们定义这类研究为“人机独立”。

2.2 知识融入

语言学家、音乐家研究表明，歌词与旋律关系集中在节奏、音高和结构三方面。因此，我们开始探索融合节奏、音高和结构等音乐知识进行歌词到旋律的生成（知识融入）。近期，我们提出了ReLyMe——即人类作词、机器作旋律，一种基于人类词曲创作知识（歌词）的旋律生成方法（见图 2）。ReLyMe对节奏、音高和结构这三方面的歌词旋律关系分别建模。音高方面，我们考虑三个不同的粒度：①单个声调的音高形状；②相邻声调的音高过渡；③完整句子的音高走向。节奏方面，首先强拍需对应关键字，弱拍对应助词；同时旋律的停顿位置与歌词断句位置也要相对应；结构方面，相同结构的歌词需要对应重复的旋律。客观实验结果与主观实验结果表明，ReLyMe提升了SongMASS、TeleMelody等歌词到旋律生成模型的表现，有效地将词曲关系纳入神经网络模型，提高听众对生成的旋律的感知度。如图2所示，蓝色表示音高；绿色表示旋律相近性。

值得一提的是，古时候的名家往往身兼词曲，就像《诗经》中所有的诗都是可以唱出来的。现在有很多人只会作词，不会作曲。未来，元宇宙背景下的“分工”将越来越细，因此对合作或者协作要求就越来越高。

2.3 认知拓展

那么，如何实现人与机器更深度、紧密的共创、协作（认知拓展）？比如人类作旋律、机器作伴奏，如何解决实时人机协作难题？解决这一难题对算法的要求非常高，主要体现在机器伴奏需尽可能缩短延时、保持高质量。于是，我们提出了SongDriver。如图3所示，它借用了同声传译的思路，融合了同声传译中的人类经验提出并行机制，提升了伴奏的同步性；融合了申克理论提取的乐理知识作为特征——提升了伴奏的听感质量。也即消除了实时伴奏的逻辑延迟和误差累积，实现了较高的同步性、较稳定的听感质量。

2.4 理解升级阶段

最后，我们的工作聚焦于理解音乐本质，把音乐分析理论融入进来（理解升级），让音乐生成变得可分析、可控。在这项工作中，我们除了对单独的音乐特征进行抽取，更重视音乐特征之间的关系，从而满足更多的个性化需求。有鉴于申克/GTTM层级化的分析方式能将分离的元素联系起来，同时为用户的个性化需求留下空间，我们将其引入到我们最新的研究中，如图4所示。

具体来说，我们根据心理学实证调查了音乐底层存在的长期依赖结构，提出了知识增强的旋律骨架引导的层级式旋律生成模型，先预测骨干的发展，再填充骨干的间隙来完成旋律创作，提升了旋律的结构性和音乐性。通过实验验证，基于专业音乐知识提取的骨架具备有效性，且旋律生成的质量和可控性相比端到端更优。实际上，申克GTTM中的结构和延长，如同装修房间的硬装和软装，有稳定性一面、也有个性化一面。我们的房间会频繁装修，我们会改动硬件结构也会改动软件结构，要不断个性化、可控的装修（人机协作）。

3 结束语

人类和AI共同生活在这个世界已经成为共识，但并不是每个人都有音乐创作能力，但是每个人和AI组成的合体却能够迸发出巨大的艺术创作能力。在未来的元宇宙中，可能每个人都会携带自己的AI来与他人交流、合作和共创，因此音乐创作等艺术创作的形式也将会大不相同。同时，如图5所示，元宇宙中带来的情感共鸣提升，除了创作者之间的情感交流之外，也将体现在创作者和听众之间、听众和听众之间。