贾朔演讲全文：探索音乐创作的技术平权——AI音乐的创新实践

更新时间：2024-12-12 16:54 浏览量：4

12月5日-6日，由智东西与智猩猩联合主办的2024中国生成式AI大会（上海站）在上海圆满举行。在大会首日的主会场上，趣丸科技副总裁贾朔以《探索音乐创作的技术平权——AI音乐的创新实践》为题发表了演讲。

贾朔认为，2024年是AIGC音乐爆发元年，人工智能的创新发展大大降低了音乐创作门槛，音乐创作赛道终于迎来了“创作平权”时刻，普通用户也能用低门槛的方式体验音乐创作的乐趣。音乐生成之所以是被LLM浪潮覆盖的最后一种模态，成为漏网之鱼，源自于音乐的特殊性——时间序列性、多层次结构、情感一致性、评估主观模糊性。

目前Diffusion in transformer（DiT）成为大多数闭源的主流选择，而国产AI音乐的歌声自然度更是突破人耳识别阈值，效果比肩美国头部模型。

贾朔分享了人与音乐的AI交互形式的变化，从文生音乐，到三键成曲，再到哼唱成曲。今年7月份，天谱乐全球首发多模态音乐生成模型，支持视频成曲和图片成曲功能，一键根据用户视频或图片生成一首完整的音乐。

此外，贾朔在现场首次预告天谱乐的新功能——MidiRender，功能类比于一个精准、可控音乐版的Control Net，专业的创作用户可以输入自己的音乐构想，让天谱乐AI根据这个原创音乐片段填充歌词、完成编曲。

以下为贾朔的演讲实录：

01、2024年是AI音乐爆发元年，迎来“创作平权”时刻

2024年是一个重要的年份，音乐创作赛道终于迎来“创作平权”时刻。

文字、图片、视频这些模态的创作平权问题早在移动互联网时代已经被解决。一个普通人想要创作这些，都可以轻松实现。因为移动互联网时代的一个主线任务，就是不断降低创作门槛，实现全民UGC内容创作。

但是，音乐属于移动互联网时代的一个漏网之鱼。普通人想要用简单的操作在手机上完成低门槛音乐创作，是比较难的。到了2024年，AIGC到来的时代，这个任务终于要被完成了。

这里整理了各个模态成熟的时间线。可以会看到这一波生成式人工智能的浪潮。有几个标志性的事件，比如说文本生成，代表事件像ChatGPT率先发布3.5版本，把文本生成，特别是基于transformer的交互对话把热度给点燃了。紧随其后是文生图也在2023年前后成熟，普通人输入一段简单的文字咒语，就可以输出非常专业的图片效果，甚至是近似照片的图像。文生视频是在2023年底到2024年年初，Sora的出现让文生视频率先进入AIGC成熟的临界点。反倒是音乐在这几个主流模态里面，它是最后一个成熟的。

02、天然特殊性让音乐生成需要克服四大难题

为什么音乐总是最后一个？它有哪些特殊性？我们天谱乐团队深耕这个行业很长时间，对音乐生成有一些理解，主要反映在四个方面。

首先，它需要很强的“时间序列性”。一首音乐三分钟，它的时间顺序要遵循音乐上的规律跟结构。如果结构错了，人可以很容易识别出来它不自然，它不是人类生成的。

其次，是“多层次结构”。大家如果平时听音乐比较多的话，会留意到一首音乐的编曲里面，会有非常多的空间编排。比如说人声可能是靠前或靠后，同时你的左侧可能有一个架子鼓，右侧有一个大提琴或小提琴，这些会带来非常多的空间结构信息，在生成领域它同样需要解决和克服。

第三点，情感一致性。众所周知，音乐是用来统一情绪的一种工具。同时，如果一个音乐作品80%的部分非常符合逻辑，但是唯独有一两个音稍微有点瑕疵，达不到人类对这个音乐的效果预期。人类就会瞬间识别出来。如果同样的事情发生在文生图，一些小瑕疵可能不会产生特别严重的问题。

第四点，评价主观模糊性。大家做大模型、做AIGC生成，经常做一些跑分题库去量化、评价一个模型效果好坏？但是在音乐领域，它的评价非常主观。你问一个人这个音乐好不好，他会回答喜欢或者不喜欢。但是，对一个音乐的喜好评价，并没有太多建设性的反馈价值。同时，这个评价有模糊性、主观性，更多取决于个人的审美偏好，而非音乐质量高低。

03、国产AI音乐歌声自然度比肩美国头部模型

在当下这个时间节点，做一个音乐生成大模型或产品的选择空间并不大。音乐生成不像其它模态有成熟的开源方案。事实上，无论在国内还是国外，基本都是闭源项目主导，要么从预训练环节开始自己训练，要么直接套壳。

我们看到，在技术路线选择上，今年有一个比较明显的趋势，Diffusion in Transformer（DiT）成为大多数闭源的主流选择。包括Suno CEO在一个公开分享中也提到，Transformer更适合处理时序结构上的问题，而Diffusion更适合处理一些高维空间问题。

当然，尽管大家的技术路线选择一致，但是具体的架构设计还是存在非常大的差异。例如造车必须有四个轮子，但是轮子应该怎么设计大家各有不同。

今年除了搞技术的对音乐感兴趣，音乐人也很关心。我们跟一些音乐人沟通，现在音乐生成效果这么好，什么问题导致他们无法使用这些AI工具。他们回答两个点，第一点，人声的自然度问题。举个例子，在3D建模有一个很有名的效应，叫做恐怖谷效应。即一个东西已经有九分像，就差10%，但是人类可以很快识别出来，并且对它产生厌恶和反抗情绪。

为了攻克这个问题，天谱乐团队从模型结构上调整了几十版，实验上百次，最后我们认为拿出了一个比较有竞争力的结果。

我们拿天谱乐最新的版本跟音乐人交流，音乐人给了很高的评价。他们说AI音乐这个赛道仿佛到了围棋遇到AlphaGo的时刻。同时，我们也找了音乐高校学生，他们具备专业的音乐训练，可以比普通人给出更专业的评价。我们做了一个盲测，用相同的Prompt测试了50条输出音乐，让音乐高校学生盲测给天谱乐和国内外产品打分，最终结果是天谱乐AI最新2.2版本的中文人声唱词已经达到一个新的天花板水平，歌声自然度更是突破人耳识别阈值，效果比肩美国头部模型。

04、首创图频生曲功能革新AI音乐交互形式

文生音乐是最适合的交互方式吗？很多人觉得“摇歌”这个事情就像开盲盒，觉得“音乐效果不错，但是跟我有什么关系呢？

针对这个命题，天谱乐团队做了一系列的探索，我们在2023年推出“三键成曲”模式，用户输入三个音即可扩写形成一首完整歌曲。2024年天谱乐进一步推出“哼唱成曲”，很多人在洗澡的时候会随心哼唱一段，同样可以扩写成歌曲。当然，这些可能都还不够简单，怎样才能让音乐创作更简单呢？

类似移动互联网时期的手机摄像头就是最平权的输入媒介，人人都能拿起手机拍一拍照。我们在想，如果用户旅游中拍了一张照片、一段视频，天谱乐是否可以帮他生成一个完整的作品？

带着这个想法，天谱乐首发了全球首个多模态音乐生成模型。这个模型可以理解画面的内容、情绪，从而自动匹配最合适的歌曲。

05、AI如何为人类创造更大价值

2024年整个AI音乐赛道的门槛终于被彻底打下来了。图片创作、视频创作、音乐创作确实到了人类历史最简单的一个时代。

前几周我跟一个湖畔大学的老师交流，他提到一个新的问题：天谱乐这个AI音乐工具能帮助人类作曲家作出更好的音乐吗？当时我思考了很久，我们做这个模型目的是什么？只是让更多人可以轻松创作出60分的音乐吗？还是可以创造更大的价值，辅助人类不断突破创意天花板，创作出更好的内容呢？

我们发现市面上普遍的音乐生成大模型，除了人声不好之外，很重要的问题是现在的AI不听话，不按照作曲家、音乐人的意图创作，AI过多地自由发挥。

所以基于这个思考，我们拿出了一个新功能，今天是第一次正式地对外亮相，天谱乐下一个版本会发布的一个叫MidiRender的功能。大概介绍一下这个功能。在文生图领域有一个非常重要的发展节点，就是Control Net的出现，让文生图变得非常可控。AI音乐也需要类似的一个东西。第一步是核心的创意部分，我们还是希望人类作曲家来主导，用乐器、编曲软件都好，先去弹一段基础的动机旋律。第二步，在以前人类作曲家从创作一段动机旋律到完成一首完整的创作，往往要花几周甚至几个月的时间。而现在，天谱乐AI完全有能力来加速完成这个动作。大家听DEMO可以感受到，最终出来的音乐跟最初人类作曲家的动机旋律是完全匹配的。这也是我们认为AI大模型作为工具，可以为艺术家服务的一个事情，而不是去抢夺创作主导权。

翻开人类历史，人类可能真正擅长的有两件事情。第一件事情是犯重复的错误，比如周期性的谜之自信，觉得可以创造出比自己更聪明的东西。第二件事情是人类非常擅长制造工具。人类每一次制造一个新的工具，都在不断拓展自己能力的外延，所以今天人类才彻底成为这个星球的霸主。所以我认为技术最终还是要服务于人，技术的出现不是为了取代人类工作，而是帮助人类创造更美丽的东西。

以上是贾朔演讲内容的完整整理。

贾朔演讲全文：探索音乐创作的技术平权——AI音乐的创新实践

相似文章