结合我的个人实践、产品体验和用户调研,我总结了AI音乐生成在哪些应用场景中发挥了价值?有哪些代表产品?哪些需求暂未满足?我会按照AI音乐生成、AI歌声生成/转换、AI音效生成这三个方向来阐述对应的用户场景和AI产品,希望对大家了解AI音乐目前进展及未来趋势有所帮助。
本文为上篇,AI音乐生成。
我将AI音乐生成的实际应用归纳为5个场景,生成技术在音乐视频和功能型音乐创作中正在发挥商业价值,社交娱乐和业余音乐创作场景未产生明确价值,专业创作领域尚待AI融合进工作流。
今年2月春节期间,我正在围绕“过年”这个项目主题,制作AI音乐视频。与「背景音乐」不同之处在于,MV里的歌曲具有独立欣赏的价值,且歌曲和视频画面在节奏、内容、情感上相互呼应。我需要先找到合适的歌曲,再根据歌词来制作对应的画面。
我的期望是:歌词描绘一个「过年」的故事,措辞风格是悠扬温馨的中国风,内容易于我后续用画面呈现,歌曲时长50s左右。最初,我尝试去音乐素材网站直接购买一首现有的歌曲,但没有找到合适的,主要原因是曲库歌曲的歌词内容、歌曲风格和长度很难完全符合我的期望。与其买一首不那么满意的歌曲又硬着头皮配画面,不如从头制作一首完全符合我要求的歌。可是我完全不懂音乐创作,于是利用AI生成音乐就成了救命稻草。当时(2月份)我所能使用的只有Suno,虽然那时它只发展到V2模型但也勉强够用,同时通过订阅会员,我也获得了商业使用权。
随后,我开始构想歌曲内容:歌曲围绕过年团圆的主题,讲述一位打工喵回到家乡、触景生情闪回童年、时光流转重聚当下的故事。整体工作流:1.ChatGPT+Suno来制作歌曲2.StableDiffusion制作分镜图片3.Runway+少量即梦和可灵制作动画4.剪映里剪辑视频,并添加音乐、音效、字幕等
歌词
歌词创作非常重要,它直接决定了我的故事内容和每个视频画面,由于Suno内置的歌词生成功能不支持多轮对话修改,因此我借助了ChatGPT来生成歌词。
在这个过程里,需要提供给ChatGPT以下信息:
歌词生成后,再根据结果对于押韵、字数、措辞等方面不断提供修改意见直到满意为止。
最终确定下歌词:
[verse]站台瑞雪静落灯火通明映归途老城炊烟轻绕岁月流转梦回初[verse]小桥流水声细童年欢笑随风起夜幕垂蒲扇轻外婆故事月下听[chorus]此刻家中围炉共话团圆灯火摇曳映照如初笑颜旅途终点也是新的起点
歌曲
歌词确定了以后,就可以打开Suno制作歌曲了。打开页面上方的「Custom」开关(即自定义歌词、否则suno会随机作词)填入歌词和「StyleOfMusic」(歌曲风格描述),我这个案例填的是「Chinesefolk」(传统中式歌曲)。
最后点击生成即可以开始抽卡,我最终抽了二三十首选到了合适的歌曲。我对音乐创作还知之甚少,好在并不是要交付严肃的音乐创作,对于这个视频项目来说已基本满足要求。
视频
最近我用Runway最新的Gen-3模型重制了这个音乐视频:
对于MV这类创作,曲库里的歌曲无法满足创作者对于歌词内容、歌曲风格和长度的要求。AI音乐生成工具则可以发挥价值,帮助创作者制作满足要求的歌曲。
上述音乐视频制作流程是「歌曲->视频->剪辑」,而为视频配乐的流程是「视频->歌曲->剪辑」,无论哪种方式,最后一步都离不开剪辑工具。
有些视频剪辑工具在编辑场景里集成了AI音乐生成的能力,相当于视频、配乐、剪辑都在同一个工具里完成,比如剪映:
这种方式把生成能力和工作场景相结合,可以减少工具之间的切换。但是和专业的AI音乐生成工具相比,这些内置AI功能,在生成方式和控制精度上做了许多简化,模型效果也较为一般。追求更高质量更可控的音乐作品,仍然需要使用那些更成熟、更全面的生成工具。
相对于有独立欣赏价值的音乐,功能型音乐(FunctionalMusic)的创作目的不是为了艺术表达,而是为服务于某种功能和效果。它一般有这些特点:无人声,不吸引听众注意,旋律简单重复,相对模式化。AI生成的音乐目前在艺术性和独特性方面存在限制,功能型音乐的这些特点,刚好弱化了技术在这些方面的不足。
因此,相比于注重艺术价值的音乐创作,功能型音乐的领域更容易被AI技术渗透和改变。在这波生成式AI浪潮前,已经有些早期的音乐生成技术应用在这个领域了。
功能型音乐具体有哪些类型呢?
vibrantsynths,coolhigh-energy,dramaticcrescendos,fashiondynamicbasslines“充满活力的合成器、潮酷有能量,戏剧性的渐强效果,时尚动感的低音线条。”这段提示词是让ChatGPT来生成的,我给到的信息是:“我准备制作一个视频,展示一种潮酷的视觉炸裂的效果,我希望使用AI生成背景音乐。请你帮我写AI配乐的文生音乐prompt,要求描述出音乐的风格、流派、乐器等,表达精简,并用逗号分隔。”
目前使用SunoV3.5模型可以在几秒之内获得视频配乐,效率远高于在素材网站的分类目录下逐一试听。
这是音乐搭配视频画面的最终效果:
推特作者@JulieW.Design也经常利用Suno和Udio来给她的短片配乐:
其中MusicFX的「DJ模式」,允许用户通过拖动提示词对应的滑块来调整相应的权重,并基于此,生成不间断、无限长的音乐。就像DJ打碟一样,可以根据现场氛围变化实时调整音乐。网站的动效设计也非常丝滑:
前几个月谷歌在I/O大会上,还真请来了一位DJ来现场演示效果:
如果你不想亲自制作,也有一些网站定位于音乐素材售卖,提供了大量现成的功能型音乐,比如Mubert、Pixabay、AudioJungle、Musicbed等。你可以通过分类目录去试听并购买歌曲,许多视频创作者都会在这些网站上寻找配乐。
我注意到身边朋友有一些低频的音乐创作需求。比如在一些特殊时刻如,生日、纪念日,送别日等,用AI歌曲来传递专属祝福。还有的喜欢用AI生成的歌曲帮助他们去记录当下的感受,将情感用音乐保存下来。
朋友1
周一上班很疲惫,但想起了周末和娃一起在公园里的画面,教他骑车,虽然身体很累但是内心很放松。特别怀念那个感受,就把它写成了一首歌单曲循环,听着听着心情也轻快了许多。通过歌曲,那时候的感受被具象化了,让我可以更深刻地体会它。
朋友2
我也深有感触。之前参加一个写作疗愈营,我写了一首诗。后来我用Suno把这首诗变成了一首歌,确实更加具象化了,多维度地记录下了那种感受。
作品在视频号:「天天的多重宇宙」
《我的阿勒泰》上映期间我非常痴迷,有几个画面深深植入我的脑海:巴太和文秀坐在树上看彩虹、月光下在波光粼粼的河边散步、在桦树林里告白、在草原上自由奔跑。还有几句很喜欢的台词比如:「再颠簸的生活,也要闪亮地过」、「我清楚地看见你」。除了二刷三刷电视剧,我也很希望能用音乐来记录和表达我脑海里的这些美好。
于是我先把以上这些细节信息通通告诉GPT来构思歌词,虽然GPT写的词还是有点文绉绉的缺乏些灵性,但私下用来记录感受也足够了。(自己玩,没有做MV的负担,对歌词的要求也就没先前那么高)
接着,再通过歌词和提示词让Suno(这次用了V3.5模型)生成歌曲,最后的成品我个人还是挺满意的:
让我惊喜的地方1.我没有使用元标签注明男女声,最后自动生成的男女对唱配合得很不错2.唱完了我提供的歌词,还自由发挥增加了桥段和尾声3.自由发挥了一段女生的哼唱,这段我很喜欢未达预期的地方1.标签里指定了乐器“冬不拉”(剧里常用配器,是哈萨克族传统乐器),但是这个乐器音色没有生成2.音质还是有待提升
这类自娱自乐的制作,我没有投入太多精力仔细雕琢,如果追求精细的控制,还是要多多参考WaytoAGI的文档。
一些社交娱乐平台如「唱鸭」、「给麦」,在现有的音乐、游戏、直播功能基础上,引入了AI歌曲发布作为一个新的互动方式。
然而根据我的使用体验和观察,这些AI歌曲的生成质量还有较大提升空间,而且基于歌曲来互动的需求也不强烈。因此我推测这个功能可能难以促成深度互动和实现长期留存。
还有一种社交存在于人和AI之间,之前GPT-4o的发布会上展示了模型的音乐能力,AI的交流互动方式变得更多样更自然,能聊也能唱。
这我联想到了电影《Her》里,AI女主跟随人类男主弹奏的尤克里里一起唱《Themoonsong》,以及博主@午夜狂暴哈士奇狗和她的ChatGPT男友(DAN模式)一起唱《TakeMeHome,CountryRoad》的场景。
和其他音乐人合作,比较慢,3年也没发几首歌,有了AI一个月能发好几首。
我询问了这位朋友关于营收的情况,头部的IP歌曲(明星、头部创作者)占据着最大的流量,而像他这样的素人创作者则需要购买流量来提升歌曲曝光进而获得相应的收益,因此还暂未实现盈利。
上述场景主要涉及非专业创作,而在专业创作领域,目前这波一键生成技术还无法辅助创作过程。
比如:在作曲过程中,AI基于已有的主旋律片段,提供拓展或变奏建议;在编曲过程中,AI提供乐器搭配建议,优化音乐整体结构。然而,目前的AI音乐大模型生成的是完整的歌曲音频,还有待技术创新来生成可编辑的MIDI文件。同时,也需要设计合理的交互方式,使其无缝嵌入到DAW中。
虽然这个AI功能还无法辅助专业人士,不过这个APP的视觉设计和动画真的很精致。
1、模型对提示词的理解有限,难以准确理解用户意图2、编辑歌词的方式不灵活,只有匹配联想或重新生成,无法通过对话来精确修改3、伴奏单一,采用了预设模板库,无法提供个性化的内容
最后,补充近几个月,AI音乐生成工具可控性方面的提升
1-Suno、Udio支持音频成曲
基于用户提供的音频片段来生成歌曲,音频可以是用户哼唱的旋律,敲击出的节奏,或者弹奏的和弦,生成方式会参考该音频的旋律或节奏或和弦进行(输入若带有音色,也会参考)。可以辅助创作者把自己的初步灵感延展为一个完整的作品。
我曾做了三段测试:
1、输入猫叫->输出一首Lo-Fi2、输入我的哼唱(两句杰伦的晴天)->输出一段民谣3、输入一段beatbox(来自网络)->输出一段rap
我的这个demo还意外地被Suno官方推特账号转发了
2-Udio局部修改
对某部分的旋律、歌词不满意,则可以进行二次修改,但不影响歌曲其他部分。
3-Udio重新混音
保持歌曲歌词和主旋律不变,转换为新的曲风。
remix前Adayinthelifeofaprofessionalimaginaryfriend,indiepop,tweepop
remix后Adayinthelifeofaprofessionalimaginaryfriend,jazz
从今年2月份我首次使用AI音乐工具至今,虽然自己觉得过了很久很久,但是这在生成式技术的发展历程里,也只是短暂的一瞬。
在实践和记录的过程里,我体会到生成技术发展给创作者带来的便利和惊喜。除此之外,我也学习到了一些音乐方面的基础理论知识,虽然依旧非常粗浅,但音乐鉴赏能力提升了,也更能体会到音乐的美妙和专业创作的不易,对创作者有了更深的钦佩和敬意。
最近一直在听《黑神话:悟空》交响乐版的《云宫迅音》和合唱版的《敢问路在何方》,每次都会涌起波澜壮阔的情感,音乐仿佛穿越了时光,带着每个人独有的回忆和感悟触动内心。AI会作为创作者手中的工具来提供辅助,而人类独有的情感体验、艺术创新,会成为音乐作品里最打动人心的部分。正如一位音乐人所说:
好作品可遇不可求,虽然有公式,但科学无法完全抵达答案。正是如此多的不确定性,音乐创作才如此美妙。
下篇将聊聊AI歌声合成/转换、AI音效生成这两个方向上的应用案例和代表工具。感谢阅读,下篇见。