继文字生成AI模型Wordcraft、视频生成AI模型Imagen Video后,日前谷歌方面公布了对音乐生成AI模型MusicLM的研究成果,该模型可以根据文本或图片生成任何类型的高保真音乐。
在相关声明中,谷歌方面展示了大量生成作品的案例,例如输入文本“雷鬼和电子舞曲的融合,带有空旷的、超凡脱俗的声音,引发迷失在太空中的体验,音乐的设计旨在唤起一种惊奇和敬畏的感觉,同时又适合跳舞”,MusicLM便可生成一段时长30秒的电子音乐;又如以世界名画《跨越阿尔卑斯山圣伯纳隘口的拿破仑》为题,MusicLM生成的音乐便庄重典雅,体现出冬日的凌厉肃杀和英雄主义色彩。
据悉,在MusicLM之前,同类产品还包括Riffusion、Dance Diffusion、人工智能研究机构OpenAI旗下的Jukebox,以及谷歌自家的AudioML等。虽然MusicLM并非首个可以根据文本生成音乐的AI模型,但得益于集成了MuLan+AudioLM和MuLan+w2b-Bert+Soundstream等多个模型的优势,以及庞大的训练数据库(280000小时的音乐),其能制作出作曲特别复杂或保真度特别高的歌曲。
据了解,MusicLM不仅具备强大的辅助功能,可设定具体的乐器、地点、流派、年代、音乐家演奏水平等“参数”,从而对生成的音乐质量进行调整,还能使用计算机通常难以掌握的抽象概念编写曲目。此外MusicLM还具有“故事模式”,可编程特定时间内的音乐风格、氛围和节奏的转变,例如可采用几个按顺序编写的文本描述来创建一种“故事”的叙事旋律。
但需要注意的是,MusicLM也有生成式AI普遍面临共同的风险,即技术不完善、素材侵权、道德争议等。例如在要求MusicLM生成人声时,虽然技术上可行,但结果却可能不如人意,有时会出现歌词意义不明的情况,并且MusicLM生成的音乐中,约有1%是直接从训练集的歌曲中复制而来。
因此谷歌方面暂未向公众发布MusicLM,并且该公司表示,“我们承认需要在未来开展更多工作来应对这些与音乐生成相关的风险,目前没有发布该模型的计划。”
【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】
延伸阅读: