新华财经上海9月12日电(记者杜康)12日,上海通用人工智能企业MiniMax发布的一段视频引发关注,这段视频的画面均由其“海螺”视频大模型生成,音乐则由Music 1.5大模型生成。黑人歌手的动情吟唱、萨克斯管的悠扬乐音、架子鼓的激情敲打……Music 1.5生成的音乐颇有感染力,且时长达到4分钟,较上一代音乐生成大模型有了长足进步。
视频发布当日,MiniMax正式发布其新一代音乐生成模型Music 1.5。记者了解到,Music 1.5在音乐生成时长、控制精度、编曲表现等多个维度实现显著提升,生成时长升至4分钟,“一人即乐队”成为现实。
相较于前一代产品,MiniMax 研发团队介绍,Music 1.5首先实现了歌曲强控制力的提升,支持长达4分钟的音乐创作。简单模式下,用户仅需几个关键词或一句自然语言描述,Music 1.5即能交付高完成度的歌曲作品。在高级模式下,可以支持对风格、情绪、场景等不同音乐特征,对歌曲的前奏、主歌、副歌等不同段落歌词编排,极大丰富的用户创作体验。
另外,模型通过对人声唱腔发音技巧进行深度建模,可以生成不同声线、唱腔的音色。突破解决了此前AI生成音乐中人声机械化、缺乏情感表达的问题。同时,模型进一步优化乐器层次的编曲能力,支持中国小众及民族乐器的生成。
MiniMax研发团队表示,Music 1.5的技术突破基于MiniMax在文本、语音、视觉等多模态领域的自研能力积累。通过利用文本模型的能力,Music 1.5对文本描述有更强的理解力和控制力,不仅可对歌曲风格、情感色彩和适用场景进行整体控制,也可对人声特征进行细粒度控制,生成不同声线特质的人声音色。
从市场前景来看,AI音乐生成技术正处于快速发展期。在专业音乐创作领域,AI音乐生成技术可以为音乐人提供AI辅助灵感激发;在影视、游戏、短视频等内容产业,可以快速定制背景音乐;在虚拟偶像和数字娱乐领域,可以量身打造单曲与MV;在企业营销层面,可以为品牌生成专属音频内容。
值得注意的是,MiniMax Music 1.5不仅面向C端用户,还同步面向全球开发者提供API接口。MiniMax表示,将延续“全球最高性价比”的定价策略,让更多开发者能够轻松接入AI音乐生成能力,构建自己的应用、工具或创作工作流。