MiniMax Music API 用歌词和提示词生成 AI 音乐

使用最新的 MiniMax Music API 2.6,通过歌词或文字描述生成原创歌曲。支持 music-2.0、2.5、2.6 和翻唱模型。无论你在开发音乐 App、写歌工具还是内容平台,都能找到合适的 AI 音乐生成方案。

输入

string

Input audio file (MP3/WAV)

string

Input vocal-removed audio file (MP3/WAV) for generating instrumental version

string

ASS subtitle file (must contain word-by-word effects)

string

Video resolution (e.g., 1280x720)

boolean

Whether to render audio visualization (disabling this will not render waves/spectrum)

boolean

Whether to force use spectrum when visualization is enabled; otherwise follow viz_type setting

string

Visualization type: waves (waveform, faster) / spectrum (frequency spectrum, slower)

integer

Visualization area height (in pixels)

string

Position: top / bottom / center

string

Color in waves mode (0xRRGGBB or color name); color scheme in spectrum mode (rainbow/moreland/viridis etc.)

number

Visualization layer opacity 0-1

string

Optional: Directory containing required Chinese fonts (TTF/OTF) for ASS font matching

integer

Output frame rate (reducing this value can significantly speed up processing, e.g., 24)

string

x264 encoding preset (ultrafast/superfast/veryfast/faster/fast/medium...)

integer

x264 CRF value (larger value means smaller file size and faster speed, range is usually 18-32, recommended 26-30 for acceleration)

integer

FFmpeg thread count (0 means auto-detect)

integer

Filter graph parallel thread count (0 lets FFmpeg choose automatically)

integer

Visualization layer refresh frame rate (0 means follow the fps value)

string

Optional: Comma-separated list of image paths (jpg/png/webp etc.)

number

Display duration per image (in seconds), only effective when image list is provided

string

Optional: Comma-separated list of video paths (mp4/mov etc.)

boolean

Whether to loop playback when video duration is shorter than audio duration

string

Optional: Title displayed on the first frame of the video

string

Optional: Author displayed on the first frame of the video

输出

MiniMax Music API 的核心能力

高质量音乐生成

基于先进的 AI 模型,根据文本提示生成专业级音乐。无论是背景配乐、完整歌曲还是纯音乐,都能获得媲美人类作曲的录音室级音频。

多模型灵活选择

提供四种模型:music-2.0 追求速度,music-2.5 平衡质量与速度,music-2.6 代表最新技术,music-cover 支持生成歌曲翻唱。每种模型都为不同场景优化,从实时生成到高保真制作。

歌词生成歌曲

上传自定义歌词,系统会将其与生成的旋律智能同步,自动匹配节奏、措辞和情感色彩。非常适合写歌工具、AI 歌手、卡拉 OK 应用和自动化广告曲创作。

毫秒级快速响应

经过优化的推理引擎可在数秒内返回生成的音乐。大多数请求在 60 秒内完成,music-2.0 模型通常在 15-20 秒内返回结果,满足实时应用的需求。

一套 API,多种玩法

更快地推出 AI 音乐功能

文本生成音乐

描述情绪、风格、乐器或节奏——系统会将文字转化为完整的音乐作品,无需任何音乐基础。

1

风格迁移

生成流行、低保真、古典、电子、爵士、摇滚、氛围等多种特定风格的音乐,精准控制作品调性。

2

歌词自动同步

上传歌词后,系统会自动对齐人声节奏、音节重音和乐句结构,自动处理主歌-副歌和桥段过渡。

3

灵活的输出格式

返回可下载的 URL 或十六进制编码的音频数据,可无缝集成到移动应用、Web 平台或后端服务中。

4

歌曲翻唱模型

将现有歌曲改造成新版本——在保留原旋律的同时,改变风格、节奏或配器,为二次创作提供新可能。

5

多格式音频输出

支持高质量 MP3(192-320kbps)和 WAV 格式,可在请求中指定比特率和采样率,灵活平衡质量与存储需求。

6

三步接入,开始生成

几分钟内跑通第一个请求

准备好用 AI 打造你的音乐产品了吗?

立即开始免费试用,几分钟内生成你的第一首歌曲。无需信用卡。

开发者怎么说

数千个团队已经接入并使用

接入后,我们的应用体验焕然一新。music-2.6 生成的音乐质量令人惊讶,用户完全分辨不出是 AI 创作的。歌词同步功能在我们的写歌工具中表现完美。

陈晓东

CTO,悦音科技

我们因为推理速度快和多模型选择而迁移过来。music-2.0 模型能在 20 秒内完成生成,完美支撑了我们的实时功能需求。这是我们测试过最好的 AI 音乐接口。

金莎拉

产品经理,灵韵工坊

稳定性和输出质量都非常可靠。翻唱模型为我们的混音平台带来了全新可能,已经在大规模生产环境中稳定运行数月。

迈克·约翰逊

技术负责人,节奏盒子

文档清晰,响应速度快。我们用 music-2.5 模型每月生成超过 1 万首歌曲,从未遇到过宕机。

张艾米

创始人,AI 作曲家工作室

这套接口帮我们在两周内就推出了 AI 广告曲生成器。它对提示词的理解非常细腻——“悲伤但充满希望的钢琴加弦乐”完全按预期生成。

朴大卫

产品负责人,JingleBot

我们横向评估了五款不同的 AI 音乐接口,这套方案在音质、延迟和价格三项上都胜出。music-2.6 生成的音轨可以直接在我们的播客网络中使用。

丽莎·马丁内斯

音频总监,播客配乐

常见问题

关于接口的一切,这里都有答案