Provider analysis

MiniMax

Provider of the MiniMax M-series, speech, video, music, and agent APIs for multimodal application builders.

Last verified: 2026-03-29Confidence: HighPrimary sources: 4

This provider page blends full-profile entries with broader verified listings. Use it to separate deeply evaluated flagship models from source-backed records that are tracked primarily for market visibility, access data, and freshness coverage.

Headquarters

Shanghai, China

Founded

2021

Models tracked

Full-profile models

Catalog last verified

2026-03-29

Latest model verification

2026-03-29

Newest release tracked

2025-06-01

Confidence

High

Access mix

api, hosted

Website

https://www.minimaxi.com/

API models

Tracked models available through provider-managed APIs.

Open-weight models

Models with downloadable weights or self-hosted distribution paths.

Primary source links

Total source references attached across this provider catalog.

Provider sources

Official links used to verify the provider profile and platform coverage.

Last verified: 2026-03-29

MiniMax website
official-website
Open link
MiniMax API overview
official-docs
Open link
MiniMax pay-as-you-go pricing
official-pricing
Open link
MiniMax open-source release
official-release
Open link

MiniMax

MiniMax-Speech-02

MiniMax media

MiniMax's TTS model for high-fidelity speech synthesis with voice cloning capabilities.

Score 704 sources

audiovisionvideotextapihosted

Context: 8,192
Input: $0.001/1K tok
Output: $0.005/1K tok
Coverage: Full profile

View analysis

MiniMax

MiniMax-VL-01

MiniMax media

MiniMax's vision-language model with 200K context for multimodal understanding and image analysis.

Score 724 sources

audiovisionvideotextapihosted

Context: 204,800
Input: $0.001/1K tok
Output: $0.005/1K tok
Coverage: Full profile

View analysis

MiniMax

MiniMax-Text-01

MiniMax media

MiniMax's text generation models with 200K context for general-purpose language tasks.

Score 724 sources

audiovisionvideotextapihosted

Context: 204,800
Input: $0.001/1K tok
Output: $0.005/1K tok
Coverage: Full profile

View analysis

MiniMax

MiniMax-M1

MiniMax media

MiniMax's text generation models with 200K context for general-purpose language tasks.

Score 724 sources

audiovisionvideotextapihosted

Context: 204,800
Input: $0.001/1K tok
Output: $0.005/1K tok
Coverage: Full profile

View analysis

MiniMax

image-01

MiniMax media

MiniMax's image generation models for text-to-image creation, including a live animation variant.

Score 704 sources

audiovisionvideotextapihosted

Context: 8,192
Input: $0.001/1K tok
Output: $0.005/1K tok
Coverage: Full profile

View analysis

MiniMax

image-01-live

MiniMax media

MiniMax's image generation models for text-to-image creation, including a live animation variant.

Score 704 sources

audiovisionvideotextapihosted

Context: 8,192
Input: $0.001/1K tok
Output: $0.005/1K tok
Coverage: Full profile

View analysis

MiniMax

music-2.0

MiniMax media

MiniMax's music generation model for AI-composed audio tracks.

Score 704 sources

audiovisionvideotextapihosted

Context: 8,192
Input: $0.001/1K tok
Output: $0.005/1K tok
Coverage: Full profile

View analysis

MiniMax

MiniMax-M2.5

MiniMax

MiniMax's latest M2.5 text model for coding agents, multimodal assistants, and high-speed inference.

Score 724 sources

textvisionaudiotool-useapihosted

Context: 204,800
Input: $0.002/1K tok
Output: $0.01/1K tok
Coverage: Full profile

View analysis

MiniMax

MiniMax-M2.5-highspeed

MiniMax

MiniMax's latest M2.5 text model for coding agents, multimodal assistants, and high-speed inference.

Score 724 sources

textvisionaudiotool-useapihosted

Context: 204,800
Input: $0.002/1K tok
Output: $0.01/1K tok
Coverage: Full profile

View analysis

MiniMax

MiniMax-M2.1

MiniMax

MiniMax's earlier M2.x models for general-purpose multimodal inference.

Score 724 sources

textvisionaudiotool-useapihosted

Context: 204,800
Input: $0.002/1K tok
Output: $0.01/1K tok
Coverage: Full profile

View analysis

MiniMax

MiniMax-M2.1-highspeed

MiniMax

MiniMax's earlier M2.x models for general-purpose multimodal inference.

Score 724 sources

textvisionaudiotool-useapihosted

Context: 204,800
Input: $0.002/1K tok
Output: $0.01/1K tok
Coverage: Full profile

View analysis

MiniMax

MiniMax-M2

MiniMax

MiniMax's earlier M2.x models for general-purpose multimodal inference.

Score 724 sources

textvisionaudiotool-useapihosted

Context: 204,800
Input: $0.002/1K tok
Output: $0.01/1K tok
Coverage: Full profile

View analysis