MiniMax lança M2.5: SOTA, rápido e custo ultrabaixo

Introdução

MiniMax M2.5 é apresentado como um modelo de IA otimizado para produtividade do mundo real, com resultados SOTA em tarefas de código, busca com ferramentas e trabalho de escritório, além de ganhos concretos em velocidade e custo. Segundo a própria MiniMax, o M2.5 alcançou 80,2 por cento no SWE-Bench Verified, 51,3 por cento no Multi-SWE-Bench e 76,3 por cento no BrowseComp, números que indicam um salto relevante frente à geração anterior. Lançado em 12 de fevereiro de 2026, o anúncio destaca ainda preços agressivos e throughput alto para viabilizar agentes de IA contínuos.

A importância do tema é direta, a equação desempenho por custo define quais aplicações de IA fazem sentido econômico. MiniMax M2.5 posiciona-se nessa fronteira, prometendo completar tarefas complexas mais rápido e a frações do custo de pares, com a proposta explícita de tornar o uso de agentes algo economicamente trivial.

Este artigo detalha o que muda com o MiniMax M2.5, onde ele se destaca nos benchmarks, como a estrutura de preços pode reduzir a conta em produção, o que esperar do MiniMax Agent e como times técnicos podem testar, integrar e medir impacto rapidamente.

O que é o MiniMax M2.5 e por que importa

MiniMax M2.5 é a nova geração de modelo de linguagem da MiniMax, treinada com reforço em centenas de milhares de ambientes reais e desenhada para cenários economicamente valiosos, especialmente coding, uso de ferramentas, busca e tarefas de escritório. O anúncio oficial enfatiza melhorias em raciocínio, decomposição de tarefas e eficiência de tokens, com resultados concretos no tempo de execução de pipelines complexos.

No ciclo de evolução recente da família M2, a empresa relata avanços acelerados desde o fim de outubro até fevereiro, com as versões M2, M2.1 e agora M2.5. A taxa de melhoria, segundo a MiniMax, superou expectativas e pares de mercado, sustentada por um programa robusto de RL com centenas de milhares de ambientes e um framework próprio de RL orientado a agentes, chamado Forge.

Em termos práticos, isso se traduz em um modelo capaz de planejar como um arquiteto de software, escrever especificações antes do código e manter desempenho confiável ao longo do ciclo completo de desenvolvimento. Para avaliar essa capacidade, a MiniMax também evoluiu a benchmark VIBE para uma versão Pro, com tarefas mais complexas e avaliação mais rigorosa.

![Imagem oficial do anúncio do MiniMax M2.5]

Benchmarks, velocidade e eficiência de tokens

Benchmarks orientados a produtividade importam porque conectam a capacidade do modelo a tarefas reais. No anúncio, o MiniMax M2.5 atingiu 80,2 por cento no SWE-Bench Verified e 51,3 por cento no Multi-SWE-Bench, além de 76,3 por cento no BrowseComp, que mede busca e navegação em cenários de pesquisa. Esses números, somados ao relato de melhor generalização em diferentes “scaffolds” de agentes e menos rodadas por tarefa, sugerem ganhos em qualidade e eficiência operacional.

Velocidade é outro ponto central. A MiniMax reporta que o M2.5 executa o SWE-Bench Verified 37 por cento mais rápido que o M2.1 e com tempo de execução equiparável ao Claude Opus 4.6, com melhora na eficiência de tokens consumidos por tarefa. Em cenários de produção, completar fluxos longos mais rápido e consumindo menos tokens reduz a fatura no fim do mês, além de acelerar SLAs internos.

A empresa também destaca que o M2.5 é servido nativamente a 100 tokens por segundo em uma variante e 50 tokens por segundo na outra, com ganhos adicionais vindos de melhorias como tool calling em paralelo. Para equipes que orquestram agentes multi-etapas, throughput estável e raciocínio mais parsimonioso significam latências menores e custos previsíveis por workflow.

Preço, throughput e o impacto na conta

Preço por token define quem consegue escalar e por quanto. A documentação oficial de Pay as You Go lista o MiniMax-M2.5 com preços de 0,30 dólar por milhão de tokens de entrada e 1,20 dólar por milhão de tokens de saída. Já a variante de alta velocidade, MiniMax-M2.5-highspeed, aparece a 0,60 dólar por milhão de tokens de entrada e 2,40 dólares por milhão de tokens de saída. Esses valores, combinados com cache de prompt, criam um patamar competitivo frente a modelos de fronteira.

No anúncio, a MiniMax afirma que operar o modelo continuamente por uma hora, a 100 tokens por segundo, custa cerca de 1 dólar. A 50 tokens por segundo, o custo cai para 0,30 dólar por hora. Em termos anuais, a própria empresa exemplifica quatro instâncias sempre ativas por cerca de 10 mil dólares ao ano, sinalizando a ambição de tornar o uso contínuo de agentes financeiramente trivial. Como qualquer planejamento de capacidade, convém estimar variações por picos de saída, contextos longos e cache efetivo no seu caso de uso.

Essa combinação de throughput alto, cache e preços baixos altera o TCO, especialmente em trilhas como análise de código, busca web com raciocínio passo a passo e tarefas de escritório que exigem iteração e conformidade de formatação. Para CFOs e engineering managers, o recado é simples, a linha de custo deixa de ser o impeditivo principal, desde que a qualidade entregue atenda especificações.

MiniMax Agent, office skills e casos práticos

A MiniMax diz ter implantado o M2.5 integralmente no MiniMax Agent, com foco em experiência de agente e produtividade de escritório. O produto oferece “Office Skills” padronizadas e integradas, que carregam automaticamente capacidades para Word, PowerPoint e Excel. Em modo MAX, o agente seleciona habilidades de acordo com o tipo de arquivo, eleva a qualidade do output e permite combinar skills de escritório com expertise setorial para criar Experts reutilizáveis, adequados a tarefas específicas, como pesquisa de setor com dados, formatação e relatórios.

Segundo a empresa, usuários já criaram mais de 10 mil Experts no MiniMax Agent. No uso interno, a MiniMax afirma que 30 por cento das tarefas da companhia são concluídas autonomamente pelo M2.5, e que 80 por cento do código recém “commitado” é gerado pelo modelo, números que, se replicados mesmo que parcialmente em outras organizações, indicam um vetor real de produtividade.

Aplicações práticas imediatas incluem, por exemplo, pipelines de pesquisa que combinam Wide Search e navegação profunda, codificação assistida com especificação antes da escrita, refatoração guiada por requisitos e conformidade de estilos em documentos corporativos. O ponto-chave é tratar o agente como um “funcionário” com SOPs claros, rubricas de avaliação e trilhas de auditoria, exatamente como descrito pela MiniMax ao falar do framework GDPval-MM para avaliar entregáveis e trajetórias de agentes.

Como times técnicos podem testar e integrar rapidamente

Começar pequeno e medir é o caminho mais seguro. Uma abordagem sólida inclui:

Definir 3 a 5 tarefas de alto valor e repetição, por exemplo, correção de issues de código com escopo claro, compilação de relatórios de mercado ou normalização de planilhas financeiras.
Instrumentar métricas de baseline, tempo de ciclo, custo por tarefa, taxa de retrabalho, qualidade avaliada por rubrica, para comparar antes e depois.
Explorar cache de prompt onde fizer sentido, prompts canônicos por tarefa e políticas de truncamento, para reduzir tokens sem perder contexto útil.
Prototipar dois fluxos, com e sem busca externa, usando ferramentas e navegação somente quando elevarem qualidade mensurável, já que o M2.5 prioriza rotas mais curtas com menos rodadas.
Em coding, validar o comportamento de “escrever a especificação” antes do código e medir impacto em bugs introduzidos e tempo de revisão.

Para integração via API, os preços Pay as You Go facilitam POCs rápidos. Atenção à gestão de contextos longos e ao desenho de ferramentas, uma vez que a eficiência de rodadas e a generalização entre scaffolds foram pontos de melhoria, o que pode reduzir custos de orquestração quando bem aproveitados.

![Treinamento de mapa auto-organizável, ilustração didática]

Onde o M2.5 se compara no mercado, com cautela

Comparações diretas entre provedores precisam de cuidado porque metodologias e contextos variam. Dito isso, o material oficial posiciona o tempo de execução do M2.5 como equivalente ao de um modelo de topo concorrente em tarefas de código, e enfatiza que o custo por tarefa seria uma fração do cobrado por pares de fronteira. Essas afirmações, quando cruzadas com a tabela oficial de preços por milhão de tokens, ajudam a explicar a narrativa de custo ultrabaixo para agentes contínuos. Porém, mantenha avaliações A-B internas com seu conjunto de tarefas e critérios de qualidade.

Há também compilações de terceiros que registram janela de contexto de aproximadamente 204,8 mil tokens e limites de saída superiores a 100 mil tokens, números úteis para planejamento de prompts extensos. Use essas referências como ponto de partida e valide na prática, já que especificações podem evoluir e a documentação oficial por vezes consolida detalhes em páginas diferentes.

Limitações, governança e o que observar em produção

Benchmarks internos e estruturas proprietárias de avaliação, como GDPval-MM e RISE, são úteis, porém o ideal é sempre replicar conclusões no seu domínio. Defina rubricas e testes realistas, incluindo dados de compliance e requisitos de formatação, para validar ganhos de qualidade.
Custo real depende de padrões de uso, por exemplo, picos de saída, latência desejada, e eficácia do cache. Meça custo por tarefa e por unidade de valor de negócio, não só por mil tokens.
Para agentes com busca e ferramentas, monitore deriva de instrução e segurança operacional. O M2.5 mostrou rotas mais curtas e 20 por cento menos rodadas que o M2.1 em avaliações internas, mas políticas de contenção e auditoria continuam essenciais em workflows críticos.

Oportunidades estratégicas para 2026

Escritórios financeiros e jurídicos podem explorar a combinação de Office Skills com SOPs e rubricas de avaliação, obtendo entregáveis prontos para uso, como modelos financeiros e relatórios respeitando padrões internos.
Equipes de engenharia podem adotar o padrão “especificar antes de codificar” e medir redução de bugs e de tempo de revisão. O ganho de velocidade relatado no SWE-Bench Verified e a melhoria na eficiência de tokens são sinais de maturidade em tarefas longas.
Operações de pesquisa e estratégia podem aproveitar a performance no BrowseComp e o foco em navegação profunda com menor número de rodadas, estruturando playbooks de pesquisa replicáveis.

Conclusão

MiniMax M2.5 coloca a barra da produtividade em coding, busca com ferramentas e escritório com duas mensagens claras, velocidade sustentada por melhor decomposição de tarefas e eficiência de tokens, e custo tão baixo que a operação contínua de agentes se torna economicamente plausível em larga escala. Combinando preço por token competitivo e throughput estável, o modelo se credencia para POCs rápidos e rollouts pragmáticos.

Para líderes técnicos, a recomendação é objetiva, selecionar trilhas de alto valor, medir baseline, pilotar com cache e prompts canônicos, e comparar custo por tarefa e qualidade com o que já roda. Se os números internos confirmarem o que os dados públicos sugerem, 2026 pode ser o ano em que agentes deixam de ser experimento e viram parte do fluxo principal de trabalho.