JetBrains lança Mellum2, MoE 12B para texto e código

Introdução

Mellum2, a palavra-chave do momento entre quem constrói produtos de IA para desenvolvedores, foi lançado como um modelo Mixture of Experts com 12B de parâmetros e apenas 2,5B ativos por token. A promessa central é simples, tornar inferência em texto e código muito mais rápida, reduzindo latência e custo sem sacrificar qualidade prática em pipelines de produção.

A JetBrains posiciona o Mellum2 para as partes mais críticas e frequentes dos fluxos multimodelo, como roteamento, compressão de contexto em RAG, planejamento de agentes e validação. Em testes e no relatório técnico, o time destaca desempenho competitivo frente a modelos abertos de porte similar, com mais que o dobro de velocidade de inferência. O lançamento foi publicado em 1 de junho de 2026 no blog da Hugging Face, acompanhado do anúncio oficial da JetBrains.

O que é o Mellum2 e por que importa

Mellum2 é um LLM aberto, treinado do zero para texto e código, com foco explícito em latência e throughput. Em vez de ser um generalista que tenta resolver tudo, ele foi desenhado para tarefas bem definidas e de alta frequência dentro de sistemas maiores, por exemplo, classificar prompts, escolher ferramentas, condensar passagens e supervisionar etapas de agentes. A JetBrains chama esse papel de modelo focal, uma peça que acelera o restante do stack.

O anúncio reforça que o objetivo não é competir com modelos de fronteira em todas as tarefas, e sim tornar o stack mais rápido, barato e controlável. Em ambientes de engenharia de software, essa estratégia costuma render ganhos objetivos, porque cada milissegundo de atraso em recursos como autocompletar, refatorar e navegar entre contextos pesa na experiência do desenvolvedor.

Arquitetura MoE 12B com 2,5B ativos por token

A escolha por Mixture of Experts é o coração do projeto. Na família Mellum2, a capacidade total atinge 12B parâmetros, porém apenas um subconjunto, cerca de 2,5B, é ativado a cada token processado. Isso mantém o modelo compacto em tempo de execução e permite maior paralelismo de requisições, algo vital em cenários de IDEs, RAG e orquestração de agentes. O relatório técnico no arXiv e as páginas oficiais destacam esse desenho, colocando o Mellum2 como alternativa prática aos densos de tamanho similar.

Esse formato destrava dois ganhos. Primeiro, menor custo por token, já que menos parâmetros são de fato computados em cada passo. Segundo, mais facilidade de escalar réplicas em GPUs limitadas, especialmente quando a meta é servir milhares de requisições curtas, típicas de ferramentas para desenvolvedores e de pipelines internos. A JetBrains também publica que o pré-treinamento usou mais de 10 trilhões de tokens, abrangendo código com licenças permissivas, web text e matemática, o que se alinha ao foco texto e código do projeto.

![Ilustração de arquitetura MoE focada em latência]

Desempenho, 2x mais rápido e competitivo em benchmarks

Segundo o post da Hugging Face, a equipe avaliou o Mellum2 em benchmarks de geração de código, raciocínio, ciências e matemática, concluindo que ele é competitivo com pares de tamanho similar e, ao mesmo tempo, supera em mais que 2x a velocidade de inferência. Para quem opera em produção, melhor throughput por GPU reduz fila, melhora a experiência do usuário e permite atender mais tráfego com a mesma infraestrutura.

O relatório técnico reforça a natureza MoE, 12B totais com 2,5B ativos por token, descreve as metodologias de avaliação e referencia variantes específicas, como Base, Instruct e Thinking, além de versões SFT. A presença dessas variantes é uma pista de como a equipe pretende equilibrar usabilidade e custo, expondo opções para ajuste fino de raciocínio, instruções ou uso como backbone de roteamento.

Em paralelo, o site oficial da Mellum destaca que a família foi projetada para workloads do mundo real, com baixa latência e alto throughput, frequentemente duas vezes mais rápido que modelos de porte equivalente. Esse ponto é consistente com o material público do lançamento.

Casos de uso reais, onde Mellum2 brilha

Roteamento e orquestração, ao decidir rapidamente se um prompt deve chamar uma ferramenta, qual modelo invocar ou como ramificar um fluxo de agente. Esse papel de controlador interno se beneficia diretamente de baixa latência e de custo por chamada menor, algo que o MoE de 12B com 2,5B ativos por token oferece bem.

Pipelines de RAG, em etapas como compressão de contexto, sumarização intermediária e pós-processamento de trechos recuperados. Em muitos sistemas, essas chamadas são curtas, porém frequentes, e a soma pesa na conta no final do mês. Mellum2 ajuda a manter o orçamento sob controle, preservando qualidade suficiente para manter a relevância do contexto entregue ao modelo principal.

Subagentes especializados, como planejadores, validadores e transformadores de dados, que realizam tarefas auxiliares dentro de um agente maior. Esse arranjo reduz a necessidade de acionar um modelo gigante para cada microetapa, o que derruba latência ponta a ponta e custo.

Implantação privada, aspecto sensível para times que lidam com repositórios corporativos e dados proprietários. Por ser aberto e eficiente, o Mellum2 pode rodar em infraestrutura própria, mantendo o controle sobre código e dados. Para equipes enterprise, esse ponto costuma ser determinante ao adotar LLMs em escala.

Variantes, licença e transparência para times de engenharia

A família Mellum2 inclui pelo menos Base, Instruct e Thinking, além de variantes SFT associadas. A coleção oficial no Hugging Face lista checkpoints correspondentes e o post técnico adiciona os detalhes de arquitetura e treinamento. Essa granularidade permite escolher entre um backbone genérico, uma versão dirigida a instruções ou uma com cadeias de raciocínio mais explícitas, conforme a tarefa.

A licença Apache 2.0 e os pesos abertos eliminam barreiras comuns de adoção, como restrições onerosas de uso comercial. Isso viabiliza desde POCs rápidos até integrações profundas em produtos proprietários, sem fricções contratuais típicas de modelos fechados. O histórico da JetBrains com a primeira geração do Mellum, aberta em 2025, ajuda a contextualizar a evolução até o Mellum2, que agora amplia o escopo de código para texto e coordenação em sistemas.

![Fluxo de trabalho de RAG e agentes coordenados]

Como experimentar hoje, caminhos práticos de teste e implantação

Modelos e coleções oficiais estão na Hugging Face, com atualizações frequentes. Para começar, escolha a variante que melhor casa com sua tarefa, por exemplo, Instruct para protótipos orientados a chat e ferramental, Base para pipelines customizados de roteamento e Thinking para etapas com raciocínio mais longo. Faça o download, rode localmente e valide métricas de latência, custo por mil tokens, além de qualidade de saída em prompts do seu domínio.

Em hardware, priorize GPUs com boa largura de banda e VRAM suficiente para hospedar a variante escolhida com folga de batch. O arranjo MoE favorece concorrência de requisições, então desenhe o servidor para lotes pequenos, porém constantes, e use quantização quando fizer sentido, validando regressão de qualidade. Em ambientes de IDE e serviços internos de engenharia, latência p95 e p99 são métricas decisivas. Documente-as junto do custo por chamada, não apenas a média.

Para pipelines com RAG, experimente Mellum2 no pré e pós-processamento, por exemplo, compressão de contexto, sumarização de chunks e classificação de intenção. Compare a qualidade do contexto final que chega ao seu modelo principal e meça impacto no p95 do tempo total. Em agentes, avalie Mellum2 como planejador, verificador de passos e normalizador de dados intermediários, deixando chamadas mais pesadas para momentos realmente críticos do raciocínio. Esses padrões batem com as recomendações do lançamento.

Métricas que importam para produto, da bancada ao usuário final

Velocidade de inferência mais que 2x ao comparar com pares do mesmo porte não é só número bonito de laboratório, é redução direta de custo e, principalmente, menos atrito para o usuário em tarefas de alta frequência. Equipes de produto devem acompanhar, além da latência p95 e p99, indicadores de satisfação do desenvolvedor, taxa de aceitação de sugestões e economia de tokens por sessão. A documentação pública do Mellum2 foi construída para reforçar esse prisma de produção.

Ao mesmo tempo, mantenha equilíbrio. Não adie avaliações de qualidade em tarefas que exigem raciocínio longo ou contextos extensos de repositórios complexos. Use o Mellum2 como primeira linha de defesa, roteando chamadas que exigem o poder de um modelo maior quando necessário. A própria JetBrains defende a visão de sistemas coordenados, não de um modelo único para todas as coisas, e isso tende a se provar cada vez mais no campo.

Panorama e legado, da primeira geração ao Mellum2

A trajetória começou com o Mellum original, aberto em 2025, direcionado a autocompletar de código em IDEs, com suporte a múltiplas linguagens. O Mellum2 amplia a ambição, combinando linguagem natural e código, com desenho MoE e variantes especializadas para se encaixar em fluxos multimodelo modernos. Para quem constrói ferramentas para devs, isso representa mais controle de custos e de experiência, sem ficar refém de APIs completamente fechadas.

No nível estratégico, o anúncio reafirma que o futuro da IA aplicada em engenharia deve combinar modelos menores e bem escopados com componentes maiores e mais pesados, acionados só quando necessário. Essa estratégia ressoa com práticas de produção maduras, onde cada chamada precisa se justificar em custo e impacto. Mellum2 chega exatamente para ocupar esse espaço tático do stack.

Conclusão

Mellum2, MoE 12B com 2,5B ativos, licença Apache 2.0 e foco explícito em latência e throughput, se encaixa como acelerador para partes críticas de sistemas de IA baseados em texto e código. O lançamento público e o relatório técnico oferecem material suficiente para times avaliarem de forma objetiva se o modelo reduz custo sem comprometer a qualidade em seus casos de uso.

O passo mais prudente agora é testar Mellum2 como controlador e auxiliar em pipelines, reservando modelos mais pesados para momentos de raciocínio denso. É assim que se colhem ganhos rápidos, perceptíveis para o usuário final, com uma base aberta e transparente que pode rodar em casa, sob total controle do time.