Google lança drafters MTP para acelerar o Gemma 4

Introdução

Multi-Token Prediction, também conhecida como speculative decoding com drafters, acaba de chegar ao Gemma 4 e entrega até 3x mais velocidade de inferência sem sacrificar qualidade. O anúncio oficial foi publicado em 5 de maio de 2026, com disponibilidade imediata e licenciamento Apache 2.0, incluindo pesos nos hubs de modelos e suporte nos principais runtimes.

A importância prática é direta. Latência é o gargalo dominante para chat em tempo real, agentes que planejam em múltiplas etapas e apps móveis on-device. Ao combinar um modelo alvo pesado com um drafter leve que antecipa múltiplos tokens, o Gemma 4 reduz esperas perceptíveis no token-per-second, especialmente em fluxos conversacionais e experiências de voz.

Este artigo explica como o multi-token prediction funciona, o que muda na arquitetura do Gemma 4, onde configura e mede ganhos, quando usar no seu produto e quais armadilhas evitar.

Por que Multi-Token Prediction acelera o Gemma 4

A inferência autoregressiva clássica gera um token por vez e é limitada mais por largura de banda de memória do que por FLOPs. O custo de mover bilhões de parâmetros entre VRAM e unidades de computação domina a latência. O speculative decoding quebra essa serialização, permitindo que um drafter, menor e mais ágil, proponha vários tokens de uma vez enquanto o modelo alvo verifica tudo em paralelo. Se a proposta é aceita, a saída equivalente a vários tokens aparece no tempo de um único passo do modelo alvo.

A formulação original do speculative decoding, publicada por pesquisadores do Google em 2022, demonstra aceleração de 2x a 3x sem alterar a distribuição de saídas do modelo alvo. Na prática, ganhos reais dependem do quão rápido o drafter é e da taxa média de aceitação dos tokens propostos.

O que o Google adicionou no Gemma 4

O Gemma 4 implementa Multi-Token Prediction como uma extensão arquitetural. Em vez de um drafter totalmente separado, o Gemma 4 compartilha a tabela de embeddings de entrada com o modelo alvo e utiliza as ativações da última camada do alvo para guiar o drafter. Esse acoplamento reduz recomputações, melhora a precisão das propostas e garante a mesma qualidade de saída do modo autoregressivo padrão. Para variantes de borda, como E2B e E4B, foi adicionada uma etapa de clusterização eficiente no embedder, priorizando grupos prováveis e minimizando cálculos desnecessários de logits.

Em hardware e cenários práticos, o time do Google reporta acelerações de até 3x em tokens por segundo quando os drafters MTP são combinados com o Gemma 4, sem degradação de raciocínio ou acurácia. Os testes cobriram runtimes como LiteRT-LM, MLX, Hugging Face Transformers e vLLM, com integrações também anunciadas para SGLang e Ollama.

![Visual de MTP no Gemma 4]

Disponibilidade, licenças e onde rodar hoje

Os drafters de Multi-Token Prediction para o Gemma 4 estão disponíveis sob Apache 2.0, com documentação oficial e pesos para download imediato. Os principais ecossistemas já têm suporte ou exemplos prontos, incluindo Transformers, MLX, vLLM, SGLang, LiteRT-LM e Ollama. Para dispositivos móveis, há caminhos via Google AI Edge Gallery, Android e iOS.

Documentação e visão geral de MTP no Gemma 4 com detalhes arquiteturais, compartilhamento de KV cache e embedders eficientes.
Guia de uso no vLLM com API compatível com OpenAI, incluindo tabela de requisitos mínimos de GPU.
Cobertura da imprensa especializada destacando ganhos, tamanhos de drafters e integração com frameworks populares.

Benchmarks práticos e nuances por hardware

Ganho máximo acontece quando o drafter antecipa com alta aceitação e o alvo consegue verificar vários tokens no mesmo forward pass. Em GPUs Nvidia e aceleradores com boa paralelização, o efeito é mais nítido. Em Apple Silicon, o Google destaca que aumentar o batch size de 4 a 8 pode destravar até cerca de 2,2x localmente, contornando desafios de roteamento do MoE 26B em batch 1. Em A100, aumentar batch também traz ganhos similares.

Para modelos MoE, como Gemma 4 26B, cada token pode ativar especialistas diferentes, o que limita a reutilização de pesos ao verificar lotes de sugestões do drafter. O efeito se dilui com batch maior, pois cresce a sobreposição de especialistas ativados entre sequências. Já nas variantes densas, o custo adicional de verificação é menor e os ganhos tendem a ser mais consistentes mesmo em batchs menores.

Relatos independentes indicam números próximos ao comunicado, com cenários de 2,6x a 3x em RTX profissionais, variando conforme tamanho do modelo, quantização, tipo de prompt e TPS alvo. Use esses valores como tendência, não como garantia, e sempre meça no seu workload real.

Como ativar MTP no seu stack

O enablement muda pouco entre runtimes, o que facilita testar rápido:

Transformers. Baixe o checkpoint do Gemma 4 e o drafter correspondente, habilite speculative decoding no generate ou no loop de inferência, seguindo o guia oficial. Ajuste a razão temperatura, top-p e max_draft para calibrar a taxa de aceitação sem introduzir latência no drafter.
vLLM. Carregue o modelo alvo, referencie o drafter compatível e ajuste parâmetros como speculative_max_model_len e speculative_draft_len. Valide throughput e latência por requisição, já que batching agressivo melhora MoE.
MLX e SGLang. Use builds atualizados que já incorporam caminhos otimizados para MTP no Gemma 4. Meça em Apple Silicon com batchs maiores para amortizar o custo de verificação em MoE.
Ollama e LiteRT-LM. Para experiências locais e on-device, versões recentes expõem flags para speculative decoding, útil em demos, copilotos offline e voicebots responsivos.

Checklist de experimentação:

Defina uma baseline clara de tokens por segundo e latência p50 e p95. 2. Habilite MTP com o drafter oficial do mesmo modelo alvo. 3. Varie batch size, max draft length e temperatura. 4. Fixe seed para comparabilidade. 5. Observe aceitação média dos drafts e impacto na qualidade percebida. 6. Valide custos de memória e picos de uso de VRAM.

Qualidade preservada: por que a saída não muda

A garantia de qualidade vem do fato de que o modelo alvo mantém a palavra final. O drafter propõe, o alvo verifica em paralelo e, se algo é rejeitado, o alvo corrige e ainda adiciona um token, mantendo a distribuição de saídas idêntica à do alvo puro. Esse é o cerne do algoritmo introduzido no trabalho de 2022, que formaliza a amostragem especulativa com equivalência de distribuição.

Em termos de engenharia, o Gemma 4 reduz overhead compartilhando embeddings e ativação final do alvo, além de particionar o espaço de tokens em clusters mais prováveis nas variantes de borda, o que diminui cálculos desnecessários de logits. Na prática, isso melhora a chance de o alvo aceitar sequências mais longas de uma vez.

![Diagrama ilustrativo do tema]

Quando usar MTP, quando evitar

Útil. Chat responsivo, copilotos de código, agentes com cadeias de pensamento explícitas, voice UX e apps on-device onde TPS e latência dominam a percepção de qualidade. MTP dá fôlego para raciocínio estruturado sem sacrificar fluência.
Cautela. Pipelines com prompts extremamente imprevisíveis, baixa taxa de aceitação do drafter, ou MoE pequeno em batch 1 em Apple Silicon. Nesses casos, considere aumentar batch, ajustar a temperatura e reduzir o comprimento de draft para evitar refugo custoso.

Integrações e ecossistema

A chegada oficial ao Gemma 4 acelera a adoção do speculative decoding em open models, reforçando o movimento do mercado em direção a arquiteturas de drafters. Além dos guias do Google, há documentação e artigos de terceiros cobrindo desde visões gerais até tuning avançado, e frameworks como vLLM e Transformers já padronizam parâmetros para MTP. O fundamento científico segue sólido e continua evoluindo, com pesquisas recentes otimizando taxa de aceitação e throughput.

Boas práticas de engenharia e produto

Métricas alinhadas ao uso. Em UX conversacional, otimize p50 e tempo até o primeiro token. Em agentes, foque em tempo total de tarefa e robustez. MTP melhora TPS, mas o que importa é a fluidez percebida.
Observabilidade. Colete taxa de aceitação dos drafts, comprimento médio aceito, tempos por etapa e utilização de memória, além de logs de qualidade. Esses números orientam tuning fino.
Segurança e conformidade. Acelerador não é autorização. Preserve camadas de segurança, checagem de ferramentas e limites de contexto. Com Gemma 4, mantenha as políticas de uso responsável conforme guias oficiais.

Reflexões finais

O multi-token prediction não é apenas um truque de desempenho, é um novo equilíbrio entre latência, paralelismo e qualidade. Ao mover parte da inteligência para um drafter acoplado ao modelo alvo, o Gemma 4 torna viáveis experiências mais rápidas na borda e em workstations de desenvolvedores, sem sacrificar resultado.

Para times de produto, o recado é simples. Meça no seu contexto e trate MTP como um multiplicador de UX. Em ambientes que valorizam resposta ágil e raciocínio estruturado, a combinação Gemma 4 mais drafters MTP deve virar padrão de projeto, com ganhos claros e previsíveis quando configurada com critério.