DMS da Nvidia corta custo em 8x sem perda

Introdução

Nvidia DMS chega com uma promessa objetiva, comprimir o KV cache de LLMs em até 8x e cortar o custo de raciocínio sem perder acurácia, segundo reportagem publicada em 12 de fevereiro de 2026. A técnica, Dynamic Memory Sparsification, ataca o maior gargalo do raciocínio em cadeia, a memória para armazenar chaves e valores gerados token a token.

O pano de fundo é claro. À medida que empresas adotam inference-time scaling para ganhar qualidade, o KV cache cresce linearmente com o número de passos de raciocínio, o que pressiona a VRAM e limita throughput. Com Nvidia DMS, os pesquisadores treinam o próprio modelo para decidir o que manter e o que descartar, preservando a distribuição de saída e, em cenários medidos, até melhorando desempenho em tarefas de contexto longo.

Este artigo detalha como o DMS funciona, o que muda no seu stack, quais ganhos esperar em benchmarks e produção, como ele se compara a técnicas anteriores de compressão e quais caminhos práticos para adotar na infraestrutura atual.

O gargalo real do raciocínio em LLMs

Modelos que raciocinam melhor normalmente geram mais tokens intermediários, como cadeias de pensamento, ou exploram várias trajetórias em paralelo. O custo cresce não só no compute, mas, principalmente, na memória para o KV cache, que se torna o limitador de velocidade e de simultaneidade de usuários. Na prática, GPUs passam mais tempo movendo dados da HBM do que calculando, o que aumenta a latência e derruba o throughput.

Esse efeito é crítico em workloads corporativos. Quando o KV cache estoura ou precisa de paging para a RAM do host, a experiência degrada. É por isso que técnicas como janelas deslizantes, heurísticas de despejo e offloading ganharam espaço, ainda que frequentemente sacrifiquem acurácia em compressões agressivas.

Como o Nvidia DMS funciona

Em vez de aplicar uma regra fixa, Nvidia DMS retrofita o modelo para gerenciar a memória de forma inteligente. O mecanismo aprende uma política de manter ou evictar tokens, com um detalhe essencial, a evicção atrasada. O token marcado para sair permanece acessível por uma janela curta, permitindo que o modelo integre o conteúdo necessário antes de liberar o slot do KV cache. Isso reduz perdas de informação e estabiliza o treinamento para compressões altas.

Tecnicamente, o DMS repurposeia neurônios nos heads de atenção para prever decisões binárias de evicção e injeta uma máscara aditiva nos scores de atenção durante o treinamento. O processo usa reparametrização Gumbel sigmóide para manter diferenciabilidade, não adiciona parâmetros e pode ser executado com pesos congelados, de forma parecida com LoRA, o que barateia e acelera a adaptação do modelo. Os autores relatam que 1 mil steps de treino bastam para chegar a 8x de compressão, mantendo a qualidade.

Outro ponto prático, o DMS encaixa em kernels padrão e é compatível com stacks de inferência de alto desempenho. O código está integrado ao NVIDIA Model Optimizer, o que facilita combinar DMS com quantização, distilação, poda e técnicas como speculative decoding em pipelines existentes de TensorRT LLM, vLLM e SGLang.

Ganhos medidos em benchmarks e produção

Nos testes divulgados, o DMS foi aplicado a famílias como Qwen R1 e Llama 3.2 em tarefas desafiadoras, AIME 2024, GPQA Diamond e LiveCodeBench. O resultado reposiciona a fronteira de Pareto, para o mesmo orçamento de memória e banda, o modelo raciocina mais fundo, melhora a pontuação e aumenta o throughput. No caso de Qwen3 8B, foram observadas até 5x mais requisições por segundo mantendo a acurácia do baseline.

Do lado acadêmico, o paper “Inference-Time Hyper-Scaling with KV Cache Compression” descreve ganhos médios expressivos, por exemplo, melhorias de 9,1 pontos no AIME 2024 com Qwen R1 32B ao comparar sob orçamentos equivalentes de KV cache, reforçando a tese de que comprimir a memória libera espaço para mais steps de raciocínio sem piorar resultados.

Para workloads de contexto longo, outro ponto surpreendente. Testes de needle in a haystack indicam que variantes com DMS podem superar modelos padrão, possivelmente por manter um contexto mais “limpo”, menos ruidoso, ao eliminar tokens redundantes com critério aprendido.

Onde o DMS se encaixa no seu stack

A boa notícia para times de plataforma é a baixa barreira de entrada. O DMS utiliza pipelines padrão da Hugging Face e é compatível com FlashAttention. Com a integração ao Model Optimizer, é possível orquestrar DMS junto com quantização FP8 ou FP4, distilação e poda, exportando checkpoints prontos para TensorRT LLM, vLLM e SGLang. Para retrofitar um modelo enterprise como Qwen3 8B, a equipe da Nvidia cita horas de trabalho em um único DGX H100.

Na prática, uma rota de adoção pode seguir quatro passos. Primeiro, estabelecer uma baseline clara de custo por token e throughput por GPU. Segundo, retrofitar uma variante com DMS e validar regressão funcional e de qualidade em prompts reais. Terceiro, medir a nova fronteira custo desempenho sob cenários de raciocínio em profundidade e paralelismo. Quarto, integrar a exportação otimizada no pipeline CI de modelos para implantação gradativa.

![Corredor com racks de servidores em data center]

DMS versus técnicas anteriores de compressão de KV

O ecossistema de compressão do KV cache evoluiu rápido. Heurísticas como sliding window, TOVA ou heavy hitter buscam evictar tokens pouco relevantes, porém costumam degradar a acurácia em compressões altas. Métodos mais recentes, como RazorAttention, preservam páginas críticas ou cabeças de recuperação, obtendo reduções acima de 70 por cento sem treino adicional, ainda assim são sensíveis ao regime de tarefa e não otimizam explicitamente a distribuição de saída do modelo.

Há também estratégias de quantização específicas do KV, como SKVQ, que comprimem em bits muito baixos combinando rearranjo de canais e quantização dinâmica, em alguns cenários processando contextos enormes com ganho de velocidade, mas sem atacar a seletividade semântica dos tokens mantidos. Em paralelo, abordagens como HashEvict usam hashing sensível à localidade para decidir evicção antes da atenção, reduzindo custo de computar relevância.

O diferencial do DMS está em treinar o próprio modelo para antecipar decisões de memória com evicção atrasada e máscara de atenção, preservando a fidelidade do output enquanto empurra a compressão para a faixa de 8x com estabilidade. Isso faz o método escalar bem com inference-time scaling e com arquiteturas modernas orientadas à eficiência de KV, como o MLA usado em DeepSeek, que já comprime K e V em latentes mais enxutos. A compatibilidade sugerida entre DMS e MLA abre uma avenida para combinações ainda mais agressivas de economia.

DMS e o momento do raciocínio em produção

O movimento de modelos de raciocínio, impulsionado por famílias como o R1 da DeepSeek e linhas como o o1 da OpenAI, elevou a régua de qualidade e, junto, o custo. Relatos recentes mostram que o R1 aberto na Hugging Face popularizou variantes e inspirou distilações como Qwen R1, com empresas reportando interesse crescente em agentes que pensam por mais passos. Nessa conjuntura, técnicas que barateiam o raciocínio sem perda viram prioridade de negócios.

Do ponto de vista de hardware, a tese de líderes do setor é que raciocínio aumenta, e não reduz, a demanda por compute. GPUs Hopper como H100 oferecem largura de banda de memória de terabytes por segundo e recursos dedicados a Transformers, porém o KV cache segue sendo o gargalo de muitos pipelines. Ao encolher a pegada do KV, DMS converte capacidade ociosa de compute em respostas mais rápidas, maior QPS por nó e janela maior para explorar cadeias profundas de raciocínio.

![KV e data center, conceito visual de IA]

Guia prático de adoção, do piloto à escala

Seleção do modelo e do conjunto de prompts. Priorize um modelo já consolidado no seu produto e um conjunto de prompts que reflita o mix real de tarefas, raciocínio passo a passo, multimodalidade se houver, tool use e tempo de resposta alvo.
Preparação do baseline. Registre metrics como tokens gerados por resposta, pico e leitura média de KV por passo, latência P50 e P95, custo por mil tokens raciocinados e QPS máximo por GPU.
Retrofitting com DMS. Aplique o processo de treinamento leve descrito no paper, com pesos congelados se apropriado. Busque a compressão alvo de 8x de forma gradual, usando a evicção atrasada para estabilizar.
Integração no Model Optimizer. Encadeie DMS com quantização, por exemplo FP8 ou FP4, e exporte o checkpoint para o seu runtime, TensorRT LLM, vLLM ou SGLang. Valide compatibilidade com FlashAttention.
Testes A B e guarda-chuva de segurança. Compare versões em sombra, avalie regressões qualitativas, verifique long context, needle tests e robustness. Monitore drift de distribuição de prompts com feature flags reversíveis.
Rollout progressivo e SLOs. Amplie a adoção nos serviços de maior custo de raciocínio, ajuste limites de token budget e paralelismo e, quando confortável, normalize o DMS como default para fluxos que exigem chain of thought.

O que medir para comprovar ROI

Throughput por GPU e custo por mil tokens. A métrica central que DMS promete atacar é a banda de memória gasta por passo de geração. Com KV comprimido, a GPU passa mais tempo computando e menos tempo esperando HBM, elevando QPS e reduzindo custo unitário. Relatos de até 5x mais throughput ilustram o potencial.
Qualidade sob orçamento fixo. Reavalie seus scores em AIME, GPQA, LiveCodeBench ou equivalentes internos, mantendo o mesmo teto de memória KV. A literatura reporta ganhos de vários pontos com DMS nessa configuração.
Latência por perfil de prompt. Diferencie prompts curtos, médios e de raciocínio profundo. Em muitos casos, DMS favorece especially raciocínio longo, quando o KV seria maior.
Estabilidade e quedas de VRAM. Observe incidentes de OOM, paginação e jitter de latência em pico. Reduções tangíveis sinalizam maturidade para escalar o rollout.

Limitações, riscos e boas práticas

Treinabilidade e dados. Embora o retrofitting seja leve, é um treino. Se o seu domínio é altamente especializado, alimente o processo com prompts representativos para que a política de evicção aprenda as dependências corretas.
Compatibilidade com arquiteturas. O DMS trabalha sobre atenção padrão, mas a própria Nvidia comenta compatibilidade com arquiteturas eficientes como MLA da DeepSeek, o que sugere sinergias. Confirme em pilotos antes do rollout amplo.
Comparação honesta com alternativas. Avalie baselines como RazorAttention, SKVQ e estratégias de hashing. Em certos workloads, soluções training free podem entregar 70 por cento de compressão com custo de integração mínimo. O DMS tende a brilhar quando a meta é compressão alta com fidelidade de saída.
Stack de produção. Garanta que o checkpoint otimizado passe por todo o seu pipeline de segurança, revisão de alucinações e avaliação de tool use. O ganho de eficiência não substitui guardrails.

Conclusão

O DMS da Nvidia se posiciona como uma peça de engenharia pragmática. Ao ensinar o próprio modelo a gerenciar a memória, comprime o KV cache em até 8x e entrega custo menor de raciocínio sem sacrificar acurácia, frequentemente melhorando throughput e viabilizando cadeias mais profundas sob o mesmo teto de hardware. Em um cenário em que o raciocínio tende a consumir mais compute, não menos, deslocar o gargalo da memória é estratégico.

Para equipes que já operam LLMs em produção, o caminho é claro, medir, retrofitar, exportar e testar. Integrado ao Model Optimizer e compatível com os principais runtimes, o DMS oferece um atalho para ganhar eficiência onde dói, memória e banda. O efeito prático, mais usuários servidos por servidor, mais qualidade sob orçamento fixo e uma base técnica melhor para a próxima onda de agentes e pipelines de raciocínio.