DeepSeek melhora eficiência de LLMs, reduz gasto de GPU

Introdução

Memória condicional é a palavra-chave que domina esta virada de arquitetura em modelos de linguagem. A DeepSeek apresentou um módulo, batizado de Engram, que trata buscas estáticas como um problema de memória, não de raciocínio, e reporta quedas no desperdício de GPU ao separar lookup de padrões do cálculo pesado das camadas do Transformer. Segundo a reportagem do VentureBeat de 13 de janeiro de 2026, a proposta tira de cima da GPU parte do trabalho que não precisa de lógica profunda, como recuperar nomes de produto ou expressões consagradas, algo que acontece milhões de vezes por dia em sistemas corporativos.

O ponto central é simples e contundente para quem paga a conta de inferência. Em vez de acionar o pipeline inteiro de atenção e MLP para cada token com padrão estático, o Engram faz uma consulta determinística em tempo constante em uma grande tabela de embeddings e usa um gate contextual para decidir se a memória recuperada deve influenciar a predição. Nos testes relatados, a DeepSeek observou melhora nos benchmarks de raciocínio, além da possibilidade de manter a maior parte dessa tabela fora da HBM da GPU, com impacto de throughput abaixo de 3 por cento ao buscar na RAM via PCIe.

Por que separar lookup de raciocínio muda a conta

A ausência de um primitivo nativo de lookup nos Transformers força os modelos a simularem recuperação de conhecimento gastando várias camadas de atenção e feed-forward, inclusive quando a tarefa se parece com um simples acesso de hash. O Engram traz um atalho, ao transformar n-gramas de dois ou três tokens em endereços de uma tabela de embeddings acessada em O(1). O gating filtra colisões e ambiguidades como “Apple” empresa versus fruta. Isso evita consumir profundidade efetiva com composição de padrões que são, na prática, estáticos.

Essa separação produz ganhos medidos. No relato do VentureBeat, a DeepSeek reporta aumentos em raciocínio de 70 para 74 por cento e em tarefas de conhecimento de 57 para 61 por cento em conjuntos como Big-Bench Hard, ARC-Challenge e MMLU, mantendo os parâmetros e FLOPs comparáveis aos baselines. O detalhe prático que chama atenção é a alocação ótima de capacidade: cerca de 75 a 80 por cento de sparsidade para computação dinâmica e 20 a 25 por cento para memória estática, um trade-off em U que penaliza extremos somente-computação ou somente-memória.

Como o Engram funciona, na prática

O módulo usa hashing de n-gramas para retornar embeddings candidatos em tempo constante, independentemente do tamanho da tabela. A fusão com o estado corrente do modelo acontece via um gate que considera o contexto recente. Esse gate suprime memórias inconsistentes e libera as relevantes. O Engram não aparece em todas as camadas, a colocação é estratégica para equilibrar ganho e latência. Como os índices dependem do input e não do hidden state, o sistema consegue pré-buscar embeddings na CPU enquanto as primeiras camadas rodam na GPU, mascarando parte da latência de transferência. Em demonstrações, a DeepSeek offloadeou uma tabela de 100 bilhões de parâmetros para DRAM com penalidade de throughput inferior a 3 por cento.

Sob a ótica de engenharia, isso abre um caminho de arquitetura heterogênea onde a HBM da GPU foca no cálculo e a DRAM do host armazena uma memória densa, acessada em fluxo assíncrono. O repositório da DeepSeek no GitHub resume a premissa como um novo eixo de sparsidade, complementar ao MoE, com endereçamento determinístico e integração simples via um módulo Engram.

![Diagrama básico de Transformer, útil para localizar onde inserir módulos auxiliares]

O que muda no TCO de inferência

Custo total de operação em LLMs corporativos tem um vilão óbvio, a inferência. O volume de tokens processados em aplicativos reais pressiona memórias e interconexões. A estratégia Engram altera a curva porque desloca parte da capacidade para memória fora da GPU. Casos em que conhecimento factual e padrões linguísticos se repetem intensamente tendem a ver maiores ganhos, já que cada ocorrência deixa de consumir camadas profundas para uma composição que poderia ser tabelada. Em sistemas com limites de HBM, a possibilidade de armazenar 100 bilhões de parâmetros de memória estática em DRAM com queda de throughput abaixo de 3 por cento é um diferencial imediato de custo por requisição.

Esse debate também conversa com a tendência macro do mercado. Em março de 2025, a NVIDIA mostrou ganhos de throughput de inferência para DeepSeek-R1 em hardware Blackwell, citando mais de 250 tokens por segundo por usuário e até 30 mil tokens por segundo em um DGX com oito GPUs, apoiado por TensorRT-LLM e quantização de menor precisão. Até onde o hardware escala, o software vai, mas modelos mais racionais com a memória tornam essa escala menos cara.

Ao mesmo tempo, executivos da NVIDIA lembraram diversas vezes que modelos de raciocínio exigem mais computação, não menos, o que pode manter a demanda por GPUs elevada. Em 2025, Jensen Huang argumentou que a reação do mercado a avanços como o R1 foi precipitada, já que inferência caminha para raciocínios mais longos e trabalhosos. Mesmo com otimizações, a necessidade de compute não desaparece, ela muda de perfil, o que torna abordagens que atacam desperdício silencioso, como a memória condicional, ainda mais relevantes para eficiência.

![Corredor de data center, símbolo do custo de inferência em escala]

Memória condicional versus KV cache, RAG e memórias agentic

É natural confundir Engram com RAG, memória externa de agentes ou compressão de KV cache. São problemas diferentes. RAG adiciona documentos externos ao contexto. Memórias agentic, como Hindsight e MemOS, guardam histórico de sessões e preferências. Engram mexe na estrutura interna do modelo, trocando parte de uma computação cara por consultas de memória baratas, com gate contextual dentro do forward pass. Essa distinção foi destacada na cobertura do VentureBeat e por fundadores de ferramentas de memória agentic.

Já KV cache é o coração da latência e memória na inferência autoregressiva. Há uma enxurrada de pesquisas para comprimir, descartar ou offloadar partes do cache sem perder qualidade, mas elas não atacam o mesmo gargalo que Engram. Trabalhos como SAGE-KV mostram que dá para selecionar tokens e cabeças mais importantes após o prefilling e comprimir o cache com perda mínima, chegando a 4 vezes mais eficiência de memória que métodos estáticos, enquanto HCAttention combina quantização de chaves, offload de valores e políticas dinâmicas para rodar contextos extremados, até milhões de tokens, com apenas 12,5 por cento do cache ativo em alguns cenários. Outros, como LazyEviction e ASR-KF-EGR, miram o padrão de recorrência de importância de tokens e o congelamento temporário e reversível de segmentos pouco relevantes, reduzindo o crescimento do cache sem matar o raciocínio em cadeias longas.

A boa prática que emerge é combiná-las. Engram poupa camadas iniciais de compor padrões estáticos, liberando profundidade para raciocínio. Em paralelo, compressão e políticas mais inteligentes de KV cache protegem a memória durante geração longa. E RAG entra como fonte de conhecimento fora do peso do pré-treinamento. Cada peça otimiza um ponto diferente do pipeline.

Exemplos práticos de aplicação

Catálogos e contratos padronizados. E-commerce e operações legais repetem termos, SKUs, cláusulas e nomes próprios constantemente. Ao transformar esses n-gramas em entradas de uma memória condicional, a GPU deixa de recomputar a mesma composição a cada ocorrência, com gate garantindo que a memória só atue quando o contexto pedir. Resulta em tokens por segundo mais estáveis, especialmente sob carga.
Atendimento e suporte. Bases com nomes de produtos e códigos de erro se beneficiam do Engram. A consulta determinística alimenta embeddings relevantes sem forçar atenção profunda para cada erro ou SKU. Combine com um RAG enxuto para anexar PDFs e runbooks.
Ambientes com restrição de HBM. Servidores com GPUs de memória menor ganham vida extra ao offloadar a grande tabela de memória para DRAM. A DeepSeek demonstrou penalidade inferior a 3 por cento de throughput nesse offload com pré-busca, o que muda a equação de custo por chamada em clusters mistos.

Como experimentar com baixo risco

Prova de conceito com gate conservador. Ajuste a sensibilidade do gate para só injetar memória quando houver alta confiança contextual. Isso reduz riscos de colisão semântica, como empresas e frutas com o mesmo nome, enquanto mapeia o ganho de TPS.
Telemetria de acertos e quedas. Instrumente métricas de qualidade e latência por rota de decisão do gate, registrando quando a memória condicional foi usada e o impacto na qualidade.
Integração com políticas de KV. Emparelhe Engram com SAGE-KV ou LazyEviction para contextos longos, e avalie quantização leve de chaves e offload de valores ao estilo HCAttention quando o objetivo for contextos gigantes em hardware limitado.
Planejamento de capacidade. Se a sua fila de inferência já está limitada por HBM, simule o deslocamento de memória para DRAM e projete a economia versus custo de CPUs com mais RAM.

Métricas de negócio que valem acompanhar

Custo por mil tokens servidos. Meça antes e depois da ativação do Engram. Observe quedas especialmente em rotas com maior repetição de padrões.
Tokens por segundo por usuário. No limite, o objetivo é manter produção estável sob carga. Benchmarks mostram que quantização e otimizações de runtime em hardware Blackwell empurram TPS para cima, e a memória condicional pode estabilizar a variância.
Taxa de regressão de qualidade. Monitore pares como MMLU e tarefas internas. A DeepSeek reportou ganhos líquidos de 4 pontos em raciocínio em relação aos baselines testados.

Riscos, limites e o que observar em produção

Ambiguidade lexical e colisão de hash. Mesmo com gate, existem riscos de falso positivo. Estratégias de negativos duros e logs de auditoria ajudam a detectar onde a memória interferiu indevidamente.
Distribuição fora do treinamento. Em domínios com jargão rapidamente mutável, parte do que hoje é lookup estático vira raciocínio amanhã. Preveja ciclos de atualização da tabela e ferramentas para inserir termos novos com teste canário.
Dependência de I/O. O offload para DRAM exige engenharia cuidadosa de prefetch, posicionamento do módulo e sobreposição com blocos iniciais do Transformer para não expor latência. A DeepSeek relatou menos de 3 por cento de penalidade em demonstração controlada, mas cada pilha tem sua topologia.

Como essa tendência conversa com o futuro do hardware

Optimizações de memória não invalidam a necessidade de GPUs mais rápidas. A NVIDIA alardeou recordes de inferência para o R1 em 2025 com Blackwell, apoiado por TensorRT-LLM e formatos como FP4, sinalizando que software e hardware caminham juntos. Ao mesmo tempo, lideranças da empresa estimam que modelos de raciocínio pedem muito mais compute, o que explica porque, apesar das economias, a demanda estrutural por inferência segue crescendo. Em suma, Engram é alavanca de eficiência, não substituto de capacidade.

Checklist de adoção em equipes de plataforma

Identificação de padrões estáticos de alto volume. Levante n-gramas mais frequentes em logs de produção, priorize os que aparecem em jornadas críticas de negócio.
POC com shadow traffic. Intercepte requisições reais, calcule a decisão do gate sem afetar a resposta, avalie TPS e qualidade.
Planejamento de armazenamento. Estime o tamanho da tabela de memória e o orçamento de DRAM necessário, com folga para crescimento.
Políticas de atualização. Defina SLA para inserir ou remover n-gramas relevantes, e métricas de impacto.
Emparelhamento com compressão de KV. Se a aplicação usa contextos longos, avalie SAGE-KV, LazyEviction ou HCAttention para ganhos adicionais sem degradar raciocínio.

Conclusão

Separar lookup estático do raciocínio dinâmico é um passo lógico e atrasado na arquitetura de LLMs. A memória condicional da DeepSeek, ancorada no Engram, abre um veio novo de eficiência ao transformar parte do problema em acesso de memória em O(1) com gate contextual. Os números reportados e a demonstração de offload para DRAM com queda mínima de throughput sugerem uma rota prática para reduzir gasto de GPU sem amputar qualidade.

Este movimento não concorre com compressão de KV cache, RAG ou avanços de hardware, ele se soma. Equipes que combinarem essas frentes devem ver melhores custos por token e menos gargalos em produção. O horizonte aponta para arquiteturas híbridas onde compute e memória não brigam por espaço, elas jogam juntas, cada uma no seu papel, para entregar LLMs mais inteligentes, baratos e rápidos.