Nvidia lança Groq 3 LPU para inferência multiagente

Introdução

A Groq 3 language processing unit, palavra chave central deste anúncio, foi apresentada na abertura do GTC 2026 como o primeiro chip de inferência dedicado nascido do acordo de licenciamento e contratação de talentos da Groq pela Nvidia em dezembro de 2025. O foco é claro, atender a sistemas multiagente com latência ultrabaixa, contextos massivos e throughput por watt agressivo. O anúncio veio acompanhado da plataforma de racks Groq 3 LPX e da sinergia com o rack Vera Rubin NVL72.

Mais do que um lançamento de produto, a movimentação sinaliza a estratégia da Nvidia para dominar a camada de inferência em escala, aproveitando a tecnologia da Groq e combinando com sua própria pilha de GPUs, redes e software. Os detalhes de hardware e de integração com o ecossistema Rubin indicam uma visão pragmática para atender a cargas reais de produção, onde agentes conversam entre si, trocam milhares de tokens por segundo e dependem de janelas de contexto gigantes.

O que é a Groq 3 LPU e por que isso importa

A Groq 3 LPU é um processador otimizado para inferência, priorizando latência e largura de banda de memória para manter modelos grandes responsivos em aplicações multiagente. Diferente de GPUs generalistas, que treinam e inferem, a LPU foca em executar modelos já treinados com previsibilidade e baixa sobrecarga. No GTC 2026, a Nvidia posicionou a Groq 3 como uma espécie de coprocessador para as GPUs Rubin, acelerando a geração de tokens em todas as camadas do modelo.

O desenho de produto inclui racks dedicados, os Groq 3 LPX, com 256 LPUs por rack. Segundo a cobertura do anúncio, cada rack LPX oferece 128 GB de memória do tipo solid state random access memory e 40 petabytes por segundo de largura de banda agregada para inferência, um número que evidencia a aposta na alimentação de contextos longos e comunicação rápida entre agentes. A meta operacional declarada mira comunicações agent to agent na casa de 1.500 tokens por segundo, muito além do que humanos precisam em interfaces tradicionais.

Do ponto de vista de impacto, há dois movimentos chaves. Primeiro, arquitetura especializada para inferência em escala, reduzindo custos por token e latência tail. Segundo, integração explícita com o restante da pilha Rubin, permitindo orquestrar treinamento, fine tuning e inferência em um mesmo tecido de interconexão e software da Nvidia, sem fricção operacional entre domínios.

A integração com o rack Vera Rubin NVL72

A Nvidia descreve o Vera Rubin NVL72 como um sistema em rack que conecta 72 GPUs Rubin em topologia all to all por meio do NVLink 6, entregando 260 TB por segundo de banda interna. Na prática, o rack funciona como um único acelerador lógico com múltiplos exaFLOPS de computação, pensado para modelos de trilhões de parâmetros e contextos de milhões de tokens. É exatamente esse perfil que precisa conversar com inferência especializada de baixíssima latência, o espaço onde a Groq 3 LPU atua como coprocessador.

No palco, a narrativa da empresa foi direta, usar Groq 3 LPX em tandem com Vera Rubin NVL72 para maximizar eficiência de energia, memória e computação em workloads agentic. A combinação foi apresentada como capaz de entregar 35 vezes mais throughput por megawatt, junto com uma oportunidade de receita 10 vezes maior em certos cenários de produção. Esses números foram citados na cobertura especializada do anúncio.

Para equipes de plataforma, a lição é clara. Treinamento massivo continua no domínio das GPUs, mas a camada de inferência de produção, especialmente para agentes, tende a migrar para hardware LPU, com filas de requisições e planos de agendamento coordenados pelo orquestrador do data center, de preferência colocalizados no mesmo domínio de rede e energia dos racks Rubin.

![Ilustração de data center com racks espelhados e luz azul]

O acordo Groq, de onde veio a tecnologia

A viabilização da Groq 3 LPU nasce de um acordo firmado em dezembro de 2025. A Nvidia licenciou a tecnologia de inferência da Groq e contratou executivos e engenheiros chave do time, em uma operação reportada em aproximadamente 20 bilhões de dólares. O próprio 10 K de 2026 da Nvidia referencia um acordo não exclusivo de licenciamento de tecnologia com a Groq e contratações relacionadas. Fontes de mercado, como Nasdaq, Trefis e veículos europeus, contextualizaram o valor e o racional estratégico do negócio para consolidar a liderança da Nvidia em inferência.

Esse contexto explica a velocidade, três meses após o anúncio, já há um chip de inferência dedicado na mesa, com empacotamento em racks LPX e narrativa de integração com Rubin. A execução acelera porque a Groq já vinha desenvolvendo LPUs focadas em throughput de tokens e latências determinísticas, e a Nvidia tem a fábrica de produto e o ecossistema de software para levar isso a escala.

Números que interessam para planejamento de capacidade

Para quem dimensiona clusters, alguns dados balizam decisões. Primeiro, a banda interna do NVL72, 260 TB por segundo, define o teto de comunicação intra rack para o lado Rubin. Segundo, a banda agregada de 40 PB por segundo no rack LPX indica que a Nvidia está projetando a camada de inferência para saturar pipelines de atenção estendidos, RAG denso e streaming de agentes. Terceiro, a meta de throughput de 1.500 tokens por segundo em conversas entre agentes aponta para filas curtas, réplicas abundantes e estratégias de priorização de tráfego que hoje raramente são necessárias em interfaces humano modelo.

Do lado macro, há vento a favor de capex. Estimativas recentes colocam o investimento dos grandes hyperscalers acima de 600 bilhões de dólares em 2026. Esse número aparece em análises de mercado e bancos, refletindo guias de investimento divulgados por AWS, Google, Microsoft e Meta. Esse pano de fundo explica por que a Nvidia expande oferta de racks completos, unindo computação, rede e armazenamento com arquiteturas de referência como BlueField 4 STX para storage e Spectrum 6 SPX para rede.

Casos práticos, onde LPUs brilham

Orquestração multiagente de atendimento ao cliente. Em uma operação com agentes de extração, raciocínio e redação, o tempo útil é medido do primeiro token útil ao fechamento do caso. LPUs com baixa latência reduzem picos e suavizam a cauda de distribuição, permitindo SLAs agressivos. A integração com Rubin mantém o espaço para re treinos periódicos e modelos maiores quando necessário.
Agentes de dados para finanças e saúde. Em pipelines com milhões de tokens por consulta, memória rápida e alta banda sustentam contextos prolongados sem penalização drástica de latência. A banda interna do NVL72 e a colocalização com LPX permitem alinhar transformações, retrieval e geração de respostas.
Games e mundos persistentes com NPCs agentic. Vários agentes precisam conversar entre si e com jogadores com latência de áudio, abaixo de dezenas de milissegundos, e gerar respostas coerentes com o lore. Camadas LPU aliviam a carga e mantêm a taxa de tokens necessária para a imersão.
Ferramentas de desenvolvedor com copilotos coordenados. Pair programmers automáticos, linters semânticos e planejadores de build conversam continuamente. O gargalo migra da computação bruta para a qualidade de serviço por token. LPUs otimizam o tail latency e entregam previsibilidade.

Arquitetura de referência, como juntar as peças

Uma implantação prática pode seguir três linhas. Primeiro, racks Rubin NVL72 para treinamento e fine tuning, conectados por InfiniBand Quantum X800 e Spectrum X Ethernet, garantindo escala para modelos de parâmetros trilionários. Segundo, uma malha de racks LPX para inferência, dimensionada por TPS alvo e context window média, com failover entre LPUs via scheduler. Terceiro, um backbone de storage com BlueField 4 STX, pensado para acesso paralelo e cache de embeddings, além de uma camada de rede Spectrum 6 SPX para isolar tráfego de controle e dados.

Para workloads agentic, a sugestão é aproximar os serviços stateful dos racks LPX, armazenando memórias de longo prazo e vetores localmente quando possível. Isso reduz idas e vindas desnecessárias e melhora a eficiência de tokens por joule. Em paralelo, mantenha caminhos rápidos para os racks Rubin sempre que o agente precisar escalar para raciocínios mais pesados ou consultas com modelos maiores.

![Conceito de chip e circuitos brilhantes, foco em inferência]

Segurança, observabilidade e SLOs para agentes

À medida que o tráfego se torna máquina para máquina, as métricas mudam. Em vez de focar apenas em latência média, o olhar precisa ir para p95 e p99 por token, sucesso por chamada de ferramenta e consumo de contexto por sessão. A Nvidia vem apontando BlueField e recursos como Astra para isolar e proteger planos de dados em arquiteturas Rubin, algo essencial quando múltiplos agentes compartilham infraestrutura. Métricas granulares e isolamento por tenant ajudam a manter SLOs estáveis mesmo sob picos.

No nível de desenvolvimento, trace logs por agente, com amostragem dinâmica que aumenta diante de quedas de throughput ou aumento de alucinações. A topologia com LPUs dedicadas favorece o rate limiting por fila de agente, permitindo políticas previsíveis de degradação graciosa. O resultado prático é uma experiência mais consistente, que suporta a ambição de 1.500 tokens por segundo em comunicações entre agentes, sem sacrificar custo e controle.

Implicações de mercado e roadmap provável

A incorporação da tecnologia Groq à pilha Nvidia fecha um flanco competitivo na inferência, área onde startups vinham se destacando com latências e custos por token inferiores. O desenho LPU como coprocessador favorece a estratégia de vender racks completos e serviços conexos, capturando uma fatia maior do capex dos hyperscalers. Análises de mercado recentes colocam o gasto desses provedores acima de 600 bilhões de dólares em 2026, cenário que sustenta a oferta ampliada da Nvidia, incluindo arquiteturas de storage e rede como BlueField 4 STX e Spectrum 6 SPX.

No curto prazo, os próximos passos prováveis incluem variantes do Rubin voltadas a contextos ainda maiores, como o Rubin CPX, já comunicado com disponibilidade para o final de 2026, além de configurações NVL mais densas. A coexistência de GPUs para treinamento e LPUs para inferência tende a se tornar padrão de referência em data centers de IA.

Reflexões finais e insights acionáveis

Migrar para uma camada de inferência dedicada melhora previsibilidade de latência, o que é crítico para agentes que dependem de streaming rápido de tokens. O ganho não é só técnico, reflete em NPS e retenção de usuários finais.
Orquestrar Groq 3 LPX ao lado de Vera Rubin NVL72 reduz custos de banda leste oeste e simplifica a engenharia de plataforma. A topologia em rack único como acelerador lógico reduz surpresas de desempenho entre nós.
O melhor caminho para adoção é começar pelo topo de tráfego. Identifique fluxos com maior p99 e maior custo por token, mova esses serviços para LPUs e avalie a economia, antes de um rollout total.

Conclusão

A Groq 3 LPU marca uma inflexão na estratégia da Nvidia para inferência. Ao combinar um chip dedicado, racks LPX e integração com o ecossistema Rubin, a empresa cria um caminho claro para operar agentes em escala, com throughput alto, latência controlada e custos por token competitivos. O pano de fundo de capex crescente em data centers indica que há demanda concreta por esse tipo de arquitetura, especialmente quando a promessa é mais eficiência por megawatt e linhas de receita atreladas a serviços agentic.

Para quem constrói, a recomendação é prática. Modele SLOs por token e por sessão, projete filas e réplicas pensando em 1.500 tokens por segundo entre agentes, e avalie a colocalização de Groq 3 LPX com Vera Rubin NVL72. A combinação de especialização em inferência e escala de GPU cria um guarda chuva operacional que permite ir além de demos, e sustentar aplicações reais com milhões de usuários e conversas entre milhares de agentes, sem perder a mão em custo nem em controle.