NVIDIA apresenta Vera CPU para agentes de IA

Introdução

NVIDIA Vera CPU é apresentada como um processador criado para agentes de IA e para as cargas de trabalho que dominam os data centers modernos. A promessa é direta, acelerar tarefas de agentes, reforço e dados, com ganhos de 1.8x na conclusão de tarefas frente a CPUs x86, além de encaixar na economia de tokens que governa a IA generativa de hoje. É um anúncio com data e contexto, 31 de maio de 2026, no GTC Taipei, com disponibilidade a partir do outono no hemisfério norte.

O que diferencia a NVIDIA Vera CPU não é apenas mais um salto de núcleos. A empresa posiciona a peça como o “cérebro de apoio” de agentes que não só respondem perguntas, mas também chamam ferramentas, executam código, rodam sandboxes e avaliam resultados. Esse tipo de trabalho precisa de latência baixa na CPU, alto throughput por thread e um canal de memória que não engasgue quando o agente alterna entre Python, SQL, compilação e análise.

Por que agentes de IA precisam de uma nova CPU

Agentes de IA mudaram o jogo. Eles encadeiam raciocínio com tool calling, rodam trechos de código, consultam banco de dados e voltam para a GPU para ajustar pesos ou produzir a próxima ação. Cada salto CPU para GPU e de volta é um ponto de gargalo. A NVIDIA argumenta que a economia dos data centers está migrando de núcleos por dólar para tokens por dólar, então a CPU deixa de ser coadjuvante e vira alavanca de throughput de agentes. Daí a meta de 1.8x na velocidade de conclusão de tarefas de agentes comparada a arquiteturas x86.

Esse reposicionamento também aparece na integração, a Vera atua como host para plataformas Rubin com GPUs de última geração, conectada via a segunda geração do NVLink C2C, oferecendo até 1.8 TB por segundo de banda coerente entre CPU e GPU. Isso busca reduzir a “fricção” de ida e volta de dados que todo pipeline agentic enfrenta.

O que há dentro da NVIDIA Vera CPU

A ficha técnica revela prioridades claras, 88 núcleos Olympus desenhados pela NVIDIA, foco em desempenho por thread, multithreading espacial para concorrência, LPDDR5X como subsistema de memória com até 1.2 TB por segundo de largura de banda, mais a malha de coerência SCF e o pacote de segurança com confidential computing em escala de rack. O resultado pretendido é simples, manter os aceleradores ocupados enquanto a CPU orquestra, compila, executa scripts e manipula dados sem virar gargalo.

Fontes independentes registraram que a linha Vera adota 88 núcleos Arm e visa competir de frente com Epyc e Xeon, inclusive com racks densos, refrigeração líquida e desenho pensado para IA e analítica. Em março de 2026, reportagens detalharam esses aspectos, e em maio de 2026 surgiram os primeiros testes curados em Linux que mostram competitividade em cargas específicas. Isso reforça a leitura, não é só um anúncio, há um roadmap de produto e evidências iniciais de desempenho.

![Rack de CPU NVIDIA Vera]

Casos de uso práticos, do sandbox dos agentes ao ETL de dados

Agentes de IA com tool calling eficientes precisam de CPU que execute com rapidez as etapas fora da GPU, rodar Python, compilar pacotes, acionar APIs e tratar respostas. É aí que a NVIDIA posiciona a Vera, como motor de orquestração e execução, liberando as GPUs para o que fazem melhor. No blog técnico, a empresa destaca cenários como execução de código em sandbox, análise estática, pipelines de dados e gestão de estado de contexto extenso.

Esse perfil também encaixa em cargas de ETL aceleradas, quando a GPU espera a CPU normalizar dados, aplicar validações ou consultas SQL para alimentar lotes de inferência. Em data warehouses modernos, muitos fluxos são mistos, a GPU rende quando a CPU não atrasa o lote. O design da Vera endereça esse elo fraco com banda de memória elevada, foco em latência por thread e escalabilidade para centenas de contextos concorrentes.

Ecossistema, clientes iniciais e disponibilidade

A lista de parceiros e clientes pinta um quadro de adoção rápida, NYSE para latência e throughput de mensagens, laboratórios de IA como Anthropic, OpenAI e SpaceXAI avaliando a Vera para workloads agentic, e provedores como ByteDance, CoreWeave, Lambda, Nebius, Nscale e Oracle Cloud Infrastructure planejando implantações. Fabricantes como Dell, HPE, Lenovo e Supermicro devem ofertar servidores com Vera, em configurações de rack líquido denso e também em modelos dual socket com ar. A disponibilidade comercial começa no outono de 2026.

O blog corporativo da NVIDIA registrou entregas das primeiras máquinas para laboratórios líderes, incluindo Anthropic, OpenAI e OCI, sinalizando a transição do anúncio para a produção. Para quem opera plataformas de agentes, isso reduz incertezas sobre cronograma e dá previsibilidade para testes de orquestração e RL.

Ilustração do artigo

Como a Vera se compara na prática

Benchmarks iniciais, ainda controlados, indicam que a Vera compete ou supera Epyc e Xeon em recortes de testes Linux, algo esperado dado o foco em alto desempenho por núcleo e o uso de LPDDR5X de banda agressiva. Relatos da imprensa especializada também destacam o posicionamento da Vera para desempenho single core muito alto, mesmo sem planos para PC. O desenho do produto mira data center, onde a métrica crítica é throughput de agentes e eficiência por watt, não apenas SPECs sintéticos.

Em termos de integração, a função de host CPU em plataformas Rubin, com NVLink C2C de até 1.8 TB por segundo, deve reduzir a sobrecarga de ida e volta CPU GPU comum em cadeias agentic. Na prática, menos espera entre a execução de código em sandbox e o passo seguinte no grafo do agente. Isso se traduz em mais tokens servidos por dólar e menor latência percebida pelo usuário final.

![Corredor de data center com racks de servidores]

Segurança, confidencialidade e dados sensíveis

Data centers voltados a IA generativa e agentes carregam dados sensíveis, contexto persistente e tokens que representam valor econômico direto. A NVIDIA descreve confidential computing estendido em escala de rack, além de integração com BlueField 4 e DOCA para segurança em cada camada da fábrica de IA no portfólio Vera Rubin. Em ambientes com sandboxing frequente, isso reduz a superfície de ataque e melhora conformidade, sem invadir o orçamento de latência.

Impacto na arquitetura de data centers e na economia dos tokens

A arquitetura emergente de IA industrial mistura clusters GPU de alta banda com ilhas CPU densas dedicadas à orquestração e dados. Quando a CPU normaliza dados, compila código, roda agentes e coordena o fluxo entre contextos, o throughput global aumenta. A Vera codifica essa visão no silício, com foco em instruções por ciclo, banda de memória por watt e coerência CPU GPU de baixa latência. Em ambientes com agentes instrumentados por RL, cada ciclo ganho na CPU reduz o tempo de episódio e acelera convergência.

Essa mudança afeta custos. Se tokens por dólar dominam o P L, faz sentido realocar orçamento de energia e CAPEX para CPUs que removem esperas e liberam as GPUs. O argumento central, apoiado por dados divulgados pela própria NVIDIA, é que 1.8x em tarefas de agentes pode representar margens maiores por rack e melhor experiência do usuário, com menos timeouts, menos quedas de sessão e mais interatividade.

Como começar, estratégias para equipes de plataforma

Equipes que rodam plataformas agentic podem testar a Vera em workloads piloto com três passos práticos, mapear onde a CPU segura o pipeline, medir quantos tokens por minuto são perdidos em compilações, ETL, chamadas de ferramenta e I O. Em seguida, prototipar nós de orquestração dedicados, conectados a clusters GPU via NVLink C2C, quando disponível, ou redes padrão, avaliando latência e custo. Por fim, isolar workloads de sandbox de código, filas de Python e pipelines SQL em nós Vera para reduzir contenção. O objetivo é simples, garantir que a GPU nunca espere desnecessariamente pela CPU.

O que observar nos próximos meses

São três frentes. Primeiro, disponibilidade real a partir do outono de 2026 e a amplitude de ofertas de OEMs como Dell, HPE, Lenovo e Supermicro. Segundo, resultados de benchmarks independentes, amplos e reproduzíveis, incluindo cargas mistas de agentes, ETL e sandboxing. Terceiro, relatos de operação em escala em nuvens como OCI, ByteDance e CoreWeave, incluindo métricas de tokens por dólar e latências p95 p99 em fluxos agentic. Os sinais iniciais de entrega a laboratórios de ponta são positivos, mas o teste definitivo é produção contínua.

Conclusão

A NVIDIA Vera CPU surge como a peça que faltava na infraestrutura agentic. O projeto se apoia em 88 núcleos, banda de memória agressiva e integração coerente com GPUs para cortar esperas e aumentar throughput, endereçando o ponto onde muita arquitetura de IA patina, a CPU de orquestração. Se os ganhos de 1.8x em tarefas de agentes se repetirem em cenários reais, data centers verão mais tokens por watt e menor latência percebida.

A hora é de experimentação disciplinada. Equipes que estruturarem pilotos com métricas de tokens por dólar e filas CPU GPU bem instrumentadas ficam em melhor posição para decidir quando migrar parte do parque para Vera. Com adoção de grandes clientes no radar e disponibilidade comercial confirmada para o outono, o próximo semestre oferece um campo fértil para validar essa tese.