Corredor de data center com racks e iluminação azul
Infraestrutura de IA

NVIDIA e Thinking Machines lançam Vera Rubin em gigawatt

Parceria estratégica multianual prevê a implantação de sistemas de IA Vera Rubin em escala de gigawatt, com foco em treinar modelos de fronteira e ampliar acesso a IA personalizável

Danilo Gato

Danilo Gato

Autor

11 de março de 2026
11 min de leitura

Introdução

A NVIDIA e a Thinking Machines Lab anunciaram uma parceria estratégica multianual para implantar, a partir do início do próximo ano, ao menos um gigawatt de sistemas de IA baseados na plataforma Vera Rubin, com foco em treinar modelos de fronteira e oferecer IA customizável em escala para empresas e instituições de pesquisa. O anúncio, publicado em 10 de março de 2026 no blog oficial da NVIDIA, destaca também um investimento relevante da NVIDIA na Thinking Machines.

A relevância é direta para quem acompanha infraestrutura de IA. Vera Rubin é a primeira plataforma de IA de coengenharia extrema da NVIDIA, composta por seis chips e uma pilha completa de rede e software que promete reduzir o custo de tokens de inferência para um décimo em relação à geração anterior. Em janeiro de 2026, a NVIDIA detalhou que a Rubin está em produção, com GPUs Rubin, CPUs Vera, NVLink 6, Spectrum‑X Ethernet Photonics, BlueField‑4 e ConnectX‑9, todos projetados em conjunto para escalar IA em gigascala.

O artigo aprofunda o que muda com a chegada da Vera Rubin, por que um compromisso em escala de gigawatt importa, como isso se conecta à pressão energética dos data centers e o que executivos e times técnicos podem fazer desde já para capturar valor sem surpresas na conta de energia.

O que está na mesa: parceria em escala de gigawatt

O acordo estabelece uma colaboração de longo prazo entre NVIDIA e Thinking Machines Lab para implantar pelo menos um gigawatt de capacidade de computação suportada por sistemas Vera Rubin, com início de implantação previsto para o começo do próximo ano. A NVIDIA afirma que a parceria também inclui coengenharia de sistemas de treinamento e serving otimizados para suas arquiteturas, além de ampliar o acesso a modelos de fronteira e modelos abertos para o ecossistema empresarial e científico.

Além do fornecimento de tecnologia, a NVIDIA realizou investimento na Thinking Machines Lab para apoiar o crescimento de longo prazo da empresa. Em nota paralela, a Axios reportou que a Thinking Machines, liderada por Mira Murati, comprometeu-se a usar um gigawatt de computação NVIDIA a partir do início de 2027, reforçando a dimensão energética do anúncio.

Essa escala não é comum. Relatórios recentes da Uptime Intelligence e Deloitte mostram que os maiores projetos de data centers de IA já nascem no patamar de centenas de megawatts e caminham para múltiplos gigawatts, impulsionados por cargas de treinamento e inferência de modelos cada vez mais complexos.

Por dentro da Vera Rubin, a plataforma de seis chips

A Vera Rubin não é apenas mais uma GPU. É uma plataforma coengenheirada que integra seis componentes principais: GPU Rubin, CPU Vera, NVLink 6, Spectrum‑6 Ethernet Photonics, ConnectX‑9 SuperNIC e BlueField‑4 DPU. Essa integração busca eliminar gargalos entre chips, placas, racks, rede, armazenamento e software, reduzindo tempo de treinamento e custo por token em inferência.

Na CES 2026, a NVIDIA descreveu objetivos claros para a Vera Rubin: acelerar o próximo salto da IA, entregar tokens a um décimo do custo da geração anterior e suportar contextos longos com um novo armazenamento nativo de IA para KV‑cache, elevando tokens por segundo e eficiência energética por dólar de TCO em 5 vezes. Essa abordagem combina ganhos em interconexão NVLink 6, rede Ethernet fotônica Spectrum‑X e offloads inteligentes em DPUs BlueField‑4.

Para quem constrói plataformas de IA de missão crítica, isso significa arquitetar o data center como um supernó de IA, onde latência GPU‑GPU, coerência CPU‑GPU e throughput de rede deixam de ser gargalos isolados e passam a ser parâmetros de sistema. A consequência prática é simples, reduzir custo por token de inferência e tempo de treinamento amplia a fronteira de casos viáveis, de agentes corporativos a simulações físicas e direção autônoma.

Thinking Machines Lab, foco em modelos de fronteira e IA personalizável

A Thinking Machines Lab surgiu em 2025 com a proposta de tornar sistemas de IA mais compreensíveis, customizáveis e capazes, atraindo talentos de laboratórios líderes. O site oficial da companhia reforça a missão de aproximar pesquisa e produto para que pessoas e organizações moldem a IA às suas necessidades. Perfis em bases públicas e reportagens recentes destacam crescimento do time e ambição de liderar a próxima onda de modelos.

Segundo a NVIDIA, a parceria pretende ampliar o acesso a modelos de fronteira e também a modelos abertos para empresas, pesquisa e comunidade científica, abordagem que dialoga com o movimento de modelos abertos apresentados pela NVIDIA em domínios como saúde, clima, robótica e direção autônoma. Para quem depende de auditabilidade e integração on‑prem, esse detalhe importa, já que modelos abertos facilitam avaliação, guardrails e implantação sob requisitos de conformidade.

![Data center com corredores de racks iluminados em azul]

Por que “escala de gigawatt” virou o novo normal da IA

Energia é o novo limite da IA. Estudos recentes projetam um salto de 165 por cento na demanda de energia de data centers até 2030, puxado por IA e nuvem. No mercado dos Estados Unidos, estimativas apontam que a demanda de data centers pode atingir 106 gigawatts até 2035. Ao mesmo tempo, relatórios setoriais mostram que os maiores projetos em implantação pelos hyperscalers já são medidos em gigawatts, saindo do patamar de centenas de megawatts.

Casos nacionais recentes ilustram o impacto. Em Taiwan, autoridades projetam aumento de mais de 5 GW no consumo elétrico até 2030 impulsionado por semicondutores e data centers de IA, algo próximo de um gigawatt adicional ao ano. É um lembrete de que gigawatt não é retórica de marketing, é planejamento de carga real que toca geração, transmissão, subestações e contratos de longo prazo.

Nos Estados Unidos, discussões em Washington colocam pressão para que grandes operadores desenvolvam geração própria, buscando aliviar temores de alta tarifária para consumidores com a chegada de novos polos de IA. A mensagem pública tem sido a de proteger pagadores de tarifa enquanto se viabiliza a nova infraestrutura computacional.

Lições de estratégia, energia e resiliência

Projetos de IA em gigascala exigem uma visão integrada de tecnologia e energia. Em 2026, reportagens apontaram ajustes de estratégia em campi de IA de grande porte, com revisões de expansão e realocação geográfica após eventos climáticos que afetaram operações de resfriamento, além de atualizações de roadmap de chips que incluem transições para plataformas como a Vera Rubin. Essas mudanças reforçam a importância de resiliência térmica, diversificação de locais e orquestração de capacidade multi‑campus.

Ilustração do artigo

Para executivos, três implicações práticas se destacam:

  • Capacidade elétrica e térmica primeiro. Planejar racks com envelopes de potência e densidade compatíveis com Rubin GPUs, CPUs Vera e NVLink 6, prevendo expansão sem refazer planta. Relatórios técnicos e de produto da NVIDIA ajudam a balizar decisões de rede, storage e offloads em DPU.
  • Contratos de energia e flexibilidade operacional. Projetos gigawatt pedem contratos de longo prazo, PPAs, geração distribuída e, quando possível, participação em mercados de capacidade e resposta à demanda. Pesquisas acadêmicas recentes tratam a variabilidade de carga de IA como um novo desafio de estabilidade de sistemas elétricos, com rampas multi‑gigawatt exigindo novas estratégias operacionais.
  • Cadeia de suprimentos e lead time. Plataformas extremas reduzem custos por token, mas dependem de lead time de componentes de rede fotônica, DPUs, NICs e switches de alta capacidade. Antecipar janelas de compra evita subutilização de clusters por falta de interconexão.

O que muda para times de engenharia e produto

Do lado técnico, a Vera Rubin traz um caminho claro para quem sente o peso do custo de inferência em produção. A promessa de token a um décimo do custo implica revisar arquiteturas de serviço para aproveitar melhor NVLink 6 e storage nativo de contexto, reduzindo latência e custo por requisição. Em aplicações com agentes corporativos e contextos longos, o ganho direto é throughput de tokens por segundo, que pode destravar experiências antes economicamente inviáveis.

No treinamento, a coengenharia em seis chips, com rede escalável e offloads em DPU, reduz gargalos clássicos de sincronização e comunicação coletiva. Para workloads de fronteira em multimodalidade, raciocínio e simulação, cada redução de tempo por etapa de training encurta ciclo de modelo e acelera time‑to‑value. Essa dinâmica foi destacada pela NVIDIA em janeiro, ao posicionar Rubin como a base do próximo salto.

Para produto, a combinação entre modelos de fronteira e modelos abertos citada pela NVIDIA aponta para um portfólio híbrido. Em domínios regulados, modelos abertos treinados em supercomputadores NVIDIA permitem avaliação, guardrails e implantação local, enquanto serviços de fronteira se beneficiam da capacidade agregada em gigawatt planejada com a Thinking Machines.

![Macro de GPU NVIDIA em placa, representando o stack Rubin]

Impactos competitivos, custo e acesso a modelos

A competição em hardware e modelos acelera. Em janeiro, a Rubin foi apresentada como sucessora direta do recordista Blackwell, agora com coengenharia extrema. Em paralelo, o ecossistema de modelos abertos da NVIDIA, cobrindo saúde, clima, robótica, embodied intelligence e direção autônoma, cria uma via de adoção mais ampla, permitindo que empresas personalizem modelos, testem e governem suas instâncias. Essa estratégia dialoga com o plano da Thinking Machines de IA personalizável.

Do lado econômico, custo por token e eficiência por dólar de TCO são as métricas que decidem o que entra em roadmap. A Rubin mira diretamente essas variáveis. Empresas que hoje gastam pesado com inferência de modelos longos podem reavaliar orquestração, quantização e cache de contexto, priorizando workloads que mais se beneficiam de NVLink 6 e de armazenamento nativo de memória de inferência.

No topo da pilha, acordos em escala de gigawatt tendem a garantir disponibilidade de capacidade para parceiros, reduzindo risco de fila na hora de treinar ou servir modelos em picos de demanda. O reporte da Axios sobre o compromisso de um gigawatt pela Thinking Machines ilustra como capacidade, energia e chip roadmap viram agenda de C‑level, não apenas de engenharia.

Energia, política pública e a próxima década de IA

A expansão em gigawatt eleva a conversa para além do data center. Estimativas de bancos e consultorias apontam que a demanda de energia de data centers pode mais que dobrar nesta década, e que a taxa de ocupação da capacidade instalada sobe para patamares acima de 95 por cento até o fim de 2026. Não é trivial adicionar gigawatts por ano onde a rede já é pressionada por outras cargas.

Nos Estados Unidos, a discussão pública recente sugere um caminho, incentivar geração própria e proteção de pagadores de tarifa. Enquanto isso, ajustes de estratégia em campi de IA mostram que eventos climáticos, infraestrutura de resfriamento e mudanças de roadmap de chips podem alterar planos rapidamente. Planejar resiliência, localização e contratos de energia de longo prazo virou parte do playbook competitivo.

Como capturar valor com a Vera Rubin sem se perder no consumo

  • Avaliar o mix de modelos. Separar o que exige cluster Rubin de cargas que podem rodar em infra local com GPUs anteriores ou em edge, liberando capacidade de gigawatt para treinos e inferência críticos.
  • Reprojetar a pilha de inferência. Investir em KV‑cache nativo, compressão e rota de modelos para explorar a queda de custo por token prometida pela Rubin.
  • Orquestrar multi‑região e DR. Considerar interconectar campi, prever picos, e testar rotas de fallback para evitar interrupções por clima extremo ou eventos de rede.
  • Acelerar compliance e governança. Usar modelos abertos quando a lei exigir auditabilidade, registrar dados de avaliação e guardrails para inspeção regulatória.

Conclusão

A parceria entre NVIDIA e Thinking Machines Lab sinaliza a maturidade de uma nova fase da IA, na qual capacidade de computação e energia se tornam variáveis estratégicas de produto. Com a Vera Rubin, a promessa é clara, reduzir pela ordem de magnitude o custo de inferência e acelerar treinamento com uma arquitetura de seis chips desenhada como sistema. Para quem constrói, essa queda de custo expande o conjunto de problemas resolvíveis em tempo de negócio.

Ao mesmo tempo, escala de gigawatt não é só marketing, é engenharia de energia. O debate sobre demanda elétrica, planejamento de rede e incentivos a geração própria mostra que a próxima década de IA será decidida também fora do rack, em PPAs, subestações e políticas públicas. Quem alinhar a engenharia de modelo à engenharia de potência terá vantagem, porque IA sem energia é só um paper, e com Vera Rubin a corrida é para transformar capacidade em valor, com custo por token controlado e resiliência operacional em primeiro plano.

Tags

NVIDIAThinking Machines LabVera RubinData centersEnergia