NVIDIA traz Rubin AI e modelos abertos na CES 2026

Introdução

Rubin AI é a nova plataforma da NVIDIA apresentada em 5 de janeiro de 2026 na CES, em Las Vegas, e já em produção com seis chips co projetados para reduzir custos de inferência em até dez vezes e treinar modelos Mixture of Experts com quatro vezes menos GPUs em comparação ao ciclo Blackwell. A empresa também revelou uma família de modelos abertos para saúde, robótica, agentes multimodais e direção autônoma, além de destacar o novo Mercedes Benz CLA com software NVIDIA DRIVE AV chegando às estradas dos Estados Unidos neste ano.

O anúncio consolida uma virada de chave no stack de IA, do data center ao carro. O Rubin AI une GPU, CPU, NVLink, DPU, SuperNIC e Ethernet Photonics sob um desenho único, enquanto os modelos abertos ampliam o acesso a dados e ferramentas em escala. Para quem constrói produtos com IA, o recado é claro, custo por token menor, mais largura de banda entre chips e um ecossistema de modelos e dados disponível de forma aberta.

Rubin AI, a plataforma de seis chips pensada como um único supercomputador

A NVIDIA descreve Rubin como uma plataforma de extrema co design que integra seis componentes, Rubin GPU, Vera CPU, NVLink 6 Switch, ConnectX 9 SuperNIC, BlueField 4 DPU e Spectrum 6 Ethernet, formando um supercomputador de IA ao nível de rack. O objetivo é atacar gargalos de comunicação, serviço e energia em cargas de raciocínio, agentes e modelos MoE em escala. Entre os destaques, 50 petaflops de NVFP4 por GPU para inferência, 3,6 TB por segundo por GPU com NVLink 6 e um design modular sem cabos que acelera montagem e manutenção. Produtos baseados em Rubin chegam pela rede de parceiros a partir do segundo semestre de 2026.

Além do hardware, Rubin traz duas novidades estruturais. Primeiro, a terceira geração de Confidential Computing em nível de rack, protegendo dados e modelos através de CPU, GPU e domínio NVLink. Segundo, um pilar de armazenamento nativo de IA, a Inference Context Memory Storage Platform, que compartilha KV cache entre serviços, elevando tokens por segundo, eficiência por dólar de TCO e eficiência energética, cada um com ganhos divulgados de cinco vezes. Isso é vital quando agentes e modelos long context precisam manter e reutilizar contexto em multissedência.

Na prática, o que essa arquitetura muda para times de plataforma e MLOps

Escala com menos fricção. Se a meta é treinar MoE, a redução declarada de quatro vezes na contagem de GPUs diminui fila de capacidade e custo de capital. Com NVLink 6 e Spectrum X Photonics, a taxa de falhas e janelas de indisponibilidade também caem, o que impacta diretamente o custo total de operação.
Segurança de ponta a ponta. Confidential Computing na escala do rack atende a requisitos de proteção de IP e dados sensíveis em ambientes multiinquilino, especialmente com aluguel de clusters em neoclouds.
Serviceability. O design modular e sem cabos no rack reduz o tempo de intervenção, útil para datacenters que trocam bandejas em ciclos curtos por conta de atualizações de firmware e substituições preventivas.

Modelos abertos, dados e ferramentas, do laboratório ao chão de fábrica

Junto com Rubin, a NVIDIA expandiu o portfólio de modelos abertos e dados para múltiplos domínios. O pacote inclui famílias como Nemotron para agentes e segurança, Cosmos para física e robótica, Clara para biomédica, GR00T para robôs e Alpamayo para veículos autônomos, além de conjuntos de dados como 10 trilhões de tokens de linguagem e mais de 1.700 horas de dados de condução. Empresas como Bosch, ServiceNow, Palantir, Franka e Uber aparecem como adotantes.

Nemotron Speech e RAG. Modelos de fala em tempo real, embeddings e rerank multimodal para RAG, além de modelos de segurança como Llama Nemotron Content Safety e Nemotron PII. Benchmarks citados pela NVIDIA indicam ganhos de velocidade na classe de ASR. Para equipes que constroem agentes em produção, isso significa latência menor no loop fala texto ação e melhor filtragem de conteúdo.
Cosmos Reason, Transfer e Predict. Base para gerar mundos e vídeos sintéticos, treinar robôs e sistemas de visão com cenários raros e variáveis de ambiente. Isso reduz dependência de dados caros do mundo real e acelera testes em edge cases.
Clara para P&D biomédica. Modelos para design de proteínas, segurança computacional e síntese, além de datasets de estruturas proteicas para treinar modelos de descoberta. Useful para pipelines que precisam iterar rápido entre hipótese, simulação e validação.

![NVIDIA apresenta o ecossistema de modelos abertos no palco da CES 2026]

Perspectiva prática, por que abrir modelos agora

Crescimento de downloads e diversidade de casos. A NVIDIA afirma que a cada seis meses surgem novos modelos, mais inteligentes e com maior adoção. Para desenvolvedores, modelos abertos reduzem barreiras de avaliação, curadoria de dados, ajuste fino e deploy com NIMs e AI Enterprise.
Custos e independência. Em 2026, o custo por token dita viabilidade de agentes persistentes. Usar modelos abertos como base e compor com roteamento e distilação permite calibrar custo, latência e qualidade para cada tarefa.

Alpamayo, raciocínio aberto para autonomia em nível 4

Autonomia segura depende de modelos que percebem, raciocinam e agem em cenários raros. Alpamayo surge como família aberta com VLA de raciocínio, simulação AlpaSim e datasets de condução. A primeira versão, Alpamayo 1, tem 10 bilhões de parâmetros, usa vídeo como entrada e gera trajetórias com rastros de raciocínio explicáveis. O pacote é pensado como professor, para ser destilado em modelos menores e incorporado no stack completo de AV.

Os parceiros citados incluem JLR, Lucid e Uber, além da comunidade acadêmica como Berkeley DeepDrive. O foco é enfrentar o long tail, situações fora da distribuição de treinamento. Em paralelo, a NVIDIA destaca o sistema de segurança Halos e o ecossistema DRIVE Hyperion como base para redundância e validação.

Aplicações imediatas para times de AV

Ensino por distilação. Use Alpamayo 1 como professor para treinar modelos runtime que rodam a bordo, mantendo rastros de explicação para auditoria e diagnóstico.
Simulação fechada. AlpaSim em código aberto acelera testes de regressão e varredura de cenários, algo essencial antes de homologações.
Dados abertos e raros. O conjunto Physical AI Open Datasets cobre horas extensas de direção em múltiplas geografias e condições, útil para ampliar cobertura de casos raros sem campanhas caras de coleta.

Ilustração do artigo

![Pipeline de Physical AI mostrado na apresentação, do treinamento à simulação e inferência]

Mercedes Benz CLA, software NVIDIA DRIVE AV nas ruas dos EUA

O novo Mercedes Benz CLA, primeiro veículo com MB.OS, estreia recursos avançados de assistência de direção baseados no software NVIDIA DRIVE AV e no stack de IA da empresa. A própria NVIDIA afirma que o lançamento de produção de um sistema de nível 2 com assistência ponto a ponto em ambiente urbano acontecerá nos Estados Unidos até o fim de 2026, com atualizações over the air planejadas para evoluir funcionalidades como MB.DRIVE Assist Pro. O modelo recebeu classificação de cinco estrelas no EuroNCAP.

Do ponto de vista de engenharia, o stack combina uma pilha de IA de ponta a ponta para condução com uma pilha clássica de segurança, construída sobre o sistema Halos. Para o motorista, o objetivo é uma assistência mais natural, com navegação urbana, percepção de usuários vulneráveis da via e estacionamento automatizado em espaços apertados, além de cooperação no volante. Em manufatura, Mercedes Benz e NVIDIA usam gêmeos digitais via Omniverse e Cosmos para planejar, simular e validar software de direção antes de levar às fábricas e ruas.

O que Rubin muda para clouds, neoclouds e empresas

O comunicado oficial destaca ampla lista de provedores e ISVs que planejam adotar Rubin, de AWS, Google Cloud, Microsoft e OCI a fabricantes como Dell, HPE, Lenovo e Supermicro. Em 2026, instâncias Vera Rubin começam a chegar a esses clouds, enquanto neoclouds como CoreWeave devem ofertar Rubin operado via Mission Control. Para executivos de produto e finanças, a mensagem é sobre custo variável menor por token, maior confiabilidade de rede e mais rapidez no time to market.

Implicações para equipes de engenharia e dados

Agentes com contexto longo. Com Rubin, a NVIDIA também posiciona o armazenamento de contexto como serviço nativo, algo crítico para agentes de múltiplas etapas e sessões longas. Isso tende a reduzir cache thrashing e latências em p99.
Mixed precision e compressão adaptativa. A terceira geração de Transformer Engine com compressão acelerada em hardware endereça custos em geração de vídeo, raciocínio multimodal e workflows de código com milhões de tokens.
Operação segura e multiinquilino. Confidential Computing no rack e ASTRA no BlueField 4 unificam o plano de controle confiável, importante para ambientes bare metal compartilhados.

Como conectar o desktop ao data center, DGX Spark e agentes pessoais

A apresentação também mostrou um agente pessoal rodando localmente no DGX Spark, com um robô Reachy Mini controlado por modelos do Hugging Face, para ilustrar como modelos abertos, roteamento e execução local transformam agentes em colaboradores físicos. Para quem desenvolve produtos de IA para criadores e equipes de engenharia, o DGX Spark, que segundo a NVIDIA oferece até 2,6 vezes mais desempenho em grandes modelos, vira uma ponte interessante entre prototipagem local e escala em clusters Rubin.

Caminhos de adoção sugeridos

Prototype to production. Inicie com DGX Spark e NIMs locais, valide com dados privados, depois migre cargas para instâncias Rubin em clouds parceiras quando custo por token e SLOs exigirem.
Open first. Avalie Nemotron, Cosmos e Alpamayo como base, usando roteadores de LLM para orquestrar modelos por tarefa, equilibrando custo e qualidade.

Reflexões e insights, onde apostar em 2026

Roteadores e MoE, a tendência dominante. Se o custo por token cai uma ordem de magnitude e NVLink 6 amplia banda entre GPUs, o teto para modelos com especialistas aumenta. Vale investir em pipelines que suportem roteamento dinâmico, KV cache compartilhado e avaliação contínua por tarefa.
Physical AI como diferencial competitivo. Cosmos, Alpamayo e GR00T sinalizam que IA que entende e atua no mundo físico será a fronteira de valor em indústrias como logística, manufatura, cidades inteligentes e mobilidade. O ganho está em simular cedo, treinar com vídeos sintéticos e validar em malha fechada.
Convergência de segurança, custo e abertura. Confidential Computing no rack, modelos abertos e dados em escala formam um triângulo que acelera adoção empresarial sem amarrar equipes a stacks fechados. A possibilidade de destilar modelos abertos em backbones proprietários permitirá roadmaps mais ágeis.

Conclusão

A CES 2026 marca um ponto de inflexão. Rubin AI não é apenas uma GPU nova, é uma plataforma de seis chips desenhada como um sistema único para reduzir custos e empurrar o limite de raciocínio de modelos e agentes. Em paralelo, abrir modelos e dados em domínios críticos cria um caminho de adoção mais rápido para empresas e laboratórios, enquanto a estreia do CLA com NVIDIA DRIVE AV mostra como software definido por IA vai chegar ao cotidiano.

O que vem a seguir depende de como times técnicos e de negócio vão combinar essas peças. A oportunidade está em transformar capacidade de computação e modelos abertos em produtos confiáveis, eficientes e explicáveis, do data center ao robô e ao carro. 2026 será um ano de arquitetura, com escolhas que vão definir custo, segurança e velocidade de entrega por muito tempo.