NVIDIA lança Nemotron 3 Super, 120B aberto e 5x Agentic AI

Introdução

Nemotron 3 Super é o novo modelo aberto da NVIDIA com 120 bilhões de parâmetros totais e 12 bilhões ativos por passo, projetado para entregar até 5x mais throughput em cenários de Agentic AI, mantendo alta precisão em raciocínio de múltiplas etapas. Lançado em 11 de março de 2026, o anúncio oficial detalha ganhos de eficiência, janela de contexto de 1 milhão de tokens e disponibilidade imediata em diversos provedores.

As limitações que travam agentes autônomos ficaram claras, crescimento explosivo de contexto e o chamado thinking tax, quando modelos grandes precisam raciocinar a cada microtarefa e a latência financeira estoura. O Nemotron 3 Super ataca esses gargalos com uma arquitetura híbrida Mamba Transformer, Latent MoE, multi token prediction e precisão NVFP4 no Blackwell, recursos que, combinados, elevam o throughput e cortam custos reais de operação.

O que muda com a arquitetura híbrida

A base técnica do Nemotron 3 Super combina três blocos que se reforçam. Primeiro, camadas Mamba aumentam a eficiência de memória e computação, depois camadas Transformer ancoram a capacidade de raciocínio. Terceiro, o Latent MoE aciona especialistas adicionais com custo efetivo de um, e o Multi Token Prediction antecipa múltiplas palavras por passo, acelerando a geração. Essa pilha explica a meta, até 5x mais throughput e até 2x mais acurácia que a geração anterior de Super, e até 4x mais velocidade em Blackwell com NVFP4 em relação a FP8 no Hopper, segundo o post oficial.

Vale observar que a página de pesquisa da NVIDIA mostra comparativos adicionais, como ganhos de 2,2x e 7,5x de throughput frente a baselines GPT OSS 120B e Qwen 3.5 122B, no cenário 8k de entrada e 16k de saída. O número varia conforme a métrica e o baseline de referência, o que reforça a importância de olhar o regime de uso, sequência e hardware alvo ao planejar migração.

Throughput em Agentic AI, por que isso importa

Quando uma empresa sai de chatbots simples para ecossistemas multiagentes, a troca de mensagens e rastros de ferramentas faz o histórico explodir. O próprio blog da NVIDIA cita que esses fluxos podem gerar até 15x mais tokens do que uma conversa comum, o que encarece e alonga tarefas, além de induzir drift de objetivo. Com contexto de 1 milhão de tokens e melhor eficiência por token gerado, o Nemotron 3 Super mantém o estado de trabalho e reduz retrabalho de raciocínio, dois vetores que somados derrubam o custo total por tarefa.

Do lado do mercado, parceiros já integram o modelo para buscar ganho prático, Perplexity adicionou o Nemotron 3 Super ao orquestrador de busca e computação, empresas de agentes de software, como CodeRabbit e Greptile, alinham o modelo para depuração e geração de código mais econômica, enquanto plataformas corporativas como Palantir, Amdocs e Siemens reportam uso em fluxos de telecom, segurança e manufatura. Esses exemplos mostram que a promessa de throughput não é apenas de laboratório, há integração de produção em diferentes verticais.

![Detalhe de hardware em data center]

Abertura real, pesos, dados e receitas

Nemotron 3 Super foi lançado como modelo aberto, com pesos, conjuntos de dados de pré e pós treino e receitas de RL disponibilizados. O post de lançamento aponta mais de 10 trilhões de tokens usados no processo e 15 ambientes de RL para avaliação, além de empacotamento como microserviço NIM para deploy do on premises à nuvem. Isso favorece compliance, customização e portabilidade, sem prender times a uma única infraestrutura.

A página de pesquisa dedicada do Nemotron 3 Super também indica a publicação de checkpoints em múltiplas precisões, incluindo NVFP4 quantizado para inferência, FP8 e BF16, além de datasets e repositórios de referência para reprodução. Para equipes de plataforma, esse detalhe é crítico, já que permite explorar trade offs entre custo, latência e qualidade sem ficar no escuro sobre o que foi treinado.

Disponibilidade no ecossistema, onde rodar hoje

Segundo a NVIDIA, o Nemotron 3 Super já aparece em rotas de acesso como build.nvidia.com, Perplexity e OpenRouter, além de Hugging Face. Na lista de provedores, há Vertex AI, Oracle Cloud e chegada em breve a Bedrock e Azure, com parceiros de nuvem especializada como CoreWeave, Crusoe, Nebius e Together AI. Serviços de inferência como Baseten, Cloudflare, DeepInfra, Fireworks, Lightning AI e Modal também constam, o que acelera POCs e testes A B.

Nessa linha, a Nebius anunciou disponibilidade do Nemotron 3 Super em seu Token Factory, destacando foco em fluxos multiagente e autoscaling. A Cloudflare registrou em changelog a incorporação do modelo no Workers AI, mencionando arquitetura híbrida Mamba Transformer com 120B totais e ganhos expressivos de geração de tokens, sinal claro de que o ecossistema está se movendo rápido para reduzir latência em produção.

Métricas, benchmarks e contexto de comparação

Os números de throughput podem variar por baseline e cenário. A própria página de pesquisa da NVIDIA cita 2,2x e 7,5x frente a GPT OSS 120B e Qwen 3.5 122B, respectivamente, em 8k in e 16k out. Já o post oficial do blog traz a síntese, até 5x mais throughput e até 2x mais acurácia versus a geração anterior de Super. Relatos de terceiros, como a cobertura do VideoCardz, ecoam a meta de até 5x no desenho híbrido, enquanto atualizações de parceiros, como a Cloudflare, descrevem ganhos de mais de 50 por cento na taxa de geração em comparações com modelos abertos líderes. Use esse mosaico de fontes para escolher o pareamento de hardware e orçamento.

Uma nota adicional, a linha Nemotron 3 como um todo é apresentada pela NVIDIA como família de modelos abertos, com ênfase em eficiência para Agentic AI. Relatos técnicos e comunicados recentes contextualizam Nano, Super e Ultra, com técnicas como Multi Token Prediction e NVFP4. Esses materiais ajudam a entender o porquê dos ganhos e como replicá los em pipelines reais.

Ilustração do artigo

![Chip de IA em placa de circuito]

Casos práticos, onde Nemotron 3 Super brilha

Pesquisa e análise profundas. O post aponta o uso do Nemotron 3 Super no agente de pesquisa AI Q, com liderança em benchmarks de pesquisa profunda, combinando leitura de grandes coleções de documentos com coerência de raciocínio. Na prática, reduz o zigue zague de consultas e sumarizações repetidas.
Copilotos de desenvolvimento. Parceiros como CodeRabbit e Greptile integram o modelo para fluxos fim a fim, carregar bases de código extensas em contexto, manter rastros de ferramentas estáveis e executar correções com menos latência.
Telco, manufatura e segurança. Amdocs, Siemens, Cadence e Dassault Systèmes usam a base para automação de tarefas, onde ferramentas de alto risco exigem chamadas robustas de função, ambiente em que o ganho de throughput se converte em SLOs mais previsíveis e menor custo por incidente.
Integração com provedores de inferência. Cloudflare Workers AI, Baseten e DeepInfra reduzem o atrito do deploy com endpoints gerenciados, ideais para times que querem validar desempenho, custo por 1k tokens e latência percentil 95 com rapidez, antes de comprometer CAPEX em on premises.

Guia rápido de adoção, do teste ao rollout

Defina a métrica alvo. Para agentes, privilegie tokens por segundo no seu workload, custo por tarefa completa e taxa de sucesso de tool use. Replique seu fluxo multiagente com 8k in e 16k out, que é a referência comum nos materiais técnicos.
Teste precisão e coerência. Use benchmarks de pesquisa profunda citados no anúncio, como DeepResearch Bench, mas complemente com seus dados, papéis e permissões. O objetivo é validar coerência ao longo de múltiplas iterações e não apenas acerto pontual.
Ajuste o formato numérico. Avalie NVFP4 para inferência em Blackwell, que mostrou até 4x de ganho sobre FP8 no Hopper sem perda de acurácia, segundo a própria NVIDIA. Em H100 ou B200, meça o custo por 1k tokens e latência ao alternar entre precisões e quantizações disponíveis nos checkpoints.
Orquestração multiagente. Planeje roteamento inteligente entre modelos quando o objetivo for latência baixa com custo controlado. O Nemotron 3 Super pode atuar como cérebro de raciocínio, enquanto modelos menores o cercam para filtros, extrações e ações, estratégia que muitos parceiros já aplicam em produção.

Riscos, limites e como mitigar

Dependência do regime de tokens. Ganhos de throughput variam conforme sequência e lote. Se o seu uso tem bursts curtos, os 5x máximos podem não se repetir. Modele seus picos, tamanhos de janela, paralelismo e veja onde a arquitetura híbrida traz maior retorno.
Drift de objetivo. Mesmo com 1 milhão de tokens, cadeias muito longas podem desviar do pedido original. Reforce verificações intermediárias, resumos de estado e checagens de função com validação determinística onde houver risco operacional.
Custos ocultos. Integrações com provedores gerenciados facilitam, mas exigem olho em egress, armazenamento de logs e reexecuções. Compare com execução em infraestrutura dedicada, onde NVFP4 e MoE ativo de 12B podem ser decisivos.

Impacto estratégico, leitura além do hype

A NVIDIA vem, há meses, empilhando peças para Agentic AI com modelos abertos, dados e bibliotecas de RL, além de documentação técnica sobre técnicas como multi token prediction e NVFP4. Na prática, Nemotron 3 Super consolida esse caminho, porque traduz pesquisa em ganhos observáveis de throughput e, portanto, de custo por tarefa fechada. Isso abre espaço para produtos que antes eram inviáveis financeiramente quando se precisava de raciocínio a cada etapa.

Outra sinalização importante é a velocidade de integração no ecossistema, de portais como build.nvidia.com a marketplaces e provedores de inferência, junto da adoção por empresas de software corporativo. Quem está construindo agentes especializados em ambientes regulados ganha com pesos abertos e trilha de dados, o que facilita auditorias e customizações seguras.

Conclusão

Nemotron 3 Super chega como modelo aberto de 120B otimizado para Agentic AI, com arquitetura híbrida Mamba Transformer, Latent MoE e multi token prediction. O anúncio oficial de 11 de março de 2026 detalha até 5x de throughput e até 2x de acurácia versus a geração anterior, além de contexto de 1 milhão de tokens e ampla disponibilidade. Para times que medem custo por tarefa e latência de workflows complexos, é um passo prático para levar agentes do laboratório à operação diária.

O próximo movimento competitivo tende a acontecer em três frentes, refino de dados e RL para agentes especializados, engenharia de orquestração multiagente que minimize repetições de raciocínio e otimização numérica de ponta a ponta, aproveitando NVFP4 e quantizações eficientes. Quem dominar essas alavancas, com o Nemotron 3 Super como peça central, deverá capturar ganhos de produtividade e novas margens em produtos orientados por agentes.