NVIDIA lança Nemotron 3 aberto em Nano, Super e Ultra

Introdução

Nemotron 3 é a nova família de modelos abertos da NVIDIA para IA agentic, lançada em 15 de dezembro de 2025, com três tamanhos, Nano, Super e Ultra, e foco em eficiência, precisão e transparência. A palavra-chave aqui é Nemotron 3 porque sintetiza o pacote completo, modelos, dados e bibliotecas que viabilizam agentes colaborativos em escala, com custo por token reduzido e contexto longo.

A companhia posiciona o Nemotron 3 como uma base aberta para fluxos multiagente, do planejamento ao uso de ferramentas e verificação, com ganhos de throughput e novas rotas para reduzir latência e custos. O anúncio confirma a disponibilidade imediata do Nemotron 3 Nano e indica que Super e Ultra chegam na primeira metade de 2026.

O que este artigo aborda: a arquitetura híbrida do Nemotron 3, os números de desempenho e contexto, o papel do NVFP4 na era Blackwell, o ecossistema de dados e ferramentas abertas e como times podem adotar o Nemotron 3 Nano hoje em produção.

Por que o Nemotron 3 importa para IA agentic

A mudança estrutural de chatbots isolados para sistemas de múltiplos agentes exige modelos com alta taxa de tokens por segundo, boa coordenação entre agentes e memória de longo prazo. O Nemotron 3 mira exatamente esses requisitos, com uma janela nativa de 1 milhão de tokens, throughput até 4 vezes maior que a geração anterior no Nano e abertura de pesos, dados e receitas de treino. Esses pontos são centrais para orquestrar dezenas ou centenas de agentes trocando mensagens, planos e ferramentas sem gargalos.

A estratégia também tem leitura de mercado. A NVIDIA amplia sua atuação além do hardware, oferecendo modelos e infraestrutura aberta para fidelizar desenvolvedores em um cenário em que grandes laboratórios avaliam chips próprios e a competição por ecossistemas se intensifica. Relatos de imprensa destacam o movimento como um passo para consolidar a empresa como fornecedora de modelos, não apenas de GPUs.

Em termos práticos, abrir modelos, dados e ambientes de RL acelera a reprodução de resultados e a personalização por domínio, algo valioso para segurança, auditoria e compliance. Para quem precisa de previsibilidade de custos, a combinação de MoE híbrido e opções de implantação em microserviços NIM reduz a fricção operacional.

O que compõe a família Nemotron 3

A família inclui três variações, cada uma otimizada para cenários específicos:

Nemotron 3 Nano, cerca de 30 bilhões de parâmetros totais, com até 3 bilhões ativos por token, voltado a tarefas direcionadas, alto throughput e custo baixo de inferência. Entrega até 4 vezes mais tokens por segundo que o Nemotron 2 Nano, reduz em até 60 por cento a geração de tokens de raciocínio e suporta contexto de 1 milhão de tokens. Disponível hoje.
Nemotron 3 Super, por volta de 100 bilhões de parâmetros, com até 10 bilhões ativos por token, para aplicações multiagente de alta acurácia com baixa latência. Previsto para primeira metade de 2026.
Nemotron 3 Ultra, aproximadamente 500 bilhões de parâmetros, até 50 bilhões ativos por token, pensado para tarefas complexas de pesquisa profunda e planejamento estratégico. Previsto para primeira metade de 2026.

Além dos modelos, o pacote inclui conjuntos de dados de pré-treino, pós-treino e RL totalizando trilhões de tokens, um dataset de segurança para agentes e bibliotecas abertas, NeMo Gym e NeMo RL, para treinar e avaliar. Esses recursos estão publicados no GitHub e no Hugging Face, com ênfase em reprodutibilidade.

A arquitetura híbrida: Mamba, Transformer e MoE

A base técnica do Nemotron 3 combina Mamba para modelagem de sequência eficiente, Transformer para precisão de raciocínio e mixture-of-experts para escalar parâmetros efetivos mantendo custo de inferência sob controle. Essa abordagem híbrida foi concebida para longas sequências, altas taxas de geração e coordenação entre muitos agentes em paralelo. Na prática, apenas um subconjunto de especialistas é ativado por token, o que melhora latência e throughput.

O blog técnico oficial detalha ainda inovações previstas para Super e Ultra, como MoE latente, que roteia especialistas em um espaço latente comprimido para reduzir custo de comunicação e ampliar especialização, além de multi-token prediction, técnica que antecipa vários tokens por passada para acelerar sequências longas. Essas escolhas miram reduzir custo por raciocínio mantendo ou elevando a acurácia.

Do ponto de vista de engenharia de produto, essa arquitetura serve bem a cenários de ferramenta, planejamento e verificação, onde um cluster de agentes precisa pensar, executar e checar em ciclos curtos. O ganho prático aparece quando o sistema roteia tarefas entre um modelo aberto eficiente, como Nemotron 3 Nano ou Super, e um modelo de fronteira quando necessário, otimizando tokenomics do pipeline.

![Nemotron 3 visual]

Contexto de 1 milhão de tokens: o que muda na prática

Contexto de 1M tokens reduz fragmentação de evidências, melhora grounding factual e permite sessões de agentes mais longas, com histórico preservado. Em RAG corporativo, auditoria ou análise de conformidade, manter múltiplos documentos, históricos e planos no mesmo contexto minimiza perda de referência e reinterpretação. Em código, o modelo pode navegar repositórios extensos, aplicar diffs e validar invariantes ao longo de muitas etapas.

Em pipelines com dezenas de agentes, a estabilidade de memória importa. A combinação de Mamba e MoE foi escolhida para sustentar longas sequências com overhead baixo, o que torna viável operar com fan-out alto de agentes sem comprometer a responsividade. Essa decisão de design está alinhada ao objetivo de servir IA agentic em escala de produção.

NVFP4 na era Blackwell: eficiência em 4 bits sem sacrificar acurácia

Para os tamanhos Super e Ultra, a NVIDIA adotou NVFP4, formato de 4 bits com escalonamento em dois níveis e suporte nativo nos Tensor Cores da arquitetura Blackwell, buscando combinar eficiência de FP4 com acurácia próxima a FP8 e BF16. Segundo documentação técnica, a abordagem reduz memória, acelera GEMMs e preserva qualidade com degradação pequena, frequentemente abaixo de 1 por cento em tarefas de linguagem.

Na prática, menos memória por parâmetro e maior throughput de baixo bit liberam janelas de contexto maiores, lotes mais amplos e mais experimentos por unidade de computação. Times podem treinar modelos maiores em infraestrutura existente ou reduzir custo de inferência por transação, algo determinante em workloads intensivos de agentes. O press release da NVIDIA reforça que Super e Ultra usarão NVFP4 no treinamento.

Dados e ferramentas abertas: reprodutibilidade e segurança

Ilustração do artigo

O pacote do Nemotron 3 inclui datasets de pré-treino e pós-treino com foco em raciocínio, código e workflows multi-etapas, além do Nemotron Agentic Safety Dataset com telemetria real para avaliar e fortalecer segurança de sistemas de agentes. Junto dos datasets vêm as bibliotecas NeMo Gym e NeMo RL para ambientes de treinamento e pós-treino, além do NeMo Evaluator. Tudo disponível publicamente em Hugging Face e GitHub.

Essa abertura acelera auditoria e adaptação por domínio. Em setores regulados, inspeção de dados e receitas de treino é um diferencial, porque facilita explicabilidade e due diligence. Para pesquisa aplicada, ambientes padronizados de RL reduzem atrito na coleta de trajetórias e no alinhamento comportamental voltado a agentes que chamam ferramentas, planejam e validam saídas.

Disponibilidade, ecossistema e como começar hoje

Nemotron 3 Nano está disponível no Hugging Face, com provedores de inferência prontos para servir e opção de implantação via microserviço NIM. A página de investidor e o comunicado listam integrações com plataformas e clouds, incluindo Amazon Bedrock, além de suporte em stacks populares como vLLM e SGLang. Para Super e Ultra, a disponibilidade é esperada para a primeira metade de 2026.

Para começar de forma prática com o Nemotron 3 Nano:

Baixar o checkpoint no Hugging Face e rodar em vLLM ou SGLang usando os cookbooks oficiais, com continuous batching e streaming para alto throughput.
Configurar limites de contexto e orçamentos de raciocínio conforme o perfil de custo desejado, priorizando respostas concisas quando não houver necessidade de pensar passo a passo.
Integrar NeMo Gym para coletar trajetórias realistas do seu domínio e ajustar por RL as habilidades de ferramenta, planejamento e validação.
Implantar como NIM para garantir isolamento, escalabilidade e controle de privacidade em ambientes acelerados por NVIDIA.

![Data center placeholder]

Benchmarks e sinal de mercado

Materiais oficiais indicam que o Nemotron 3 Nano lidera eficiência de throughput entre modelos de porte semelhante e apresenta acurácia competitiva, segundo o índice da Artificial Analysis. A publicação técnica destaca ainda que o Nano preserva pontuações de abertura obtidas na versão anterior enquanto melhora eficiência para sistemas multiagentes. Esses dados reforçam o foco no uso em escala e na previsibilidade do custo por ação de agente.

Em paralelo, análises de mídia notam que a disponibilidade aberta de pesos, dados e receitas aproxima a NVIDIA de um papel central na camada de modelos, ao mesmo tempo em que protege o ecossistema de desenvolvedores frente a possíveis movimentos de verticalização de outros players. O recado para o mercado é claro, valor não está apenas no silício, mas em toda a pilha de software, dados e práticas reprodutíveis ao redor.

Casos de uso que ganham com Nemotron 3

Suporte técnico e automação de ITSM: vários agentes colaboram para triagem, sumarização, execução de runbooks e validação, com baixa latência. Super tende a brilhar aqui por acurácia e capacidade de coordenação.
Segurança e resposta a incidentes: agentes especializados absorvem telemetria extensa no contexto de 1M tokens, geram planos e checagens cruzadas, reduzindo fadiga e tempo de resposta.
Engenharia de software com ferramentas: code review em larga escala, correção assistida, testes e geração de scripts, orquestrados por múltiplos agentes com rotas específicas por tarefa. Nano oferece ótimo custo por ação.
Pesquisa e planejamento estratégico: Ultra, quando disponível, deve atender jornadas longas de investigação, decisões multietapas e planejamento com validação por agentes.

Riscos, limitações e como mitigar

Embora os ganhos de throughput e contexto sejam significativos, cenários com entradas ruidosas e ferramentas instáveis podem introduzir deriva de raciocínio. O dataset de segurança e o NeMo Evaluator ajudam a medir e mitigar esses riscos. A recomendação é ativar trilhas de auditoria, validar chamadas de ferramenta e usar orçamentos de raciocínio com limites por agente, evitando estouro de tokens.

Outro ponto é a disponibilidade escalonada. Apenas o Nemotron 3 Nano está liberado hoje. Times que precisam de maior profundidade de raciocínio devem planejar provas de conceito com Nano e preparar transição para Super e Ultra quando os releases estiverem públicos, previstos para a primeira metade de 2026.

Como medir sucesso ao migrar

Custo por ação de agente: meça tokens gerados, latência end-to-end e taxa de sucesso por workflow. Compare com baselines e ajuste o roteamento entre modelos abertos e de fronteira conforme benefício marginal.
Qualidade sob contexto longo: valide grounding e consistência com corpora longos e benchmarks como RULER. Use prompts de auditoria programática.
Robustez em RL: acompanhe métricas de sucesso por ambiente do NeMo Gym e use avaliações do NeMo Evaluator para segurança e performance.

Conclusão

Nemotron 3 consolida uma proposta de valor clara, modelos abertos, dados e ferramentas para IA agentic em escala, com ênfase em throughput, contexto longo e reprodutibilidade. Ao abrir pesos, datasets e receitas de treino, a NVIDIA facilita a vida de equipes que precisam comprovar como e por que um agente chegou a determinado resultado, o que é crucial em ambientes regulados e operações críticas.

Para as próximas etapas, a chegada de Super e Ultra com NVFP4 deve ampliar a relação custo, acurácia e velocidade na era Blackwell. Enquanto isso, há caminho imediato com o Nemotron 3 Nano, disponível hoje no Hugging Face e em provedores de inferência, pronto para pilotos e produção com microserviços NIM. A recomendação é começar pequeno, instrumentar bem e escalar com dados do seu domínio, aproveitando o ecossistema aberto ao redor do Nemotron 3.