Perplexity põe Nemotron 3 Super em app, API e Computer

Introdução

A palavra‑chave aqui é Perplexity Nemotron 3 Super porque a notícia mexe com quem constrói, opera e escala agentes. A Perplexity adicionou o NVIDIA Nemotron 3 Super no app de busca, abriu acesso via Agent API e incluiu o modelo no seu agente Computer, ampliando a oferta multi‑modelos para tarefas complexas.

O anúncio do Nemotron 3 Super aconteceu em 10 e 11 de março de 2026, com páginas técnicas e posts oficiais da NVIDIA detalhando o modelo híbrido Mamba‑Transformer, 120 bilhões de parâmetros totais e 12 bilhões ativos em inferência, além de janela de 1 milhão de tokens e ganhos relevantes de throughput.

O que interessa é como essa adição muda o jogo na prática, tanto para usuários finais na busca, quanto para times que integram via Agent API e para operações que já usam o Computer para orquestração de dezenas de modelos em fluxo de trabalho real.

O que é o NVIDIA Nemotron 3 Super, em termos práticos

Nemotron 3 Super é um modelo aberto orientado a agentes, com arquitetura híbrida que combina camadas Mamba e Transformer com MoE esparso. O desenho ativa 12 bilhões de parâmetros a cada passo, preserva a precisão e acelera a geração, e chega com janela de contexto de até 1 milhão de tokens, o que ajuda a manter estado longo sem drift de objetivo.

Segundo a NVIDIA, o Super entrega até 5 vezes mais throughput que a geração anterior, e vantagem marcante sobre modelos abertos similares em cenários de entrada longa e saída extensa. O material técnico também destaca Multi‑Token Prediction e LatentMoE para eficiência e qualidade, além de treinos e pós‑treinos documentados com pesos e receitas abertas.

Essa combinação não é só técnica, ela é econômica. Mais throughput em NVFP4 sobre Blackwell reduz custo por tarefa, e 1 milhão de tokens de contexto reduz reprocessamento em cadeias de agentes. Em um pipeline que executa pesquisa profunda em centenas de PDFs, por exemplo, a janela longa e o MoE eficiente encurtam tempos de ciclo e orçamentos de inferência.

![Nemotron 3 Super visual oficial]

Onde o Nemotron 3 Super aparece dentro da Perplexity

App de busca: a NVIDIA cita explicitamente que usuários da Perplexity têm acesso ao Nemotron 3 Super para busca, integrando o modelo ao mix usado pela plataforma. Essa presença no front impacta respostas com contexto amplo e raciocínio, especialmente em consultas longas e investigações multi‑fonte.
Computer: reportagens do mercado apontam que a Perplexity também disponibiliza o Super dentro do seu agente orquestrador, ao lado de cerca de 20 modelos, o que dá versatilidade para escolher a “ferramenta” certa por subtarefa.
Agent API: a documentação oficial lista “nvidia/nemotron-3-super-120b-a12b” como modelo suportado com preços por milhão de tokens e exemplos prontos em Python e TypeScript. Para times de produto, isso significa zerar atrito para testar e rodar o Super em endpoints já padronizados.

Na prática, essa cobertura tripla cria um caminho contínuo entre experimentação no app, prototipagem na API e produção com orquestração no Computer, reduzindo o tempo entre insight e entrega.

Por que isso importa para quem opera agentes e produtos

Throughput e latência: pipelines agent‑first sofrem com o “imposto do pensamento”. Com o Nemotron 3 Super, o custo de raciocinar em cada passo cai, o que permite granularidade de agentes, maior paralelismo e SLAs mais previsíveis.
Contexto sustentado: janelas gigantes evitam refazer raciocínio, preservam histórico e artefatos de ferramentas, e reduzem drift em workflows longos como investigação de segurança, due diligence e engenharia de código.
Acesso aberto e receitas: por ser aberto e ter pesos e receitas liberados, o Super encoraja auditoria, fine‑tuning e experimentos de budget control, além de implantação on‑prem e em múltiplas nuvens via NIM. Para compliance e custo, essa flexibilidade é crucial.

Do lado do produto, a Perplexity já vinha empurrando um posicionamento multi‑modelos com o Computer, que orquestra dezenas de modelos de diferentes provedores. Levar o Nemotron 3 Super para esse orquestrador aumenta o leque para tarefas em que throughput, janela e custo são determinantes.

Dados e fatos recentes, com fontes

Lançamento e capacidades chave: 120B totais, 12B ativos, janela de 1M, ganhos de throughput, LatentMoE, MTP, NVFP4 em Blackwell. Datas públicas em 10 e 11 de março de 2026.
Disponibilidade e parceiros: acesso via Perplexity, build.nvidia.com, OpenRouter e Hugging Face, com empacotamento NIM e parcerias em Google Cloud Vertex AI e Oracle, além de outros provedores.
Presença no ecossistema Perplexity: cobertura no app de busca, integração no Computer e disponibilidade na Agent API com o identificador “nvidia/nemotron-3-super-120b-a12b” e exemplos oficiais.

Essas peças colocam o Super como alternativa aberta e competitiva para workloads pesados, algo que interessa tanto a times de produto quanto a líderes de plataforma que precisam manter custos sob controle sem perder qualidade.

Ilustração do artigo

Como aproveitar no app, na Agent API e no Computer

No app: use consultas que se beneficiem de contexto longo e raciocínio encadeado, como revisão de literatura ou comparação de relatórios. Em buscas exploratórias com muitas fontes, espere menos fragmentação de contexto.
Na Agent API: selecione explicitamente o modelo nvidia/nemotron-3-super-120b-a12b quando throughput e custo merecem prioridade, e combine com web_search e fallback chain para resiliência. Os exemplos oficiais já mostram o uso direto e em cadeias de fallback.
No Computer: defina o papel do Super dentro do fluxo orquestrado, por exemplo, delegando‑lhe etapas de análise extensa ou de resumos de longo formato, enquanto modelos de raciocínio mais caros ficam reservados para subpassos críticos. O objetivo é otimizar acurácia global sob restrições de tempo e orçamento.

![Keynote e ecossistema NVIDIA]

Benchmarks, custos e decisões de arquitetura

Em ambientes de produção, escolhas de modelo acontecem sob três tensões clássicas: velocidade, custo e qualidade. O Nemotron 3 Super ataca as três com a estratégia híbrida, ativação parcial e MTP. Na medição pública, a NVIDIA reporta liderança de eficiência e ganhos de até 5 vezes em throughput, algo que reduz fila de tokens e melhora experiência de usuário em cargas concorrentes.

Para times que pagam por milhão de tokens, a presença oficial do Super na Agent API com tarifação transparente favorece simulações de custo e A/B tests. Documentação e exemplos permitem provar rapidamente hipóteses de alocação, por exemplo, usar o Super como “trator” de tokens longos e reservar modelos mais caros para verificações finais.

Vale lembrar que o ecossistema Perplexity não depende de um único modelo. O Computer orquestra cerca de 20, o que inclui motores de raciocínio, pesquisa profunda, geração de imagem e vídeo. Colocar o Super nesse catálogo permite arranjos mais agressivos de custo por tarefa, principalmente quando o gargalo é I/O de tokens e não necessidade de raciocínio extremo a cada passo.

Casos de uso que ganham mais com a mudança

Pesquisa profunda e análise financeira: carregar milhares de páginas em memória e manter coerência de raciocínio sem reprocesso pesado melhora produtividade na triagem, extração e comparação de métricas.
Engenharia de software: carregar uma base inteira no contexto, fazer navegação sem segmentação e acoplar ferramentas com chamada confiável reduz erros e ciclos de tentativa e erro.
Segurança e operações: agentes que coordenam playbooks longos, com muitas funções e verificações, se beneficiam de janelas grandes e custo por token menor, mantendo latência sob controle.

Esses ganhos não eliminam a necessidade de avaliação. Para cada domínio, meça impacto em acurácia de tarefa, custo por sessão e tempo de resposta percebido. O Super pode ser o default eficiente, com desvio inteligente para motores premium quando a tarefa exigir.

Integração técnica, governança e roadmap

No plano técnico, o pacote NIM simplifica deploy em workstations, clusters e nuvem, e o fato de o Super estar disponível em parceiros como Vertex AI e Oracle Cloud acelera integrações reguladas. Para quem precisa de on‑prem, a combinação de pesos abertos e NIM facilita auditoria e ajustes finos.

Na governança, o modelo aberto com receitas publicadas e datasets documentados dá visibilidade sobre limites e vieses, o que ajuda em avaliações de risco. Para empresas sujeitas a auditorias, isso reduz atrito na justificativa técnica de escolha de modelo.

No roadmap de produto, a Perplexity vem expandindo o Computer para equipes e empresas, com integrações em ferramentas de colaboração e um stack operado por orquestração de modelos. A chegada do Nemotron 3 Super reforça essa visão de camadas, em que cada modelo tem um papel econômico e técnico claro dentro do fluxo.

Reflexões e insights

A fronteira prática de agentes migra de “qual o melhor modelo” para “qual a melhor composição sob orçamento e SLA”. O Nemotron 3 Super funciona como torque de tokens longos, reduz custo de raciocínio e libera modelos premium para validação final.
A Perplexity dá um passo coerente com a estratégia multi‑modelos do Computer. Com o Super na mesa, organizações podem planejar arquiteturas de custo previsível sem perder cobertura de casos extremos.
A abertura de pesos e receitas tende a acelerar forks especializados, algo que historicamente reduz lock‑in e pressiona preços de inferência. Para plataformas, isso puxa o mercado para competição por orquestração e UX, não apenas por modelo.

Conclusão

Perplexity Nemotron 3 Super passa a ser uma opção nativa no app, na Agent API e no Computer, combinando janela imensa, throughput elevado e licença aberta. Para quem constrói agentes, é uma oportunidade de alinhar custo e desempenho, especialmente em fluxos com muito contexto e múltiplas ferramentas.

A recomendação prática é clara. Teste o Super como pilar de cargas extensas, use fallback e roteamento inteligente para picos de complexidade, e aproveite o ecossistema da Perplexity para balancear qualidade e orçamento. Essa integração sinaliza um ciclo em que eficiência e abertura guiam as escolhas, e a vantagem competitiva mora em compor o stack certo para cada trabalho.