NVIDIA lança Cosmos Policy para controle de robôs

Introdução

Cosmos Policy é a nova política de controle e planejamento de robôs que a NVIDIA apresentou em 29 de janeiro de 2026, construída por pós-treinamento de Cosmos Predict, e que já aparece com resultados de ponta em benchmarks de manipulação. Nos testes, Cosmos Policy alcançou 98,5 por cento de sucesso médio no LIBERO e 67,1 por cento no RoboCasa, com menos demonstrações que concorrentes, números que sinalizam um salto concreto na autonomia de manipuladores.

Ao unificar três saídas críticas, ações, previsões de observações futuras e estimativa de retorno, dentro do mesmo processo de difusão latente do modelo de vídeo, Cosmos Policy oferece uma abordagem direta para controle visuomotor e planejamento. Essa integração reduz acoplamentos frágeis entre redes separadas de percepção e controle, e reaproveita o entendimento físico aprendido por Cosmos Predict sobre como cenas evoluem no tempo.

Por que a Cosmos Policy importa para robótica de manipulação

Os últimos anos mostraram que retrobones visuais pré-treinados ampliam generalização, porém muitos métodos ainda exigem módulos separados ou muita engenharia para mapear imagens em ações. Cosmos Policy segue outra rota, aproveitando um modelo de vídeo fundacional treinado para prever o futuro. Em vez de criar cabeças extras para controle, ela injeta ações, estados do robô e valores como quadros latentes adicionais no mesmo fluxo de difusão, mantendo a arquitetura intacta. O resultado é um controle que herda noções de física e dinâmica aprendidas pelo modelo base.

Essa escolha tem efeitos práticos. Primeiro, facilita escalar para horizontes temporais longos, porque o transformador de difusão do modelo lida bem com sequências extensas e multimodais. Segundo, a geração multimodal permite lidar com tarefas que admitem múltiplas sequências de ação corretas, algo recorrente em ambientes domésticos e industriais. Terceiro, a mesma política tanto age diretamente, quanto planeja ao avaliar candidatos simulando estados futuros e valores esperados, reduzindo tentativa e erro em hardware real.

Como a Cosmos Policy foi construída, do mundo em vídeo para a ação

A base é Cosmos Predict 2, um modelo de mundo para vídeo que aprendeu a prever quadros futuros com difusão sobre latentes espaço temporais contínuos. Cosmos Policy faz um pós-treinamento único usando demonstrações robóticas, sem mudanças arquiteturais, e passa a prever três coisas em paralelo a cada passo, um bloco de ações, as imagens e propriocepção futuras, e o valor, tudo no espaço latente do video model. Isso reduz interfaces e preserva coerência temporal entre percepção, decisão e previsão.

Do ponto de vista de engenharia, a coleção de modelos publicada inclui variações específicas para LIBERO, RoboCasa e o robô real ALOHA, com 2 bilhões de parâmetros herdados do base model, além de um checkpoint adicional voltado a planejamento para o ALOHA, usado em conjunto com a política para busca best of N. Esse conjunto de artefatos facilita reproduzir resultados e experimentar tanto política direta quanto planejamento.

O que os números mostram nos benchmarks LIBERO e RoboCasa

Os benchmarks contam a história com clareza. Em LIBERO, Cosmos Policy atingiu 98,5 por cento de sucesso médio, com 98,1 por cento no conjunto Spatial, 100 por cento no Object, 98,2 por cento no Goal e 97,6 por cento no Long, superando políticas de difusão treinadas do zero e VLAs fine tunadas. Esses resultados foram obtidos após pós-treinamento a partir do modelo de vídeo, sem modificar a arquitetura.

No RoboCasa, conjunto focado em manipulação de cozinha com 24 tarefas, Cosmos Policy registrou 67,1 por cento de sucesso médio usando apenas 50 demonstrações por tarefa, enquanto vários baselines usaram 300 ou mais, evidenciando melhor eficiência de dados. O ganho com menos demos é relevante para times que não dispõem de coleta massiva.

Para contextualizar, LIBERO é uma suíte de 130 tarefas com diferentes famílias de desafios como variação espacial, objetos, metas e horizontes longos, e é amplamente usada para avaliação padronizada de políticas visuomotoras. RoboCasa, por sua vez, estressa um cenário de cozinha simulado, com múltiplos estilos e objetos, pensado para generalização e variedade visual. Esses benchmarks apareceram nos ecossistemas de pesquisa recentes e têm documentação viva mantida por comunidades e grupos acadêmicos.

![Braço robótico industrial em close, ilustrando contexto de manipulação]

Do simulado ao real, resultados no robô ALOHA e planejamento

Além da simulação, Cosmos Policy foi avaliada em tarefas bimanual reais no ALOHA, um sistema de teleoperação e aprendizagem por imitação bastante usado em pesquisa de manipulação. Nas tarefas de mesa de alta precisão, a política obteve a maior pontuação média entre métodos comparados. Um checkpoint complementar de planejamento, refinado em dados de rollout da própria política, quando combinado com a base, gerou um aumento médio de 12,5 pontos percentuais no score em tarefas ALOHA mais difíceis, usando busca best of N guiada por valor.

Os modelos específicos publicados incluem Cosmos Policy para ALOHA com taxa média de conclusão de 93,6 por cento em quatro tarefas bimanual desafiadoras, resultado que chama atenção pelo salto de robustez no mundo real e pelo reaproveitamento do mesmo mecanismo de difusão latente. Essa coerência do pipeline, de vídeo para ação, reduz fricções de engenharia em laboratório.

![Resultados no ALOHA, comparando métodos e média de pontuação]

O que muda para equipes que já usam VLA, difusão ou políticas clássicas

Equipes que já têm pipelines com VLAs ou políticas de difusão podem adotar Cosmos Policy em duas frentes. Primeiro, como política direta que gera blocos de ação a partir de imagens e instruções, usando requisitos modestos de VRAM para inferência, na faixa de um dígito de gigabytes para LIBERO, RoboCasa e ALOHA. Segundo, como política com planejamento, acoplando o checkpoint de planejamento para avaliar candidatos e selecionar o melhor via busca por valor. Essa segunda via tende a elevar taxas de sucesso em tarefas estreitas e de contato.

A partir dos cartões de modelo, há detalhes operacionais úteis, como chunk de ação de 16 passos, entradas multivisão a 224 por 224, e capacidade de gerar simultaneamente ações, previsões de imagens futuras e propriocepção. Para times focados em reprodutibilidade, a NVIDIA também documenta a configuração de treinamento do pós-treinamento de LIBERO, incluindo passos de gradiente, batch global e hardware H100, algo que ajuda a dimensionar custos.

Como Cosmos Policy se conecta ao ecossistema Cosmos

Cosmos Policy se apoia no avanço contínuo da família Cosmos. Em 2025, a empresa destacou Cosmos Predict 2, com capacidades de vídeo mais longas e saídas multivisão, e em 2025 foi anunciada a versão 2,5, que unifica modos Text2World, Image2World e Video2World em uma arquitetura mais leve. Esses modelos de mundo alimentam pipelines de dados sintéticos em plataformas como Isaac Sim e Omniverse, encurtando o gap sim to real. Na prática, isso significa mais dados, mais variados e fisicamente plausíveis, para treinar políticas melhores com menos demonstrações reais.

O ecossistema inclui tokenizadores de imagem e vídeo, cookbook com receitas de inferência e pós-treinamento, além de documentação de referência para desenvolvedores. Essa base oferece um caminho de adoção pragmático, do protótipo à integração com stacks que já rodam em GPUs NVIDIA, incluindo H100 e gerações Blackwell para aceleração.

Casos práticos e aplicações imediatas

Para times de robótica de serviço e manufatura avançada, um caminho é começar com a política direta em tarefas de pick and place com contato e tolerâncias rígidas, como encaixe de componentes e fechamento de recipientes. A capacidade de prever o futuro visual e a propriocepção no mesmo passo ajuda a antecipar colisões ou desvios de trajetória e a ajustar em tempo de execução. Em ambientes domésticos simulados, a estratégia de planejamento com best of N pode ser aplicada a sequências longas, como abrir armários, posicionar talheres e fechar portas, com avaliação de valor a cada candidato antes de executar.

Para pesquisa acadêmica, a combinação com RoboCasa e LIBERO permite comparar configurações de dados e arquiteturas sob protocolos consistentes. A documentação comunitária e os repositórios mantidos por grupos abrem espaço para extensões e novas suites de tarefas, mantendo reprodutibilidade.

Comunidade e eventos, o papel do Cosmos Cookoff

A Hugging Face e parceiros anunciaram o Cosmos Cookoff, um hackathon aberto para experimentar com modelos Cosmos e receitas do cookbook. O evento, anunciado em 29 de janeiro, ocorre até 26 de fevereiro, com prêmios em dinheiro, hardware e avaliação por especialistas de empresas como Datature, Hugging Face, Nebius, Nexar e NVIDIA. Para quem busca acelerar a curva de aprendizado, esse tipo de iniciativa facilita acesso a modelos, código e mentoria prática.

Limitações atuais e questões em aberto

Mesmo com números fortes, há desafios. Primeiro, custos de treinamento e pós-treinamento ainda exigem clusters com GPUs topo de linha, embora a inferência caiba em uma única GPU moderna. Segundo, a generalização em ambientes reais depende de diversidade de dados e de variação visual que simuladores e geradores sintéticos nem sempre cobrem sem curadoria cuidadosa. Terceiro, segurança operacional, política e verificação de planos continuam cruciais antes de rodar em robôs físicos fora de laboratório. Documentos oficiais de Cosmos reforçam guardrails e responsabilidade do usuário nessa integração.

A boa notícia é que o pipeline Cosmos foi desenhado para mitigar parte desses pontos, com geração de mundos consistentes, transferência de estilo controlada e recursos para curadoria de datasets, o que reduz lacunas de domínio e torna viável rodar ciclos rápidos de iteração. Para equipes que enfrentam gargalos de coleta de dados reais, esse caminho encurta prazos e melhora métricas de sucesso com menos demonstrações.

O que acompanhar nos próximos meses

Alguns vetores merecem atenção. A maturidade do modo de planejamento em tarefas de maior risco e as métricas de robustez sob perturbações, como mudanças bruscas de iluminação e oclusões severas. A expansão de cenários multivisão e a integração com agentes de raciocínio sobre vídeo, como Cosmos Reason, para gerar planos mais explicáveis. E a evolução das licenças e termos de uso dos modelos, incluindo políticas de uso não comercial em artefatos de pesquisa e caminhos para licenças customizadas quando necessário.

Conclusão

Cosmos Policy posiciona o controle de robôs em um novo patamar ao transformar um modelo de vídeo em uma política que decide e prevê no mesmo passo. A combinação de desempenho em LIBERO, eficiência de dados em RoboCasa e ganhos no ALOHA indica que a abordagem unificada de difusão latente tem tração prática, não apenas teórica. Para times de produto e pesquisa, isso reduz cola de engenharia e encurta o caminho do simulado ao real.

O ecossistema Cosmos sustenta essa virada com modelos, documentação e receitas prontas para uso, e com uma comunidade ativa estimulando adoção e benchmarking. A direção está clara, modelos de mundo deixaram de ser somente geradores de vídeo e passaram a guiar ação e planejamento em robótica. O convite agora é testar em seus casos, medir com rigor e, quando fizer sentido, escalar.