1X atualiza NEO com IA que aprende via vídeo

Introdução

1X NEO é o novo ponto de inflexão em robótica humanoide, com um modelo de mundo baseado em vídeo que transforma instruções em ações físicas e aprende novas habilidades no mundo real. A 1X afirma que o NEO pode converter prompts de voz ou texto em movimentos, mesmo em situações nunca vistas, graças a um modelo de vídeo ancorado em física. A atualização foi anunciada em 12 de janeiro de 2026.

O interesse é claro. A promessa de um robô que aprende com internet-scale video, reduz operadores humanos e escala com a frota pode encurtar anos de desenvolvimento. O preço inicial de 20 mil dólares para Early Access, mais a opção de assinatura de 499 dólares por mês, reforça o posicionamento como produto de consumo avançado a partir de 2026 nos EUA.

Este artigo aprofunda como funciona o modelo de mundo da 1X, quais tarefas o NEO já demonstrou, os limites técnicos, implicações práticas em casa, e como isso se compara a iniciativas como NVIDIA GR00T, Tesla Optimus e VLAs de mercado.

Como o modelo de mundo do NEO aprende com vídeo

O núcleo da atualização é o 1X World Model, um sistema que prevê futuros visuais a partir de um frame e um prompt, depois extrai a trajetória de ações via um modelo de dinâmica inversa. O pipeline recebe uma instrução curta, usa as câmeras para entender a cena, gera rollouts de vídeo que respeitam restrições físicas e kinemáticas, então executa os movimentos correspondentes no robô.

A 1X detalha um backbone de vídeo com 14 bilhões de parâmetros, mid-training em 900 horas de vídeos egocêntricos humanos e fine-tuning com 70 horas de dados do próprio NEO. Esse desenho busca capturar regularidades de manipulação humana e transferi-las para uma morfologia muito próxima da humana, diminuindo o gap entre “o que o vídeo imagina” e o que o robô consegue fazer com segurança.

Resultados internos relatados pela 1X mostram êxitos estáveis em tarefas de pegar e colocar, abrir porta de correr, passar roupa e outras manipulações de utensílios, embora gestos mais finos, como derramar líquidos com precisão ou desenhar, ainda apresentem desafios. O time também reporta que gerar múltiplos rollouts e escolher o melhor melhora a taxa de sucesso em tarefas ambíguas.

O que o NEO já mostrou fazer, e quanto disso é novo

Demonstrações públicas indicam o NEO executando tarefas domésticas como organizar itens, interagir com eletrodomésticos e realizar ações inéditas sem dados de demonstração específicos. Em vídeos recentes, o robô abre porta de correr, movimenta cestos, interage com utensílios de cozinha e realiza pequenas sequências de arrumação. A Interesting Engineering destacou que o sistema transforma pedidos simples em novas capacidades, sem exemplos prévios.

A TechCrunch reforça o ponto, mas com ceticismo saudável. A redação nota que “transformar qualquer prompt em ação” é uma visão ambiciosa. Na prática, os casos mostrados até aqui são de baixa a média complexidade, como tirar a bandeja de uma airfryer, colocar pão na torradeira e cumprir interações simples com humanos. Isso é significativo, porém distante de habilidades longas e multietapas com alta destreza.

A 1X comercializa o NEO com foco doméstico, três cores e um kit de recursos que evolui por software. Entregas iniciais nos EUA começam em 2026, com expansão internacional planejada a partir de 2027, e a empresa mantém a teleoperação assistida “Expert Mode” como fallback para tarefas complexas no início da adoção.

![Humanoid concept close-up]

Por que “modelo de mundo” é diferente de VLA puro

Modelos VLA, como os citados pela 1X, integram visão, linguagem e ação, porém costumam depender de cabeças de controle treinadas diretamente em dados de robôs, o que limita a generalização sem grandes volumes de demonstrações. A 1X propõe inverter a lógica, partindo de modelos de vídeo capazes de prever a evolução física da cena, para então extrair a trajetória de controle. Na prática, troca-se “mapear imagem para ação” por “imaginar um futuro viável e segui-lo”.

Esse movimento acompanha avanços em pesquisa que aproximam geração de vídeo de simulação física leve. Trabalhos recentes mostram que prompts de forças e condicionamentos físicos podem orientar rollouts mais plausíveis, alimentando planejamento de baixo custo. Embora ainda acadêmicos, esses resultados sustentam a direção tomada pela 1X.

No ecossistema, a NVIDIA vem abrindo caminho com a linha GR00T, que combina planejamento via VLM e políticas visuomotoras de alta frequência, além de um arsenal de dados sintéticos e ferramentas de simulação. Isso cria um contraponto interessante: enquanto a 1X puxa o pêndulo para vídeo como fonte de dinâmica, a GR00T evolui como fundação aberta para generalização rápida e post-training em diversos corpos e tarefas.

Teleoperação, escalabilidade e privacidade

Um gargalo clássico em humanoides é a dependência de teleoperação e coleta de dados por operadores humanos, o que não escala. Com o World Model, a 1X aponta para um ciclo no qual cada NEO em campo gera dados que melhoram o modelo. A empresa ressalta que o uso de operadores continua no curto prazo, mas deve diminuir conforme a autonomia melhora. O Business Insider reporta o abandono progressivo de suits e VR em favor de vídeo do próprio robô.

Do ponto de vista do usuário residencial, a 1X já previa um modo “Expert” em que um operador supervisiona, sob agendamento, tarefas que o NEO ainda não domina. Isso traz ganhos práticos para superar casos difíceis, porém exige políticas claras de acesso, criptografia e limites de captura. Alguns veículos chamaram atenção para preocupações de privacidade quando há teleassistência remota em ambientes domésticos.

Para aquisição, a 1X oferece Early Access por 20 mil dólares, além de assinatura a 499 dólares por mês. Entregas nos EUA estão previstas para 2026, e um depósito de 200 dólares garante lugar na fila. Essas condições foram divulgadas no site oficial e confirmadas por imprensa regional.

Benchmark do setor, de Tesla a NVIDIA

A Tesla migrou em 2025 a estratégia de dados do Optimus de motion capture para vídeo, inclusive com captura egocêntrica de trabalhadores realizando tarefas. O objetivo é exatamente o mesmo ponto levantado pela 1X, escalar aprendizado com dados de vídeo e reduzir custo. Esse alinhamento sugere convergência de toda a indústria para abordagens centradas em vídeo.

Vídeos recentes do Optimus mostram avanços em locomoção e coordenação, porém a transferência de habilidades complexas ainda enfrenta desafios de robustez. Fontes especializadas descrevem planos de ensinar a partir de vídeos de terceiros, combinando com reforço em simulação e no mundo real, algo que se encaixa no que a 1X cita como “benefício inevitável” de melhoras gerais em modelos de vídeo.

No campo aberto, a NVIDIA atualizou o GR00T para as versões N1.5 e N1.6, incrementando generalização, linguagem e bimanualidade, com forte uso de dados sintéticos gerados rapidamente. Essa trilha complementa a tese da 1X, pois quanto melhores os modelos de percepção, planejamento e geração de dados, mais o controle derivado de vídeo terá material útil para treinar e validar.

![Concept head with circuitry]

O que muda para quem quer um humanoide em casa

Na prática, a primeira leva de compradores verá um robô que executa tarefas simples com pouca ou nenhuma intervenção, amplia repertório com uso diário e recebe upgrades de software frequentes. Para tarefas complexas, o modelo de mundo permite que o NEO “tente” a partir de uma compreensão física da cena, em vez de ficar bloqueado por não ter o exato demonstrativo humano. Quando não der, entra a teleassistência agendada.

Casos úteis imediatos incluem abrir portas, buscar objetos, organizar prateleiras e apoiar rotinas de manutenção simples. O valor vem do acerto consistente nessas microrrotinas, repetidas diariamente. O que ainda não entrega valor pleno são sequências longas com muita destreza fina e tolerância zero a erro, como cozinhar pratos complexos do zero, tarefas de estética ou manobras que exigem controle de força milimétrico.

Para integrar o NEO ao dia a dia, vale estabelecer listas de tarefas previsíveis, áreas de atuação delimitadas e janelas de supervisão. Atualizações de firmware, calibração de sensores e limpeza de câmeras ajudam a manter a qualidade das percepções que alimentam o modelo de mundo. Conforme a 1X libera novas versões, a capacidade de generalizar tende a subir com o ecossistema de vídeo melhorando globalmente.

Reflexões e insights

A virada para modelos de mundo baseados em vídeo acontece porque eles capturam “o que vem depois” com uma riqueza que imagens isoladas e descrições textuais não alcançam. Rollouts de vídeo bem condicionados funcionam como um simulador leve. Quando esse simulador respeita a física e a morfologia do robô, a ponte entre imaginação e controle fica curta. Isso não elimina a necessidade de dados de robôs, mas muda a curva de dependência.

Em paralelo, plataformas abertas e datasets sintéticos, como os da linha GR00T, aceleram o ciclo de aprendizado, gerando trajetórias diversas com custo marginal quase zero. O resultado é um caminho híbrido promissor, onde vídeo guia a intenção física e dados simulados preenchem lacunas de cobertura. Por isso, a tendência é vermos mais robôs que “imaginam o futuro” antes de agir, e menos pipelines que exigem milhares de horas de teleoperação.

Conclusão

O upgrade do 1X NEO para um modelo de mundo baseado em vídeo sinaliza uma mudança estrutural na robótica humanoide. Em vez de depender de grandes estoques de demonstrações humanas, o sistema projeta futuros fisicamente plausíveis e extrai deles a trajetória de ação. O impacto imediato está em tarefas do cotidiano, com autonomia crescente e menos dependência de operadores.

Ao mesmo tempo, o setor converge para estratégias centradas em vídeo, com Tesla e NVIDIA reforçando o pano de fundo tecnológico. O NEO ainda tem limites claros em dexteridade e em sequências longas de alto risco, mas a direção é consistente. Com dados de campo, upgrades e a maturação dos modelos de vídeo, a curva de utilidade doméstica tende a subir, abrindo espaço para um assistente físico realmente geral nos próximos ciclos.