AI2 lança MolmoMotion, previsão 3D guiada por linguagem
MolmoMotion aproxima IA de um entendimento físico do mundo, prevendo trajetórias em 3D a partir de instruções em linguagem natural e poucos quadros de vídeo, com dados e modelos abertos
Danilo Gato
Autor
Introdução
MolmoMotion chegou ao ar em 17 de junho de 2026 com uma proposta clara, prever movimento em 3D guiado por linguagem usando dados e pesos abertos. O anúncio detalha duas variantes de modelo, um novo dataset em escala e um benchmark próprio, consolidando a aposta da AI2 em pesquisa aberta com impacto prático.
A palavra chave aqui é MolmoMotion. Diferente de geradores de vídeo que tentam “adivinhar” quadros futuros, o sistema prevê trajetórias explícitas de pontos 3D, conectando instruções textuais a objetos em cena. Essa abordagem se apoia no backbone multimodal Molmo 2 para fazer grounding entre texto, imagem e pontos de interesse.
O que este artigo vai cobrir, os fundamentos técnicos de MolmoMotion, os dados e o benchmark liberados, resultados em previsão e em tarefas downstream, implicações práticas em robótica e geração de vídeo, e como times de produto podem começar a explorar essa nova classe de modelos.
Por que previsão de movimento 3D guiada por linguagem importa
Antecipar o que vai acontecer é mais útil do que apenas perceber o que já aconteceu. Em robótica, um manipulador que pretende mover uma tampa precisa prever como a tampa se desloca antes de agir. Em vídeo, controlar com precisão o movimento torna gerações mais realistas. MolmoMotion parte dessa premissa e formaliza o problema como previsão de trajetórias 3D de pontos ancorados em objetos, condicionada por linguagem e um pequeno histórico visual. O paper publicado em 17 de junho de 2026 apresenta a formulação e mostra ganhos consistentes em métricas quantitativas.
Essa escolha de representação, pontos 3D no espaço do mundo, traz benefícios concretos, é independente de classe, estável a mudanças de câmera e diretamente utilizável por políticas de controle ou pipelines de geração. Em vez de renderizar vídeo inteiro ou assumir esqueletos humanos, o modelo trabalha com trajetórias compactas que capturam dinâmica relevante de objetos rígidos, articulados e, com ressalvas, deformáveis.
O que compõe o stack MolmoMotion
Arquitetura e variantes de modelo
MolmoMotion usa o Molmo 2 como backbone multimodal para ligar texto a regiões e pontos da imagem. Sobre ele, duas variantes modelam futuro em 3D de maneiras complementares. A variante autoregressiva, MolmoMotion AR, codifica e decodifica coordenadas como texto estruturado, garantindo suavidade temporal quando o futuro é bem definido. A variante de flow matching, MolmoMotion FM, aprende a transformar ruído em trajetórias contínuas, representando incerteza quando várias evoluções são plausíveis.
Na prática, isso permite escolher o trade off certo por aplicação. AR tende a ser mais precisa em caminhos determinísticos, FM tende a ser mais robusta em cenários ambíguos. Para times de produto, a recomendação é testar ambas com dados próprios, medindo estabilidade, latência e erros máximos por tarefa.
![Arquitetura MolmoMotion]
Dados, em escala e com novo tipo de anotação
O projeto liberou o MolmoMotion 1M, um corpus em larga escala que pareia trajetórias 3D ancoradas a objetos com descrições de ação, extraído automaticamente de 1,16 milhão de vídeos. A anotação reconstrói 3D métrico a partir de trilhas 2D densas e aplica filtros espaciais e temporais para reduzir ruído. Esse dataset, até onde os autores sabem, é o maior do tipo e permite treinar previsores de movimento realmente gerais. O card do dataset e o anúncio oficial trazem a referência ao arXiv e instruções de uso.
Além do dataset, a equipe criou o PointMotionBench, um benchmark validado por humanos com 2,7 mil clipes, 111 categorias de objetos e 61 tipos de movimento. O repositório no Hugging Face detalha a preparação e reconstrução de fontes como DAVIS, HOT3D e WorldTrack, e inclui o BibTeX da publicação. Esses materiais viabilizam avaliação reprodutível e comparável entre métodos.
Coleção de modelos e artefatos
A coleção MolmoMotion no Hugging Face reúne pesos de modelos, datasets e links úteis. Entre os itens aparecem versões 4B com diferentes configurações, além de referências ao dataset e ao benchmark. Essa curadoria facilita descobrir rapidamente qual artefato usar em POCs.
Resultados e como interpretar as métricas
Desempenho em previsão 3D
No PointMotionBench, MolmoMotion supera geradores de vídeo em espaço de pixel, métodos paramétricos 3D e baselines simples, com ganhos em diferentes cenas e ações. O post da AI2 abre números por split, por exemplo, em HOT3D, variantes MolmoMotion ficam abaixo dos erros médios de baseline e de concorrentes reportados, em metros, e em WorldTrack e DAVIS mantêm vantagem sólida. Esses números ajudam a calibrar expectativas, trajetórias previstas seguem de perto o ground truth nas tarefas testadas.
![Resultados no PointMotionBench]
Impacto em robótica, do planejamento ao aprendizado
Em robótica, a equipe avalia MolmoMotion como inicializador de políticas. Em simulação de pick and place, uma política baseada em MolmoMotion alcança 76,3 por cento de sucesso contra 56,0 por cento de uma política com Molmo 2. Em amostragem, a vantagem aparece cedo, 51 por cento em 10 mil passos contra 19 por cento, e no mundo real o erro L2 de teste cai mais rápido com MolmoMotion após fine tuning. Para quem constrói stacks de manipulação, isso sugere usar previsão 3D como priors de movimento, reduzindo tempo de treino e aumentando taxa de sucesso.
![Ganho em planejamento robótico]
Controle de movimento em geração de vídeo
Ao condicionar geradores de imagem para vídeo com as trajetórias previstas, MolmoMotion melhora métricas de movimento em cinco dimensões e supera um modelo maior em quatro delas. Em termos práticos, prompts deixam de ser o único controle, trajetórias 3D fornecem um “canal físico” para movimentos finos, como deslocamentos curtos, rotações parciais e interações objeto a objeto. Para pipelines criativos, isso se traduz em consistência maior de movimentos ao longo dos frames.

Como começar, roteiro prático para equipes
1. Definir problema e métrica de negócio
O primeiro passo é mapear o que previsão de movimento resolve no seu contexto. Em robótica, pode ser reduzir falhas por colisão na etapa de pick, ou aumentar throughput na célula de embalagem. Em conteúdo, pode ser reduzir jitter de câmera em transições ou garantir continuidade de ação entre cenas. Traduza esses objetivos em métricas como sucesso fechado em N tarefas, erro médio em metros por cena, latência P95 e custo por inferência.
2. Prototipar com artefatos oficiais
Baixe os modelos e dados pela coleção do Hugging Face e siga as instruções dos cartões. Para avaliação, reproduza o protocolo do PointMotionBench e, se possível, crie um slice interno com objetos e ações do seu domínio. Registre resultados lado a lado com baselines, por exemplo, extrapolação constante, um VLM genérico e um gerador de vídeo sem condicionamento por trajetória.
3. Integrar no stack existente
Em robótica, inicialize sua política com embeddings ou trajetórias previstas por MolmoMotion, ajuste com dados do DROID quando aplicável e itere nos pontos de consulta 3D por objeto. Em geração de vídeo, use as trajetórias como condicionadores nos módulos de movimento, ajustando a ponderação desse sinal em cenas ambíguas. Considere ainda o backbone Molmo 2 quando precisar de grounding multimodal consistente, ele compõe a base do sistema e está documentado no site da AI2.
4. Checagens de produto, limites e riscos
MolmoMotion treina com oito pontos por objeto, o que limita geometria densa e certos movimentos deformáveis. Em safety, revise uso de fontes de vídeo e licenças associadas ao benchmark. Em privacidade, verifique se instruções e frames carregam dados sensíveis. Em UX, desenhe feedbacks quando a incerteza for alta, a variante FM tende a representar essa ambiguidade melhor, exponha isso para decisões informadas.
Comparações e contexto no ecossistema
MolmoMotion foge do padrão de modelos puramente gerativos em espaço de pixel e também do excesso de especialização em esqueletos humanos que marcou trabalhos anteriores. Ao se apoiar em uma família de VLMs aberta, Molmo, a iniciativa herda interoperabilidade e auditabilidade em toda a pilha, incluindo o backbone Molmo 2 e a linhagem de modelos open weight da AI2. Isso é relevante para empresas que exigem inspeção, adaptação e compliance em trilhas MLOps.
Outro ponto, a escolha por artefatos abertos, pesos, dados e benchmark, aumenta a chance de generalização e de progresso cumulativo da comunidade, já que reprodutibilidade e extensões por terceiros tornam se mais diretas. O post do Hugging Face centraliza modelos, dataset e o projeto, e fixa a data de publicação, 17 de junho de 2026. Isso dá um marco temporal claro para times que avaliam prioridades de adoção.
Perguntas que times técnicos devem responder
- Quais objetos e ações importam no seu domínio, e quantos pontos 3D por objeto bastam para controlar a tarefa com segurança
- Qual variante, AR ou FM, atinge melhor trade off de precisão, estabilidade e latência no seu caso
- O pipeline de dados interno permite gerar pares vídeo, pontos e instruções com a mesma qualidade do MolmoMotion 1M, ou é melhor começar com fine tuning leve
- Como a previsão 3D se conecta a módulos de planejamento, verificação de colisão e ao controlador de baixo nível, com logs para auditoria
- Quais métricas de produto serão afetadas, taxa de sucesso, tempo de execução, custo por tarefa e como será feita a regressão monitorada ao longo do tempo
Roadmap de adoção sugerido
- Semana 1 a 2, POC com AR e FM em um conjunto de tarefas controladas, medindo ADE 3D e sucesso fechado em simulação
- Semana 3 a 4, integração no stack de controle ou no pipeline de vídeo, com canary e flags para fallback
- Semana 5 a 8, coleta de dados reais para fine tuning, redução de erros extremos e análise de casos de falha, principalmente deformações e oclusões prolongadas
- Semana 9+, hardening para produção, SLAs e monitoramento, mais planos de rollback por versão de modelo
O que observar nos próximos meses
- Aumento no número de pontos por objeto e ou melhores codificações para deformáveis
- Extensões para múltiplos objetos com interações complexas e contato prolongado
- Guias e ferramentas para visualização rápida de trajetórias previstas no ciclo de desenvolvimento
- Integrações padrão com stacks de robótica abertos e SDKs para geração de vídeo condicionada a trajetórias
Conclusão
MolmoMotion coloca a previsão de movimento 3D no centro de aplicações práticas, com uma síntese rara, abertura completa de artefatos, uma representação física útil e resultados que transferem para robótica e geração de vídeo. Os dados e benchmarks publicados permitem que qualquer time técnico valide rapidamente se a abordagem entrega valor no seu contexto.
Os próximos passos são naturais, escolher a variante de modelo, plugar a previsão no seu stack e medir retorno sobre métricas de negócio. Com a base aberta e datas claras de publicação, 17 de junho de 2026 para blog e paper, o momento é propício para experimentar e construir em cima da ideia de que antecipar, não apenas perceber, é a chave para IAs que agem com mais confiança no mundo físico.
