AI2 lança Molmo 2, VLM open source para vídeo avançado
Molmo 2 amplia o alcance dos modelos visão-linguagem com compreensão temporal, apontamento e rastreamento em vídeo, combinando desempenho de ponta com abertura para pesquisa e adoção prática.
Danilo Gato
Autor
Introdução
Molmo 2 chegou com ambição clara, levar o padrão de excelência dos modelos visão-linguagem para a compreensão avançada de vídeo. Lançado pela AI2 em 11 de dezembro de 2025, o Molmo 2 amplia as capacidades de grounding inauguradas no Molmo original para o eixo espaço e tempo, incluindo apontamento em vídeo, rastreamento com IDs persistentes e legendas densas. O foco está em respostas verificáveis, com coordenadas de pixel e carimbos de tempo que mostram onde e quando algo acontece.
A relevância é direta para quem trabalha com robótica, segurança, análise de tráfego, manufatura, ciência baseada em vídeo e qualquer fluxo que precise transformar sequências visuais em decisões. Em comparação a pares proprietários muito maiores, os modelos do Molmo 2 disputam resultados de ponta, principalmente em rastreamento e grounding. E fazem isso com uma fração dos dados de treino usados por alternativas recentes.
Este artigo detalha o que há de novo no Molmo 2, variantes e arquitetura, resultados em benchmarks, datasets abertos, caminhos de adoção imediata e limites práticos. O objetivo é separar hype de impacto real, com dados, exemplos e aplicações concretas.
O que há de novo no Molmo 2
Molmo 2 é uma família de modelos multimodais com três variantes principais, projetadas para equilibrar desempenho e eficiência. A variante Molmo 2 8B usa um backbone Qwen 3 e é a melhor opção geral para grounding e QA em vídeo. A Molmo 2 4B, também baseada em Qwen 3, prioriza velocidade e implantação enxuta. Já a Molmo 2-O 7B é construída sobre o Olmo, oferecendo um fluxo totalmente aberto para pesquisa, do LLM ao encoder de visão, permitindo inspeção e modificação completa da pilha.
Nos detalhes de engenharia, o cartão do modelo 4B no Hugging Face aponta o uso de SigLIP 2 como backbone de visão, além da base linguística Qwen3-4B-Instruct, reforçando a combinação entre um encoder visual moderno e um LLM otimizado para instruções. O projeto mantém a linha de abertura, com datasets liberados e compromisso de liberar código de treino e outros artefatos, algo relevante para reprodutibilidade e auditoria.
Outro diferencial é a prontidão para uso. A AI2 disponibiliza playground com workflows de vídeo e multi-imagem, além de modelos e datasets para download. A organização também sinaliza API em breve e código de treinamento sob licença open source, mantendo o uso pretendido para pesquisa e educação em conformidade com diretrizes de uso responsável.
Benchmarks, eficiência e a disputa com pares proprietários
Os resultados reportados indicam que o Molmo 2 estabelece novas marcas entre modelos de pesos abertos em avaliações multimodais, com liderança ou empate em QA de imagem, QA de vídeos curtos, contagem em vídeo e preferência humana. Em rastreamento, a suíte supera alternativas abertas e até especializados open trackers, incluindo linhas base com SAM 2, e ultrapassa sistemas proprietários como o Gemini 3 Pro com margem ampla nas avaliações internas.
Uma métrica de eficiência chama atenção. O Molmo 2 atinge esses resultados treinando com aproximadamente 9,19 milhões de vídeos, menos de um oitavo do volume usado pelo PerceptionLM da Meta, estimado em 72,5 milhões. Isso sugere ganhos reais advindos de curadoria cuidadosa de dados e objetivos de treinamento com foco em grounding. Publicações independentes que repercutiram o lançamento destacam justamente essa relação entre qualidade dos dados e desempenho em tarefas temporais.
Em termos de preferência humana, a AI2 reporta o Molmo 2 8B à frente de pares abertos como Qwen3-VL-8B, com variações próximas nas versões 4B e 7B-O, enquanto modelos proprietários maiores ainda lideram o topo do ranking. Em QA de vídeos curtos, a 8B lidera entre pesos abertos, e a 4B entrega quase o mesmo patamar com maior eficiência, viabilizando uso em contextos de latência restrita.
Outra conclusão importante vem do benchmark de grounding de vídeo. Mesmo com avanços significativos, a AI2 aponta que ainda há espaço a explorar, já que nenhum modelo atinge 40 por cento de acurácia nessa avaliação específica. Isso é útil para calibrar expectativas, principalmente em cenários que exigem decisões de alto risco com base em contagens e eventos temporais.
![Comparativos de rastreamento e preferência humana]
A linha acima resume bem o posicionamento do Molmo 2. Há ganhos substanciais em rastreamento e grounding com eficiência de dados, resultados competitivos com APIs proprietárias em várias frentes e sinal claro de maturidade técnica que habilita casos práticos. Para equipes que precisam de transparência e possibilidade de adaptação, a combinação de abertura, datasets e desempenho tende a ser decisiva.
Arquitetura, escalabilidade e por que o grounding melhorou
A arquitetura do Molmo 2 combina um encoder de visão que transforma frames em tokens visuais, um conector leve que intercala tokens com índices de imagem e timestamps, e um backbone linguístico Qwen 3 ou Olmo. O desenho permite que os tokens visuais, inclusive de frames diferentes, atentem uns aos outros, o que eleva a capacidade de raciocínio multi-imagem e temporal. O pipeline de inferência também é flexível, com estratégias que processam mais frames diretamente ou adotam abordagem SlowFast para manter acurácia em vídeos longos com menos tokens de visão.
Do ponto de vista de treino, a AI2 detalha dois estágios. O primeiro foca pré-treinamento para alinhamento e grounding, com mistura aproximada de 60 por cento de legendas, 30 por cento de apontamento e 10 por cento de dados de linguagem natural. O segundo realiza SFT em mistura multimodal que integra imagens, múltiplas imagens, vídeos e texto puro, cobrindo categorias como captioning, QA, apontamento, rastreamento e tarefas de NLP. A equipe cita 25 mil passos, batch de 128 e janelas de sequência de até 16.384 tokens, além de técnicas de balanceamento de tokens, packing de sequência e atenção bidirecional entre tokens visuais.
A escolha de SigLIP 2 como encoder de visão na 4B, combinada ao Qwen3-4B-Instruct, sugere decisões pensadas para maximizar o custo-benefício. SigLIP 2 avança a linha de encoders vision-language com melhor alinhamento entre imagens e texto, e a base Qwen 3 está madura em instruções e contexto longo, algo valioso para QA sobre vídeos. Esse casamento técnico ajuda a explicar a boa relação entre número de parâmetros, latência e resultados em benchmarks de tracking e QA.
![Diagrama de arquitetura do Molmo 2]

Outro ponto estrutural é a extensão nativa do conceito de imagem apontada para vídeo. O modelo não só responde à pergunta, ele indica no espaço-tempo a evidência que sustenta a resposta. Em tarefas como contagem por apontamento, o sistema retorna coordenadas e timestamps para cada ocorrência, mantendo IDs persistentes mesmo com oclusões e reentradas, o que reduz erros de dupla contagem. Essa característica transforma a interação do usuário com o modelo, já que explica o porquê do resultado de maneira verificável.
Dados, datasets abertos e a filosofia de curadoria
Os ganhos do Molmo 2 dialogam com a estratégia de dados. A AI2 construiu um corpus multimodal centrado em vídeo com mais de 9 milhões de exemplos e introduziu nove novos conjuntos, abrangendo captioning denso, QA de longo curso e supervisão de apontamento e rastreamento em imagens, multi-imagem e vídeo. A lista inclui, entre outros, Molmo2-Cap para legendas longas, Molmo2-AskModelAnything com QA humanos, Molmo2-SubtitleQA que combina sinais visuais e transcrições, Molmo2-VideoPoint para grounding espacial-temporal, e Molmo2-VideoTrack para rastreamento baseado em pontos.
A tabela publicada pela AI2 dá uma noção de escala. São mais de 100 mil vídeos com 431 mil clipes legendados em Molmo2-Cap, cerca de 140 mil pares de QA humanos, 1 milhão de pares de QA sintéticos gerados a partir de legendas e metadados, 300 mil pares de QA com legendas, mais de 300 mil queries de apontamento, 3,6 mil clipes e 15 mil queries de tracking, dezenas de milhares de conjuntos multi-imagem com anotações de pointing e QA, além de dados sintéticos em imagens de texto como tabelas e documentos. Essa densidade oferece supervisão rica sobre eventos, relações e detalhes raros, algo que turbina a compreensão temporal.
Curadoria e objetivos de treino orientados a grounding parecem ser o motor de eficiência. Em vez de expandir dados indiscriminadamente, a AI2 prioriza instruções que forçam o modelo a localizar, contar, relacionar e justificar, o que se reflete em melhorias em benchmarks de contagem e rastreamento. A comparação com PerceptionLM, em que o Molmo 2 obtém performance competitiva com volume muito menor de vídeo, reforça essa tese.
Para equipes de produto e pesquisa, a abertura dos datasets facilita auditoria de viés, adaptação a domínios específicos e experimentos de data-centric AI. Em operações críticas, essa transparência reduz risco de modelo caixa preta e encurta ciclos de validação e compliance.
Como começar, do playground ao deploy controlado
O caminho mais rápido para experimentar é o Ai2 Playground, que já permite upload de clipes e conjuntos de imagens, com workflows para sumarização, contagem, tracking e QA com evidência visual. Para quem precisa avaliar localmente, as variantes estão no Hugging Face, com instruções de instalação para o Molmo2-4B, incluindo requisitos de Transformers, Torch e bibliotecas de vídeo como Decord. Isso dá liberdade para testar performance na sua GPU, ajustar thresholds de confiança e medir trade-offs de tokens visuais.
No plano prático, uma rota de adoção passa por quatro passos: 1 selecionar variante de acordo com o orçamento de latência e memória, por exemplo 4B para protótipos rápidos e 8B para máxima qualidade de grounding; 2 validar no domínio, criando um mini-benchmark com vídeos reais e perguntas que exigem apontamento e contagem; 3 instrumentar telemetria de avaliação contínua, medindo erros de contagem, instantes perdidos e estabilidade de IDs ao longo do vídeo; 4 estabelecer política de uso responsável, alinhando escopo de pesquisa, requisitos de privacidade de vídeo e comunicação sobre limitações, principalmente quando houver decisões automatizadas.
A licença e as diretrizes de uso importam. A AI2 descreve o Molmo 2 como destinado a pesquisa e educação, com datasets de terceiros sob restrições de uso acadêmico e não comercial. Para contextos comerciais, é prudente revisar cada fonte de dados e, se necessário, optar pela adaptação com dados próprios rotulados ou por fluxos de validação que descaracterizem riscos de conformidade.
Limitações, riscos e como mitigar
Mesmo com avanços, o grounding de vídeo continua desafiador. A própria avaliação da AI2 indica que nenhum modelo passa de 40 por cento de acurácia em seu benchmark de contagem com apontamento. Em aplicações que dependem de contagens precisas ou detecção de eventos raros, a recomendação é manter humano no loop, configurar checagens por amostragem e usar redundância com regras determinísticas em trechos críticos.
Outro ponto é a generalização fora de domínio. Se o dataset de treino prioriza certos cenários, como esportes ou rotinas domésticas, é razoável esperar degradação em vídeos industriais específicos, câmeras de baixa qualidade ou ambiente noturno. O processo de validação deve cobrir iluminação variável, oclusões severas, objetos pequenos e movimentos rápidos. Além disso, políticas de privacidade de vídeo, consentimento e retenção precisam ser definidas desde o protótipo.
No front técnico, vale atenção a custos de tokenização visual e throughput. Apesar de estratégias que tornam vídeos longos viáveis, a engenharia de inferência ainda exige escolhas, como taxa de amostragem de frames, resolução, janelas de atenção e o uso de estratégias estilo SlowFast. Experimentação orientada por métricas ajuda a encontrar o ponto ótimo entre custo e qualidade, sem abrir mão de evidência visual para auditoria.
Onde o Molmo 2 pode gerar vantagem agora
Há oportunidades imediatas. Em inspeção visual, o apontamento espaço-temporal permite localizar microdefeitos em linhas de produção e indicar o quadro exato do erro, acelerando análise de causa raiz. Em esportes, a contagem por apontamento e o tracking com IDs persistentes eliminam ambiguidade em lances com múltiplos objetos, algo útil para clipping automatizado e estatísticas avançadas. Em pesquisa científica, legendas densas e QA longo ajudam a transformar vídeos de experimentos em documentação pesquisável, com referências visuais explícitas.
Para desenvolvedores de produtos, a transparência do stack 7B-O baseado em Olmo é interessante quando se quer controlar completamente cada componente, do conector ao LLM. Já a 4B reduz barreiras de prototipagem e a 8B puxa o teto de qualidade em grounding e tracking. O ecossistema de modelos, datasets e ferramentas, somado ao compromisso público de liberar código de treino, forma um pacote coerente para construir pipelines sustentáveis.
Conclusão
Molmo 2 consolida a virada do grounding verificável como peça central dos VLMs. Ao levar apontamento, contagem e rastreamento para a dimensão temporal, a AI2 entrega um caminho concreto para transformar vídeo em evidência acionável, com competitividade frente a APIs proprietárias e vantagens claras em transparência, auditoria e adaptação. A eficiência de dados, comparada a projetos massivos como PerceptionLM, sugere que qualidade e curadoria focada podem superar volume indiscriminado.
O passo seguinte está nas mãos de quem constrói. Equipes que medirem resultados com vídeos do seu domínio, explorarem o playground e validarem riscos de uso terão clareza sobre onde o Molmo 2 já entrega valor e onde ainda precisa de salvaguardas. Entre abertura, desempenho e trilha de adoção prática, o projeto da AI2 coloca a compreensão de vídeo em uma curva de maturidade que vale acompanhar de perto.
