Ai2 lança MolmoWeb, agente web visual open weight

Introdução

MolmoWeb, agente web visual open weight, foi lançado pelo Allen Institute for AI com 30 mil trajetórias humanas e uma pilha completa de treinamento, posicionando-se como alternativa auditável aos serviços fechados para automação de navegação em sites reais. A novidade foi anunciada em 24 de março de 2026 com foco em reprodutibilidade de modelos e dados, além de desempenho competitivo em benchmarks de browsers.

A proposta ataca um problema central no ecossistema de agentes web, a dependência de APIs proprietárias para operar browsers e a escassez de modelos visuais abertos que cheguem prontos para uso com dados e pipeline. MolmoWeb junta pesos abertos em tamanhos de 4B e 8B, um dataset que inclui 30k trajetórias de tarefas humanas em mais de 1.100 sites, e documentação do fluxo de treino.

O que este artigo aborda

Como o MolmoWeb funciona apenas com screenshots do navegador e por que isso importa.
O que há no MolmoWebMix, o conjunto de dados que sustenta o agente.
Como o modelo se compara a alternativas em benchmarks ao vivo.
Onde MolmoWeb se encaixa no stack de IA aberta da Ai2, junto de Molmo 2 e OLMo.
Aplicações práticas para times de produto, dados e plataformas internas.

Como o MolmoWeb enxerga e age no navegador

MolmoWeb opera a partir de uma premissa simples, mas poderosa, ver o que o usuário veria. Em vez de depender do HTML ou da accessibility tree, o agente recebe, a cada passo, a instrução da tarefa, a screenshot atual, o histórico de ações em texto, a URL e o título da página. Em seguida, gera um raciocínio em linguagem natural e decide a próxima ação, que pode incluir clique por coordenadas, digitação, rolagem, navegação para URL ou troca de abas. Isso o torna agnóstico ao browser, capaz de rodar em Chrome local, Safari ou ambientes hospedados, incluindo um demo apoiado pela Browserbase.

Essa abordagem visual reduz acoplamento com o DOM e tende a generalizar melhor frente a variações de layout ou frameworks front end. Além disso, facilita auditoria do raciocínio, já que cada passo associa imagem e pensamento textual, útil para compliance e reprodutibilidade de falhas em times corporativos.

![Logo da Ai2, mantenedora do MolmoWeb]

O que há dentro do MolmoWebMix

O diferencial do anúncio é o MolmoWebMix, um conjunto de dados que reúne três componentes complementares. Primeiro, demonstrações humanas coletadas via extensão do Chrome, totalizando 30 mil trajetórias de tarefas, mais de 1.100 sites e cerca de 590 mil subtarefas. Segundo, trajetórias sintéticas geradas por agentes baseados em accessibility tree e pipelines multiagente, filtradas por sucesso, sem usar VLMs proprietários. Terceiro, dados de percepção de GUI com 2,2 milhões de pares pergunta e resposta sobre screenshots para treinar grounding e leitura visual de páginas.

Conteúdos adicionais compartilhados pela comunidade indicam que o mix total ultrapassa 160 mil trajetórias, incluindo mais de 30 mil demonstrações humanas, 7 milhões de exemplos de grounding e 2,2 milhões de QA em screenshots. Esses números reforçam a escala do componente sintético que complementa o bloco humano.

Por que isso é relevante para engenharia e ciência de dados. Com trajetórias passo a passo, fica mais simples treinar cabeçalhos de decisão, checar regressões em pipelines de navegação e refinar políticas de ação condicionadas a visão. Para empresas, o material viabiliza fine tuning supervisionado, distilação e ajustes específicos a fluxos internos, sem depender de coleta própria do zero.

Comparativos em benchmarks de agentes de navegador

Segundo a Ai2, MolmoWeb lidera entre modelos open weight em quatro avaliações de sites ao vivo, WebVoyager, Online Mind2Web, DeepShop e WebTailBench, e supera agentes mais antigos baseados em GPT 4o que combinavam accessibility tree com screenshots. Embora números detalhados não estejam no texto da reportagem, a lista corrobora a direção do desenvolvimento, foco em ambientes reais e diversidade de tarefas.

Para contexto, o benchmark WebVoyager, proposto originalmente em 2024, mede sucesso de execução em 15 sites reais e ajudou a estabilizar a comparação entre arquiteturas de agentes. Desde então, times independentes reportam variações de 59 a 90 por cento em sucesso, conforme stack e modo de interação. Isso demonstra como escolhas de ferramentas, visão versus DOM e estratégia de planejamento afetam a performance.

Online Mind2Web, por sua vez, é uma vertente dinâmica do popular Mind2Web, com tarefas atualizadas em sites reais, pensado para reduzir efeitos de drift e tarefas obsoletas. Ele captura screenshots e DOM a cada ação e mede eficiência em relação a trajetórias humanas de referência, tornando mais clara a distância entre agentes e usuários especialistas.

Já o WebTailBench, mantido na Hub do Hugging Face, posiciona-se como avaliação abrangente para agentes que usam computador, com foco em cenários de web mais variados. Complementa benchmarks read heavy e oferece um espaço para testar generalização a diferentes layouts e jornadas de usuário.

Onde MolmoWeb se encaixa no ecossistema aberto da Ai2

MolmoWeb herda capacidades e dados do programa Molmo e Molmo 2, família de modelos visão linguagem abertos da Ai2 com foco em grounding, apontamento e vídeo curto, além de compatibilidade com backbones como Qwen e OLMo. Molmo 2, por exemplo, documenta receitas de dados, código de treino e conjuntos multimodais próprios, reforçando a ênfase da Ai2 em transparência, reprodutibilidade e ciência aberta.

Esse histórico importa para times que precisam explicar decisões de modelos a auditorias internas, boards e clientes. Pesos abertos sem receitas de dados e treino limitam reprodutibilidade. A postura da Ai2, com abertura de pesos, dados e pipeline, reduz risco de vendor lock in e viabiliza tuning local para fluxos sensíveis. Em um cenário em que APIs como OpenAI Operator ou a API de uso de computador da Anthropic priorizam conveniência, MolmoWeb oferece caminho de controle fino e custo previsível.

![Laptop com navegador aberto ilustrando automação de tarefas web]

Limitações conhecidas e como mitigar em produção

Nem tudo é perfeito. A Ai2 lista pontos a monitorar, leitura de texto em screenshots pode falhar, interações de arrastar e soltar são menos confiáveis, e o desempenho cai quando as instruções são ambíguas ou muito restritivas. Além disso, o treinamento não cobriu tarefas com login e transações financeiras. Em contextos corporativos, isso pede rotas híbridas com regras, verificações automáticas de estado e, quando necessário, intervenção humana.

Boas práticas que funcionam na prática, combinar o agente com uma infraestrutura de browser hospedado estável, como Browserbase, para escalar sessões com latência baixa e monitoramento centralizado. Manter catálogos de prompts com validações de pré e pós condições, checar se elementos críticos estão presentes na viewport antes de agir, e registrar vídeos e screenshots de cada passo para auditoria. Benchmarks dinâmicos, como Online Mind2Web, ajudam a calibrar rotinas de regressão em sites reais e a detectar drift de layout.

Aplicações práticas para produto, dados e operações

Suporte e CX. Rotinas de navegação para localizar informações em portais, abrir tickets, consultar status de pedidos e copiar dados entre sistemas legados, sempre com políticas de privacidade e limites claros. Benchmarks como WebVoyager e Online Mind2Web dão um norte de robustez antes de ir para produção.
Growth e pesquisa. Coletas navegáveis em páginas públicas com antirrespaldo legal e robots.txt respeitado. Triangulação de dados com logs do agente reduz alucinações e melhora rastreabilidade.
Operações internas. Automações de backoffice em sites sem API, com playbooks versionados e fine tuning do MolmoWeb para fluxos internos, aproveitando o MolmoWebMix como base de generalização.

Reflexões e insights ao longo do caminho

Arquiteturas visão primeiro voltaram ao centro, não por moda, mas por custo de manutenção. A diversidade de frameworks front end torna o DOM um alvo móvel. Ao treinar diretamente em screenshots, MolmoWeb reduz a fragilidade de seletor e CSS, e expande a robustez para cenários onde a estrutura do HTML muda, mas o visual permanece compreensível para humanos. Isso não elimina a utilidade da accessibility tree, porém sugere equilibrar ambos conforme o caso.

A escala de dados também muda o jogo. Somar 30k trajetórias humanas com trajetórias sintéticas filtradas por sucesso aproxima o agente de heurísticas humanas e amplia cobertura de cantos escuros. Em paralelo, QA de screenshots em milhões de exemplos treina o modelo a localizar e entender componentes de UI, peça chave em sites com carrosséis, menus dinâmicos e pop ups.

Por fim, o ecossistema aberto da Ai2 sinaliza uma tendência, times querem modelos com pesos, dados e receitas públicas. Isso encurta ciclos de auditoria, favorece replicação acadêmica e dá às empresas controle sobre custo por tarefa, latência e privacidade. Em áreas reguladas, essa transparência pode ser o fator decisivo entre piloto e produção.

Conclusão

MolmoWeb reúne três elementos raros no mesmo pacote, agente web visual open weight, dataset com 30 mil trajetórias humanas e pipeline completo de treinamento. O anúncio de 24 de março de 2026 referencia benchmarks ao vivo e ressalta limitações, deixando claro onde o modelo brilha e onde precisa de engenharia adicional. Para quem precisa de controle e auditoria, o equilíbrio entre abertura, performance e documentação é um passo concreto na direção certa.

Para times de produto e dados, o recado é pragmático, comece com avaliações em WebVoyager e Online Mind2Web, padronize telemetria de sessões e itere fine tuning sobre fluxos críticos. Em um mercado dividido entre APIs poderosas, porém opacas, e frameworks abertos sem modelos prontos, MolmoWeb oferece um caminho do meio, com visão primeiro, dados escaláveis e engenharia reprodutível.