Tela de laptop exibindo resultados de busca, representando navegação web
IA aplicada

Ai2 lança MolmoWeb, agente web visual open weight, 30k

MolmoWeb chega com pesos abertos, dataset massivo e pipeline completo de treino. Entenda por que este agente web visual pode redefinir como empresas constroem automações de navegação em sites reais.

Danilo Gato

Danilo Gato

Autor

29 de março de 2026
8 min de leitura

Introdução

MolmoWeb, agente web visual open weight, foi lançado pelo Allen Institute for AI com 30 mil trajetórias humanas e uma pilha completa de treinamento, posicionando-se como alternativa auditável aos serviços fechados para automação de navegação em sites reais. A novidade foi anunciada em 24 de março de 2026 com foco em reprodutibilidade de modelos e dados, além de desempenho competitivo em benchmarks de browsers.

A proposta ataca um problema central no ecossistema de agentes web, a dependência de APIs proprietárias para operar browsers e a escassez de modelos visuais abertos que cheguem prontos para uso com dados e pipeline. MolmoWeb junta pesos abertos em tamanhos de 4B e 8B, um dataset que inclui 30k trajetórias de tarefas humanas em mais de 1.100 sites, e documentação do fluxo de treino.

O que este artigo aborda

  • Como o MolmoWeb funciona apenas com screenshots do navegador e por que isso importa.
  • O que há no MolmoWebMix, o conjunto de dados que sustenta o agente.
  • Como o modelo se compara a alternativas em benchmarks ao vivo.
  • Onde MolmoWeb se encaixa no stack de IA aberta da Ai2, junto de Molmo 2 e OLMo.
  • Aplicações práticas para times de produto, dados e plataformas internas.

Como o MolmoWeb enxerga e age no navegador

MolmoWeb opera a partir de uma premissa simples, mas poderosa, ver o que o usuário veria. Em vez de depender do HTML ou da accessibility tree, o agente recebe, a cada passo, a instrução da tarefa, a screenshot atual, o histórico de ações em texto, a URL e o título da página. Em seguida, gera um raciocínio em linguagem natural e decide a próxima ação, que pode incluir clique por coordenadas, digitação, rolagem, navegação para URL ou troca de abas. Isso o torna agnóstico ao browser, capaz de rodar em Chrome local, Safari ou ambientes hospedados, incluindo um demo apoiado pela Browserbase.

Essa abordagem visual reduz acoplamento com o DOM e tende a generalizar melhor frente a variações de layout ou frameworks front end. Além disso, facilita auditoria do raciocínio, já que cada passo associa imagem e pensamento textual, útil para compliance e reprodutibilidade de falhas em times corporativos.

![Logo da Ai2, mantenedora do MolmoWeb]

O que há dentro do MolmoWebMix

O diferencial do anúncio é o MolmoWebMix, um conjunto de dados que reúne três componentes complementares. Primeiro, demonstrações humanas coletadas via extensão do Chrome, totalizando 30 mil trajetórias de tarefas, mais de 1.100 sites e cerca de 590 mil subtarefas. Segundo, trajetórias sintéticas geradas por agentes baseados em accessibility tree e pipelines multiagente, filtradas por sucesso, sem usar VLMs proprietários. Terceiro, dados de percepção de GUI com 2,2 milhões de pares pergunta e resposta sobre screenshots para treinar grounding e leitura visual de páginas.

Conteúdos adicionais compartilhados pela comunidade indicam que o mix total ultrapassa 160 mil trajetórias, incluindo mais de 30 mil demonstrações humanas, 7 milhões de exemplos de grounding e 2,2 milhões de QA em screenshots. Esses números reforçam a escala do componente sintético que complementa o bloco humano.

Por que isso é relevante para engenharia e ciência de dados. Com trajetórias passo a passo, fica mais simples treinar cabeçalhos de decisão, checar regressões em pipelines de navegação e refinar políticas de ação condicionadas a visão. Para empresas, o material viabiliza fine tuning supervisionado, distilação e ajustes específicos a fluxos internos, sem depender de coleta própria do zero.

Comparativos em benchmarks de agentes de navegador

Segundo a Ai2, MolmoWeb lidera entre modelos open weight em quatro avaliações de sites ao vivo, WebVoyager, Online Mind2Web, DeepShop e WebTailBench, e supera agentes mais antigos baseados em GPT 4o que combinavam accessibility tree com screenshots. Embora números detalhados não estejam no texto da reportagem, a lista corrobora a direção do desenvolvimento, foco em ambientes reais e diversidade de tarefas.

Para contexto, o benchmark WebVoyager, proposto originalmente em 2024, mede sucesso de execução em 15 sites reais e ajudou a estabilizar a comparação entre arquiteturas de agentes. Desde então, times independentes reportam variações de 59 a 90 por cento em sucesso, conforme stack e modo de interação. Isso demonstra como escolhas de ferramentas, visão versus DOM e estratégia de planejamento afetam a performance.

Online Mind2Web, por sua vez, é uma vertente dinâmica do popular Mind2Web, com tarefas atualizadas em sites reais, pensado para reduzir efeitos de drift e tarefas obsoletas. Ele captura screenshots e DOM a cada ação e mede eficiência em relação a trajetórias humanas de referência, tornando mais clara a distância entre agentes e usuários especialistas.

Já o WebTailBench, mantido na Hub do Hugging Face, posiciona-se como avaliação abrangente para agentes que usam computador, com foco em cenários de web mais variados. Complementa benchmarks read heavy e oferece um espaço para testar generalização a diferentes layouts e jornadas de usuário.

Onde MolmoWeb se encaixa no ecossistema aberto da Ai2

MolmoWeb herda capacidades e dados do programa Molmo e Molmo 2, família de modelos visão linguagem abertos da Ai2 com foco em grounding, apontamento e vídeo curto, além de compatibilidade com backbones como Qwen e OLMo. Molmo 2, por exemplo, documenta receitas de dados, código de treino e conjuntos multimodais próprios, reforçando a ênfase da Ai2 em transparência, reprodutibilidade e ciência aberta.

Esse histórico importa para times que precisam explicar decisões de modelos a auditorias internas, boards e clientes. Pesos abertos sem receitas de dados e treino limitam reprodutibilidade. A postura da Ai2, com abertura de pesos, dados e pipeline, reduz risco de vendor lock in e viabiliza tuning local para fluxos sensíveis. Em um cenário em que APIs como OpenAI Operator ou a API de uso de computador da Anthropic priorizam conveniência, MolmoWeb oferece caminho de controle fino e custo previsível.

![Laptop com navegador aberto ilustrando automação de tarefas web]

Limitações conhecidas e como mitigar em produção

Nem tudo é perfeito. A Ai2 lista pontos a monitorar, leitura de texto em screenshots pode falhar, interações de arrastar e soltar são menos confiáveis, e o desempenho cai quando as instruções são ambíguas ou muito restritivas. Além disso, o treinamento não cobriu tarefas com login e transações financeiras. Em contextos corporativos, isso pede rotas híbridas com regras, verificações automáticas de estado e, quando necessário, intervenção humana.

Boas práticas que funcionam na prática, combinar o agente com uma infraestrutura de browser hospedado estável, como Browserbase, para escalar sessões com latência baixa e monitoramento centralizado. Manter catálogos de prompts com validações de pré e pós condições, checar se elementos críticos estão presentes na viewport antes de agir, e registrar vídeos e screenshots de cada passo para auditoria. Benchmarks dinâmicos, como Online Mind2Web, ajudam a calibrar rotinas de regressão em sites reais e a detectar drift de layout.

Aplicações práticas para produto, dados e operações

  • Suporte e CX. Rotinas de navegação para localizar informações em portais, abrir tickets, consultar status de pedidos e copiar dados entre sistemas legados, sempre com políticas de privacidade e limites claros. Benchmarks como WebVoyager e Online Mind2Web dão um norte de robustez antes de ir para produção.
  • Growth e pesquisa. Coletas navegáveis em páginas públicas com antirrespaldo legal e robots.txt respeitado. Triangulação de dados com logs do agente reduz alucinações e melhora rastreabilidade.
  • Operações internas. Automações de backoffice em sites sem API, com playbooks versionados e fine tuning do MolmoWeb para fluxos internos, aproveitando o MolmoWebMix como base de generalização.

Reflexões e insights ao longo do caminho

Arquiteturas visão primeiro voltaram ao centro, não por moda, mas por custo de manutenção. A diversidade de frameworks front end torna o DOM um alvo móvel. Ao treinar diretamente em screenshots, MolmoWeb reduz a fragilidade de seletor e CSS, e expande a robustez para cenários onde a estrutura do HTML muda, mas o visual permanece compreensível para humanos. Isso não elimina a utilidade da accessibility tree, porém sugere equilibrar ambos conforme o caso.

A escala de dados também muda o jogo. Somar 30k trajetórias humanas com trajetórias sintéticas filtradas por sucesso aproxima o agente de heurísticas humanas e amplia cobertura de cantos escuros. Em paralelo, QA de screenshots em milhões de exemplos treina o modelo a localizar e entender componentes de UI, peça chave em sites com carrosséis, menus dinâmicos e pop ups.

Por fim, o ecossistema aberto da Ai2 sinaliza uma tendência, times querem modelos com pesos, dados e receitas públicas. Isso encurta ciclos de auditoria, favorece replicação acadêmica e dá às empresas controle sobre custo por tarefa, latência e privacidade. Em áreas reguladas, essa transparência pode ser o fator decisivo entre piloto e produção.

Conclusão

MolmoWeb reúne três elementos raros no mesmo pacote, agente web visual open weight, dataset com 30 mil trajetórias humanas e pipeline completo de treinamento. O anúncio de 24 de março de 2026 referencia benchmarks ao vivo e ressalta limitações, deixando claro onde o modelo brilha e onde precisa de engenharia adicional. Para quem precisa de controle e auditoria, o equilíbrio entre abertura, performance e documentação é um passo concreto na direção certa.

Para times de produto e dados, o recado é pragmático, comece com avaliações em WebVoyager e Online Mind2Web, padronize telemetria de sessões e itere fine tuning sobre fluxos críticos. Em um mercado dividido entre APIs poderosas, porém opacas, e frameworks abertos sem modelos prontos, MolmoWeb oferece um caminho do meio, com visão primeiro, dados escaláveis e engenharia reprodutível.

Tags

agentes de navegaçãovisão computacionalopen weight