Anthropic adquire Vercept para ampliar uso de computador

Introdução

Anthropic adquire Vercept para ampliar o uso de computador do Claude. O anúncio oficial, publicado em 25 de fevereiro de 2026, deixa claro o objetivo estratégico, acelerar a habilidade do Claude de operar aplicativos reais como uma pessoa, clicando, preenchendo formulários e navegando em fluxos complexos. Essa linha de produto, chamada de computer use, já vinha evoluindo rapidamente e ganhou fôlego adicional com a chegada da equipe da Vercept.

A importância desse movimento vai além do branding. O uso de computador é a ponte entre LLMs e o trabalho digital cotidiano, planilhas, ERPs, navegadores e ferramentas legadas. Em benchmarks como o OSWorld, a Anthropic relata salto de menos de 15 por cento no fim de 2024 para 72,5 por cento com o Claude Sonnet 4.6, um patamar próximo ao desempenho humano nessa avaliação. Isso abre espaço para automação de tarefas que antes exigiam integrações sob medida.

O artigo aprofunda o que foi anunciado, quem é a Vercept, o papel do OSWorld como régua de mercado, o impacto prático para empresas e desenvolvedores e como essa aquisição se conecta a movimentos anteriores da Anthropic, como a compra da Bun para turbinar o Claude Code.

O que a aquisição da Vercept muda no curto prazo

A Anthropic afirmou que a Vercept foi construída em torno de uma tese clara, tornar a IA realmente útil em tarefas complexas exige resolver problemas difíceis de percepção e interação. O comunicado cita os cofundadores Kiana Ehsani, Luca Weihs e Ross Girshick, especialistas em visão computacional e agentes, e informa que o produto externo da Vercept será descontinuado nas próximas semanas, com a equipe migrando para acelerar o roadmap do Claude.

Essa incorporação se encaixa com a direção que o Claude já vinha tomando. A empresa posiciona o computer use como a forma de fazer o modelo agir dentro de aplicativos vivos, como uma pessoa ao teclado, não apenas gerar código ou texto. Em termos práticos, isso significa que o Claude pode assumir tarefas de múltiplas etapas, por exemplo, consolidar dados em uma planilha, preencher cadastros em sites diferentes e costurar tudo entre abas e janelas.

Do lado de governança e produto, a mensagem é disciplina, a Anthropic diz buscar equipes com ambição técnica alinhada e princípios de segurança e rigor. Esse mesmo enquadramento apareceu na sua primeira aquisição, a Bun, linguagem e runtime JavaScript que foi integrada para impulsionar velocidade e estabilidade do Claude Code, o agente de programação. O histórico com a Bun sinaliza como a companhia tende a integrar tecnologias essenciais e transformar ganhos de infraestrutura em benefício direto do usuário final.

Quem é a Vercept, e por que importa para agentes que usam computador

A Vercept surgiu em Seattle com um time oriundo do Allen Institute for AI, envolvendo o ex CEO do Ai2 Oren Etzioni como cofundador e perfis de ponta em visão, agentes e RL. A cobertura da GeekWire em 10 de fevereiro de 2025 descreveu a formação do time, com Kiana Ehsani na liderança e nomes como Matt Deitke, Luca Weihs e Ross Girshick, reforçando a densidade técnica do grupo. Esse pedigree é diretamente relevante para computer use, que depende de percepção visual precisa, grounding na interface e planejamento de ações.

No anúncio, a Anthropic enfatiza que a expertise da Vercept mapeia para os problemas mais difíceis que o Claude precisa resolver, ver e agir no mesmo software que humanos usam todos os dias. Na prática, é a diferença entre um chatbot que descreve como fazer algo e um agente que efetivamente o faz, clicando nos lugares certos, interpretando estados de UI e recuperando de erros de caminho.

OSWorld, a régua do mercado para uso de computador

Agentes que operam computadores precisam de uma métrica congruente com a realidade. O OSWorld, mantido por um consórcio acadêmico e industrial, é um ambiente de avaliação com 369 tarefas reais em desktop e web, medindo se o agente conclui fluxos end to end. Em julho de 2025, o projeto ganhou a variante OSWorld Verified, com correções, suporte em AWS e um processo de avaliação pública e reproduzível. Há também a referência de desempenho humano em 72,36 por cento, que funciona como norte para progresso.

No anúncio da aquisição, a Anthropic conecta a chegada da Vercept com um marco anterior, o lançamento do Claude Sonnet 4.6, que atingiu 72,5 por cento no OSWorld segundo a própria empresa. O dado importa por três motivos, aproximação do patamar humano, salto consistente em relação a gerações anteriores e validação de que o mid tier Sonnet está praticamente empatado com o Opus 4.6 em uso de computador.

Publicações independentes reportaram números convergentes, destacando que o Sonnet 4.6 praticamente empata com o Opus 4.6 no OSWorld Verified e, em alguns testes de escritório e finanças, chega a superar a variante superior, com vantagem de custo relevante. Essas leituras ajudam a calibrar expectativas sobre o valor prático do Sonnet 4.6 para agentes corporativos.

![Interface de IA em laptop, representando agentes em aplicativos]

Do laboratório ao chão de fábrica, o que muda para empresas

A partir de 72,5 por cento no OSWorld, fica mais viável colocar agentes em rotinas que antes exigiam humanos, mas ainda há degraus. O recado que a Anthropic dá é que o Claude não apenas lê e programa, ele executa processos inteiros, de navegar sites a completar formulários com validações. Isso torna a automação de sistemas legados, sem APIs ou conectores, uma possibilidade concreta, com ganhos de produtividade e menor dependência de integrações sob medida.

Ao mesmo tempo, benchmarks não substituem pilotos controlados. OSWorld é uma régua útil, nasceu exatamente para aproximar avaliação e mundo real, porém cada stack corporativa tem apps, polítiques de rede e autenticação diferentes. O melhor caminho é orquestrar projetos em fases, começando por casos de alto volume e baixa criticidade, por exemplo, reconciliação de dados entre planilhas, extração de relatórios recorrentes em portais e pré preenchimento de cadastros internos.

Para viabilizar escala, a Anthropic vinha integrando infraestrutura crítica. A aquisição da Bun em dezembro de 2025 ilustra o movimento, reduzir atritos no build, testes e execução de código, melhorando latência e estabilidade para workloads de agentes, especialmente no Claude Code. Relatos do período apontam que o Bun oferece ganhos expressivos em instalação de pacotes, bundling e tempo de inicialização, todos fatores que, somados, afetam a experiência em agentes que precisam iterar rápido.

Segurança e governança, riscos reais em uso de computador

Quanto mais capaz o agente, maior a superfície de risco. Relatórios independentes destacam que a Anthropic fortaleceu resistência a prompt injection e outros vetores no Sonnet 4.6 em comparação ao 4.5, e que a performance ficou próxima ao Opus 4.6. Em computer use, ataques podem se esconder na própria interface, instruções maliciosas em páginas web, pop ups enganosos e descarrilamento por elementos dinâmicos. Políticas de lista branca de domínios, isolamento de sessões e auditoria de trajetórias são práticas essenciais.

O OSWorld Verified também melhora a confiança do mercado ao exigir execução monitorada e, quando aplicável, a validação em ambiente controlado com submissão pública de trajetórias. Para equipes de segurança, há valor em reproduzir as mesmas tarefas internamente, com variações de rede e autenticação, para medir quão robusto o agente é em cenários com SSO, MFA e proxies.

Como pilotar o Claude com computer use após a aquisição

Três passos práticos funcionam bem. Primeiro, selecione tarefas com alto tempo desperdiçado por humanos, preenchimento de webforms repetitivos, coleta de dados em portais e reconciliação entre planilhas e CRMs. Essas tarefas combinam ações curtas e regras claras, ideal para iteração rápida do agente. Segundo, padronize ambientes, resoluções e temas dos apps, reduzindo entropia visual para facilitar grounding na UI. Terceiro, estabeleça métricas antes do piloto, tempo por tarefa, taxa de sucesso, taxa de intervenção humana, e compare contra linha de base.

Para a orquestração, use rotinas de retry, limites de tempo e checkpoints. Se o agente falhar em um subpasso, como capturar um valor em tabela paginada, um fallback para scraping controlado ou APIs fechadas internas pode amortecer erros sem interromper o fluxo inteiro. Esse tipo de engenharia de contorno é comum em empresas que fazem RPA, e agora volta a ser relevante no mundo de agentes LLM.

Convergência com outras frentes da Anthropic

A narrativa da Anthropic não é só modelo, é produto e infraestrutura. O anúncio cita explicitamente o Claude Sonnet 4.6 como gatilho do avanço recente em computer use, e o histórico com a Bun mostra que a companhia não hesita em adquirir tecnologia crítica quando acredita que isso encurta o caminho de entrega. Em paralelo, a Anthropic tem ampliado acesso a computação em larga escala, como nos acordos com hyperscalers, para sustentar a evolução de modelos e agentes. Essa base de compute é pré requisito para treinamento e avaliação robustos.

O ponto de fundo é verticalização seletiva, trazer para perto equipes e runtimes que movem a agulha. Com Vercept, a aposta é acelerar percepção e ação em UI. Com Bun, encurtar ciclos de desenvolvimento e execução do Claude Code. E com acordos de compute, garantir o teto de escala. Esse arranjo tende a reduzir o tempo entre pesquisa, engenharia e usos práticos, algo que clientes percebem como estabilidade, menor latência e maior taxa de conclusão por tentativa.

![Close da interface de um agente em execução]

O que observar nos próximos meses

A Anthropic disse que a Vercept encerrará seu produto externo nas próximas semanas e se integrará ao roadmap de computer use. A partir disso, vale acompanhar, novas métricas no OSWorld Verified com margens estatísticas claras, expansão de casos suportados oficialmente e melhorias de segurança em contextos hostis, páginas com DOM dinâmico, iframes, CAPTCHAs e variações de layout. Também vale ficar atento a integrações de produtividade, como Connectors e Skills do ecossistema Claude, que podem servir de atalho para operações complexas.

Para quem opera em setores regulados, o ideal é preparar desde já políticas de registro de trajetórias, retenção de logs e segregação de ambientes. A combinação de auditoria com metas de desempenho evita que ganhos de produtividade venham com custos ocultos de risco operacional. Em paralelo, equipes de UX podem racionalizar interfaces internas, reduzindo variações visuais desnecessárias para facilitar a vida dos agentes, um investimento que melhora, inclusive, a experiência de pessoas.

Reflexões finais sobre a tese por trás da aquisição

A tese é pragmática, agentes que realmente resolvem trabalho precisam ver e agir. A Vercept traz um time que passou anos pensando a fundo em percepção, grounding e ação, temas que viraram os gargalos práticos do mercado de LLMs quando se sai da API e entra na interface viva. Juntando forças, a Anthropic indica que quer transformar ganhos de benchmark em rotinas confiáveis de escritório, finanças, backoffice e atendimento.

E há um alerta construtivo, 72,5 por cento em OSWorld é um piso alto, não um teto. O patamar humano cravado na régua de 72,36 por cento aponta que pequenas melhorias de percepção, memória de interface e estratégias de recuperação podem fazer diferença desproporcional na taxa de conclusão. O trabalho agora é engenharia, ergonomia de UI e práticas operacionais.

Conclusão

A aquisição da Vercept pela Anthropic, anunciada em 25 de fevereiro de 2026, reforça a aposta em computer use como alavanca de valor do Claude. Com desempenho de 72,5 por cento no OSWorld para o Sonnet 4.6 e um time focado em percepção e ação, o cenário fica mais favorável para automatizar rotinas reais, das planilhas às aplicações web legadas. O caso ilustra uma estratégia coerente, integrar talento e tecnologia crítica para acelerar entrega de resultados.

Para quem toma decisão em tecnologia, o recado é claro, priorize pilotos com métricas, invista em segurança e trate a interface como parte do sistema. A linha entre benchmarking e valor de negócio fica mais tênue quando agentes passam a operar computadores como gente de verdade. O próximo ciclo competitivo será definido por quem transforma essa capacidade em processos confiáveis e escaláveis, sem sacrificar governança.