Anthropic lança Glasswing e Mythos Preview com Big Tech

Introdução

O Project Glasswing marca uma mudança de patamar na segurança de software. Em testes recentes, o Claude Mythos Preview identificou milhares de vulnerabilidades zero-day, incluindo falhas em todos os principais sistemas operacionais e navegadores, e fez isso com forte autonomia para reproduzir e explorar problemas que escaparam por décadas.

A importância do tema é dupla. Primeiro, porque o mesmo avanço que permite corrigir bugs rapidamente também pode ser usado por agentes maliciosos. Segundo, porque a Anthropic decidiu não liberar o Mythos Preview ao público, focando uso defensivo por meio do Project Glasswing, em parceria com empresas como AWS, Apple, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, Nvidia e Palo Alto Networks.

Este artigo detalha como o Project Glasswing funciona, o que diferencia o Mythos Preview, quais métricas sustentam o anúncio, quem são os parceiros e o que times de engenharia e segurança podem fazer agora para se preparar.

O que é o Project Glasswing e por que importa

O Project Glasswing é uma iniciativa de cibersegurança liderada pela Anthropic que dá a parceiros acesso ao Claude Mythos Preview com objetivo claro, encontrar e corrigir vulnerabilidades em sistemas que compõem uma fração enorme da superfície de ataque compartilhada na internet. A Anthropic afirma que o escopo inclui detecção local de vulnerabilidades, testes de caixa preta de binários, hardening de endpoints e pentests controlados.

A empresa se comprometeu com 100 milhões de dólares em créditos de uso do modelo para a fase de pesquisa, além de doações a entidades do ecossistema open source, 2,5 milhões de dólares para Alpha-Omega e OpenSSF via Linux Foundation, e 1,5 milhão de dólares para a Apache Software Foundation. O plano prevê compartilhar aprendizados, publicar em até 90 dias um relatório público do progresso e propor recomendações práticas para a segurança na era da IA.

Na prática, o Glasswing quer antecipar a curva. O próprio anúncio reconhece conversas em curso com governos sobre riscos e benefícios, reforçando que o equilíbrio entre capacidades ofensivas e defensivas mudou. A decisão de restringir o acesso ao Mythos Preview a um núcleo de defensores é coerente com esse risco.

Mythos Preview, capacidades e métricas que sustentam o salto

O diferencial do Mythos Preview aparece nas medições internas e externas. Em reprodução de vulnerabilidades com a benchmark CyberGym, o modelo atingiu 83,1 por cento de sucesso na primeira tentativa, um salto relevante sobre a linha Opus 4.6. Em tarefas de código e raciocínio, os gráficos divulgados mostram liderança do Mythos Preview em baterias como SWE-bench Pro, Terminal-Bench 2.0 e variantes multimodais. Esses dados sustentam a tese de um avanço em “agentic coding” e autonomia de exploração, que extrapola simples geração de patches.

Casos concretos apresentados incluem uma falha de 27 anos no OpenBSD, uma falha de 16 anos no FFmpeg que passou por milhões de execuções de testes automatizados sem detecção, e uma cadeia de vulnerabilidades no kernel Linux que permite escalar privilégios até controle total da máquina. No conjunto, ilustram tanto a abrangência quanto a sutileza dos bugs que o modelo consegue encontrar e explorar.

Além dos exemplos, a equipe Frontier Red Team relatou que o Mythos Preview identifica e explora zero-days em todos os principais navegadores e sistemas operacionais, inclusive escrevendo exploits complexos, como sprays de heap JIT para escapar de sandboxes de navegador e do sistema. Em testes comparativos, o Mythos converteu descobertas em exploits funcionais em larga escala, um patamar que versões anteriores não alcançavam.

![Ilustração de cibersegurança com cadeado e circuito]

Quem está na coalizão e como o acesso funciona

No lançamento, 12 organizações parceiras formam o núcleo do Glasswing, entre elas AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, Nvidia e Palo Alto Networks. A Anthropic também prevê estender o acesso a mais de 40 organizações que mantêm software crítico, com uso exclusivamente defensivo. A TechCrunch e a Axios confirmaram o número de parceiros e o desenho do acesso, incluindo créditos de uso e doações para fortalecer mantenedores.

O acesso ocorre via Claude API e provedores parceiros, Amazon Bedrock, Google Cloud Vertex AI e Microsoft Foundry. Encerrado o período coberto pelos créditos, a Anthropic lista preço de 25 dólares por milhão de tokens de entrada e 125 dólares por milhão de tokens de saída para participantes do programa, sinalizando que o consumo será significativo em tarefas de varredura, exploração controlada e geração de patches.

Depoimentos públicos de executivos de segurança dessas empresas indicam que o Mythos Preview já está em uso em bases de código críticas e que os resultados antecipam uma mudança de práticas, com modernização de pilhas de segurança e maior automação de triagem e correção. A Linux Foundation, por exemplo, destaca o impacto de levar capacidades de descoberta de falhas a mantenedores que nunca tiveram equipes de segurança dedicadas.

Por que não liberar ao público, riscos e salvaguardas

A decisão de não liberar o Mythos Preview publicamente se apoia em um ponto objetivo, a mesma capacidade que encontra bugs pode gerar exploits de alto impacto em larga escala. O anúncio oficial e reportagens independentes reforçam que o modelo é “extremamente autônomo” e já mostrou competência para produzir cadeias de exploração sofisticadas. A Anthropic afirma que pretende amadurecer salvaguardas primeiro em um novo Opus, menos arriscado, e só depois ampliar o uso de modelos da classe Mythos.

Essa contenção não ocorre no vácuo. Outras empresas podem chegar a capacidades semelhantes em 6 a 18 meses, segundo fontes citadas pela Axios. O recado é simples, se os defensores não aprenderem a operar com modelos deste nível agora, quando versões abertas ou menos restritas surgirem, o desequilíbrio tático pode favorecer atacantes. O Glasswing tenta reduzir essa janela, promovendo coordenação entre indústria, mantenedores e governo.

Como times de engenharia e segurança podem se preparar hoje

Mapear o inventário de software crítico. Priorize componentes com maior exposição, kernels, libs de mídia, parsers de arquivos, pilhas de rede e autenticação. Cruzar esse inventário com SBOM ajuda a direcionar avaliações assistidas por IA.
Adotar pipelines de varredura com modelos e ferramentas tradicionais. Combine Mythos Preview, quando disponível via parceiros, com fuzzers, ASan e SAST, e use ambientes isolados, contêiner sem rede, logs detalhados e chaves efêmeras. Os relatos do Frontier Red Team mostram que o Mythos se beneficia de escaffolds que permitem leitura de código, execução, depuração e validação automatizada.
Fortalecer governança de divulgação coordenada. Prepare canais de triagem e resposta com mantenedores e fornecedores. O volume de achados pode ser alto e a Anthropic já sinalizou que menos de 1 por cento do total identificado até agora foi completamente corrigido, o que exige priorização baseada em risco.
Planejar resposta rápida a N-days e upgrades. O Mythos também acelera a transformação de N-days em exploits. Tenha prontas janelas de manutenção e automação de patches, além de mitigação temporária, feature flags e bloqueios compensatórios em WAF, EDR e políticas de kernel.
Investir em telemetria e contenção. Se a janela entre descoberta e exploração encolheu de meses para minutos, como alertam parceiros do programa, monitoramento de comportamento e isolamento por padrão deixam de ser opcional.

Impacto no open source e no ecossistema

Grande parte da infraestrutura digital se apoia em projetos open source mantidos por equipes pequenas. O Glasswing reconhece isso explicitamente, com recursos financeiros direcionados a Alpha-Omega, OpenSSF e Apache Software Foundation, e com um programa para que mantenedores solicitem acesso ao modelo. A meta é reduzir o déficit histórico em segurança de bases críticas.

A transparência também foi endereçada, a Anthropic está publicando hashes criptográficos de detalhes de vulnerabilidades ainda não divulgadas, comprometendo-se a revelar os relatórios após os patches, seguindo prazos de 90 mais 45 dias. Essa prática tenta equilibrar responsabilidade com prestação de contas pública.

![Borboleta glasswing, referência ao nome do projeto]

Casos técnicos, do OpenBSD ao navegador com escape duplo de sandbox

O caso do OpenBSD mostra como detalhes antigos persistem. A implementação do SACK manipulava listas de lacunas com comparações suscetíveis a overflow de inteiros assinados. O Mythos manipulou condições de borda para acionar uma escrita via ponteiro nulo e derrubar remotamente a máquina, algo crítico para um sistema usado em firewalls e infraestrutura sensível.

No FFmpeg, a descoberta de uma falha sobrevivente a milhões de execuções de testes automatizados traz um alerta, robustez de testes não elimina a necessidade de leitura guiada por modelos com raciocínio sobre fluxos de memória. E no kernel Linux, a cadeia de vulnerabilidades para escalar de usuário comum a root mostra a habilidade do modelo para montar ataques compostos, inclusive contornando KASLR.

Esses exemplos, combinados com resultados como 83,1 por cento em reprodução de vulnerabilidades no CyberGym e ganhos expressivos em SWE-bench e Terminal-Bench, sustentam a tese de que modelos de nova geração não só “entendem” código, como planejam, testam hipóteses, executam ferramentas e validam automaticamente saídas, em ciclos iterativos de horas.

O papel das Big Tech e a coordenação público-privada

Relatos independentes confirmam que a Anthropic constituiu um núcleo de 12 parceiros e ampliará o acesso a mais de 40 organizações. A TechCrunch destaca o uso “exclusivamente defensivo” e o compartilhamento de aprendizados, enquanto a Axios acrescenta briefings com órgãos como CISA e Departamento de Comércio, além da previsão de que outras empresas chegarão a capacidades equivalentes em poucos meses. Esse mosaico reforça a leitura de que segurança virou tema de alinhamento setorial, não apenas de produto.

Outro ponto relevante é a rota de distribuição, o Mythos Preview pode ser acessado via Claude API e plataformas como Bedrock, Vertex AI e Foundry, o que facilita a integração com pipelines corporativos já estruturados em nuvem e reduz fricção para testes controlados em larga escala.

O que muda para líderes de produto, engenharia e CISOs

Roadmaps precisam incorporar segurança como requisito não funcional contínuo. Se modelos agentivos elevam tanto detecção quanto exploração, versões, SLAs de patch e políticas de end-of-life devem refletir o novo ritmo.
Times de plataforma devem preparar ambientes “air-gapped” para execução de agentes de avaliação, com provisionamento automatizado, orquestração de containers, quotas de tokens e registros de auditoria.
DevSecOps deve abraçar avaliações baseadas em risco. Nem todo crash é igual. Priorização por impacto, exposição e facilidade de exploração, com validação humana em laço curto, é o que separa ruído de sinal.
Governança interempresarial e com mantenedores precisa ser fortalecida. O volume de findings exige processos de coordenação, comunicação e divulgação responsáveis, seguidos por validação e patch upstream.
Métricas precisam evoluir, além de CVSS, considere tempo entre descoberta e mitigação, cobertura de superfícies críticas, taxa de regressão após correções assistidas por IA e custo marginal por vulnerabilidade endereçada.

Reflexões e insights ao longo do caminho

Dois movimentos parecem inevitáveis. Primeiro, ferramentas de defesa vão incorporar modelos com raciocínio avançado e capacidade de executar passos, não só sugerir patches. Segundo, testes em produção com limites seguros, feature flags, isolamentos progressivos e observabilidade granular serão fundamentais para evitar regressões e ataques por falhas induzidas por correções apressadas.

Outro insight importante, manter a vantagem do defensor exige reduzir atrito. Ao encurtar o caminho entre descoberta e correção, com automação, templates de PR e validação contínua, organizações podem neutralizar uma parte relevante do ganho tático que atacantes obteriam com modelos semelhantes. As doações e créditos do Glasswing apontam para um esforço inicial nessa direção.

Conclusão

O Project Glasswing combina três pilares que raramente aparecem juntos, capacidade técnica para encontrar e explorar falhas profundas, coordenação entre grandes provedores e mantenedores open source, e compromisso público com uso defensivo e responsabilidade na divulgação. As métricas e cases divulgados, do OpenBSD ao kernel Linux, sugerem que o salto do Mythos Preview é material e já está acelerando correções em software crítico.

Para lideranças técnicas, a leitura é clara. O cenário de segurança mudou de ritmo. Preparar times, processos e infraestrutura para avaliações com modelos de classe Mythos é menos sobre hype e mais sobre resiliência. A escolha de restringir o acesso agora, somada a créditos e doações, procura ganhar tempo para os defensores. Usar bem esse tempo é a vantagem competitiva mais importante nos próximos ciclos.