Anthropic detalha métodos para detectar e prevenir ataques de destilação
Anthropic publica achados técnicos sobre campanhas de destilação em larga escala, explica riscos, mostra táticas de detecção e propõe contramedidas práticas para conter a extração ilícita de capacidades de modelos
Danilo Gato
Autor
Introdução
Ataques de destilação de modelos de IA deixaram de ser hipótese acadêmica e entraram no noticiário técnico com força. Em 23 de fevereiro de 2026, a Anthropic detalhou campanhas industriais que usaram 24 mil contas fraudulentas para gerar mais de 16 milhões de interações com o Claude, com o objetivo de extrair capacidades e treinar modelos concorrentes, um caso exemplar de ataques de destilação em escala.
O alerta importa por duas razões. Primeiro, porque ataques de destilação podem drenar propriedades de raciocínio, uso de ferramentas e código de um modelo avançado para um aluno mais barato, reduzindo custos e tempo de P&D de quem copia. Segundo, porque a cópia raramente preserva salvaguardas de segurança, ampliando riscos de uso indevido. A própria Anthropic descreveu impactos potenciais em segurança nacional e pressionou por coordenação entre empresas, provedores de nuvem e formuladores de políticas.
Este artigo analisa os achados da Anthropic, contextualiza o que são ataques de destilação, apresenta métodos de detecção, discute limitações técnicas como as rotas de evasão de watermarks e traz um checklist prático para líderes de produto, segurança e compliance.
O que a Anthropic revelou, números e modus operandi
A Anthropic atribuiu com alta confiança três campanhas a DeepSeek, Moonshot AI e MiniMax. O padrão observado incluiu contas falsas orquestradas, uso de proxies comerciais e tráfego sincronizado com prompts altamente repetitivos, focados em poucas capacidades valiosas para treinamento, um sinal típico de extração, não de uso legítimo. O volume reportado foi expressivo, com a Moonshot superando 3,4 milhões de trocas e a MiniMax ultrapassando 13 milhões.
A empresa afirmou ter correlacionado endereços IP, metadados de requisição e indicadores de infraestrutura, além de receber corroboração de parceiros da indústria. O alvo principal foram capacidades diferenciadas do Claude, incluindo raciocínio agentivo, orquestração de ferramentas e programação. Em um caso, quando a Anthropic lançou um novo modelo, a MiniMax teria redirecionado quase metade do tráfego em 24 horas para capturar as novidades. Esses pontos foram repercutidos por veículos como o Wall Street Journal, The Verge e Business Insider no dia 24 de fevereiro de 2026, reforçando a gravidade e a escala.
Além das contas falsas, a Anthropic descreveu a presença de redes de revenda de acesso, os chamados clusters hydra, com dezenas de milhares de contas misturando tráfego de clientes reais e tarefas de extração, o que dificulta banimentos pontuais. Um único operador teria controlado mais de 20 mil contas de uma só vez.
Por que ataques de destilação importam para negócios e segurança
A destilação é uma técnica legítima de aprendizado, usada para compactar modelos e reduzir custos. O problema começa quando laboratórios usam saídas de um modelo proprietário, violando termos de uso e restrições regionais, para treinar competidores. O resultado são modelos que herdam capacidade, mas dispensam camadas de segurança, e podem ser integrados a sistemas militares, de inteligência e vigilância, ampliando riscos de ciberoperações ofensivas e campanhas de desinformação.
Há um componente de política industrial e controles de exportação. A Anthropic argumenta que essas campanhas não demonstram superação criativa de restrições, mas dependem do acesso a chips avançados e de apropriação de capacidades via destilação, o que reforça a racionalidade de controles. A imprensa também conectou o episódio a alegações anteriores contra o DeepSeek por parte de outras empresas de IA.
Como os atacantes estruturam a extração
Os indícios relatados mostram padrões consistentes:
- Multiplicação de contas, inclusive educacionais e de pesquisa, com verificação fraca, compradas ou automatizadas por revendedores.
- Uso de proxies para contornar georrestrições e pulverizar o tráfego, reduzindo pontos únicos de falha.
- Prompts rubricados e altamente repetidos para gerar dados de recompensa e raciocínio passo a passo, úteis em RL e treino de raciocínio, incluindo tentativas de elicitar cadeias de raciocínio.
- Redirecionamento rápido após lançamentos de modelos, visando capturar capacidades recém-introduzidas.
Na prática, esses sinais se diferenciam de uso normal por três marcadores, volume concentrado, alta redundância estrutural dos prompts e estreita correspondência entre o conteúdo gerado e os conjuntos de dados ideais para destilação.
![Visual de segurança cibernética com cadeado sobre circuito]
Como detectar ataques de destilação, do tráfego à prova estatística
A Anthropic afirma usar classificadores e impressão digital comportamental para identificar campanhas, incluindo detecção de elicitação de cadeias de raciocínio e atividade coordenada entre múltiplas contas. Também intensificou verificações de acesso para rotas comuns de abuso e compartilha indicadores técnicos com outros laboratórios, provedores de nuvem e autoridades.
Do ponto de vista técnico, a comunidade de pesquisa vem explorando métodos que ajudam a inferir se um aluno foi treinado sobre saídas de um professor específico. Duas frentes ganharam tração recente:
- Radioatividade de watermarks, a ideia de que um watermark estatístico no professor pode “vazar” para o aluno durante a destilação, permitindo detecção posterior. Trabalhos de 2025 avaliaram essa herança e, de forma crítica, mostraram ataques de remoção e falsificação que reduzem sua confiabilidade se o adversário for competente.
- Detecção sem dados, métodos que, com acesso apenas aos pesos do aluno e à API do professor, sintetizam entradas e computam escores para testar a hipótese de destilação, com ganhos relevantes de acurácia reportados em visão e geração texto imagem.

Esses resultados sugerem uma conclusão pragmática, detecção eficaz não virá de um único mecanismo, mas da composição de sinais, telemetria de API, análise estatística de saídas, verificação de identidade forte, reputação de cliente e cooperação entre plataformas.
O que limita os watermarks hoje e como mitigar
A literatura recente mostra que, embora watermarks possam ser herdados por alunos, adversários conseguem neutralizá-los antes da destilação, por exemplo, por parafraseamento direcionado do conjunto sintético, ou durante a inferência, por neutralização em tempo de execução. Em 2025, pesquisadores demonstraram remoção completa de traços mantendo eficiência de transferência, além de um framework unificado de ataques de spoofing e scrubbing que preserva desempenho do modelo.
Implicação prática, trate watermarks como parte de uma defesa em profundidade, não como prova única de origem. Combine com fingerprinting comportamental, limites de taxa sensíveis a padrão, amostragem ativa de auditoria e, quando possível, testes de similaridade professor aluno em tarefas sintéticas concebidas para maximizar divergências entre modelos independentes.
Export controls, cooperação e o papel dos provedores
A Anthropic relaciona ataques de destilação com a eficácia de controles de exportação de chips, argumentando que a limitação de hardware restringe não só o treinamento direto, mas também a escala de campanhas de extração. A empresa afirma compartilhar indicadores técnicos e pede resposta coordenada da indústria e de formuladores de políticas. A cobertura de veículos internacionais amplia a leitura de que o problema extrapola disputas comerciais e toca aspectos de segurança nacional.
Para provedores de nuvem e plataformas de intermediação, o recado é claro, contas de revenda massiva e padrões de roteamento que mascaram campanhas devem acionar controles proativos, bloqueios por comportamento e trilhas de auditoria compartilháveis com parceiros confiáveis.
![Cérebro em circuito, metáfora para extração de capacidades]
Recomendações práticas para equipes de produto e segurança
- Endureça o funil de acesso. Revalide programas educacionais, pesquisa e startups, com KYC proporcional ao risco, autenticação forte e checagens periódicas de legitimidade. A Anthropic cita esses caminhos como os mais explorados para criação de contas falsas.
- Monitore padrões de uso, não apenas volume bruto. Procure por concentrações em poucas capacidades, prompts rubricados com pequena variação e sincronização de horários entre múltiplas contas. Construa escores de risco por comportamento.
- Aplique limites de taxa adaptativos. Rate limits estáticos são fáceis de contornar com clusters. Use sinais de similaridade de prompt, entropia de saídas, impressões de dispositivo e redes.
- Injete perturbações direcionadas. Para caminhos de alto risco, reduza a utilidade de saídas para destilação sem degradar a experiência do cliente legítimo, por exemplo, moderando a exposição a raciocínio detalhado em contextos suspeitos, algo que a Anthropic aponta como área ativa de produto e modelo.
- Watermark, mas com realismo. Implante marcas estatísticas com rotação de chaves e combine com auditorias periódicas, sabendo que há rotas de remoção e falsificação reportadas na literatura, portanto, exija múltiplas provas.
- Crie playbooks com a nuvem. Estabeleça canais para troca de indicadores, correlação de metadados e derrubada rápida de clusters hydra em provedores. A Anthropic enfatiza inteligência compartilhada.
- Telemetria defensável e privacidade. Colete o mínimo necessário para detecção, documente a finalidade, retenção e controles de acesso, e alinhe com políticas internas e regulações locais.
O que observar nos próximos meses
- Novas técnicas de detecção. Trabalhos de 2025 já propuseram detectores de destilação mesmo sem dados do conjunto de treino, combinando síntese de entradas e testes estatísticos. A tendência é vermos versões para LLMs de texto, com benchmarks públicos.
- Duelo watermark versus evasão. Pesquisas sobre radioatividade de watermarks devem evoluir para esquemas mais robustos e ensembles que elevam a detectabilidade com menos tokens, enquanto atacantes continuarão a explorar parafraseamento, neutralização em tempo de execução e spoofing.
- Política pública. O caso reacendeu debates sobre controles de exportação e cooperação internacional. A postura de laboratórios e governos frente a redes de revenda e proxies será determinante.
Conclusão
Ataques de destilação de modelos de IA migraram do laboratório para a arena competitiva, com impacto direto em P&D, segurança do produto e política industrial. A Anthropic trouxe números, padrões e contramedidas, além de um pedido claro por coordenação com nuvem e policymakers. O recado para times técnicos é objetivo, trate destilação ilícita como uma ameaça operacional contínua, não como curiosidade acadêmica.
Para ficar à frente, consolide uma linha de defesa em profundidade, identidade forte e verificada, telemetria e fingerprinting comportamental, limites adaptativos, auditoria ativa, watermarks com rotação e cooperação com ecossistema. Quem encarar ataques de destilação com a seriedade de um programa de fraude madura terá melhores chances de proteger propriedade intelectual e, de quebra, reduzir riscos sistêmicos de segurança.
