Anthropic: Constitutional Classifiers e jailbreaks

Introdução

Constitutional Classifiers ganharam uma nova geração na Anthropic, com foco explícito em resistir a jailbreaks universais e reduzir o custo computacional da defesa sem aumentar recusas em perguntas legítimas. O anúncio de 9 de janeiro de 2026 detalha a arquitetura e os resultados, incluindo nenhuma descoberta de jailbreak universal contra o sistema de produção testado e apenas cerca de 1 por cento de overhead de computação em cargas do Claude Opus 4.0.

O tema importa porque jailbreaks universais, aqueles que funcionam em muitas consultas diferentes, são uma das rotas mais perigosas para transformar um modelo útil em um gerador de conteúdo prejudicial. Além de riscos óbvios, como instruções para armas químicas ou biológicas, jailbreaks também degradam capacidades gerais do modelo, o que pode minar aplicações legítimas em ciência, saúde e educação.

Este artigo explica o que muda com os Constitutional Classifiers++, por que a abordagem da Anthropic é relevante para times de produto e segurança, como se posiciona no debate sobre robustness, e como aplicar lições práticas em pipelines de IA corporativa.

O que são os Constitutional Classifiers e por que a nova geração importa

Constitutional Classifiers são salvaguardas treinadas com dados sintéticos gerados a partir de uma constituição, um conjunto de regras em linguagem natural que define o que é permitido e o que deve ser bloqueado. Na versão de 2025, esses classificadores já haviam reduzido a taxa de sucesso de jailbreaks em testes sintéticos de 86 por cento para 4,4 por cento, com aumento modesto de recusas e custo computacional. Também houve um bug bounty e um demo público que revelaram um caso de jailbreak universal, o que norteou melhorias.

A nova geração, chamada informalmente de Constitutional Classifiers++, introduz três pilares técnicos, cada um endereçando limitações observadas na prática:

Classificador de trocas, que avalia saídas no contexto do que foi perguntado, evitando cegueira quando saída e entrada se disfarçam mutuamente. Em red teaming humano, isso cortou pela metade ataques bem sucedidos, embora com maior custo se usado isoladamente.
Arquitetura em cascata de duas etapas, onde um filtro leve analisa todo o tráfego e apenas escalona interações suspeitas para um classificador mais custoso e preciso. Isso reduz custos e frustrações porque a etapa 1 não precisa recusar, ela encaminha para revisão mais robusta.
Sondas internas, que reutilizam ativações internas do modelo para detectar indícios de nocividade quase sem custo adicional. Por olharem para representações internas, são mais difíceis de enganar e complementam o classificador externo.

O paper técnico publicado em 8 de janeiro de 2026 relata uma queda de 40 vezes no custo computacional em relação ao baseline de um classificador de trocas puro, ao mesmo tempo em que mantém 0,05 por cento de recusas em tráfego de produção e nenhuma ocorrência de jailbreak universal no conjunto de oito desafios alvo.

Onde os ataques evoluíram e como a nova arquitetura responde

Os testes adversariais identificaram duas famílias de ataques ainda problemáticas nos sistemas anteriores: reconstrução e obfuscação de saída. Em reconstrução, um atacante espalha partes da solicitação nociva em pedaços aparentemente inocentes, para que o modelo remonte a intenção escondida. Em obfuscação, a saída camufla termos perigosos como sinônimos inofensivos ou metáforas, enganando verificações superficiais.

Essas técnicas não só driblam filtros, como também derrubam desempenho em benchmarks exigentes. No GPQA Diamond, o desempenho caiu de 74 por cento para até 32 por cento sob certos jailbreaks, demonstrando que a segurança não é um silo separado da capacidade técnica, ela afeta diretamente utilidade.

A resposta da Anthropic combina o classificador de trocas, capaz de correlacionar entrada e saída, com as sondas internas e a cascata barata. Na prática, a primeira etapa barata vê tudo, a segunda só julga casos duvidosos, e o conjunto de sinais internos e externos reduz tanto falsos negativos, que deixam passar ataques, quanto falsos positivos, que recusam consultas legítimas.

![Exemplos de vulnerabilidades na geração anterior]

Resultados, números e trade-offs que importam para produto

Resultados de implantação em tráfego do Claude Sonnet 4.5 indicam taxa de recusa de 0,05 por cento em consultas benignas, uma queda de 87 por cento em relação ao sistema anterior, e cerca de 1 por cento de overhead se aplicado ao Claude Opus 4.0. Em 1.700 horas acumuladas de red teaming e 198 mil tentativas, apenas uma vulnerabilidade de alto risco foi encontrada e nenhum red teamer descobriu um jailbreak universal do conjunto alvo.

O paper detalha que a combinação de sondas lineares eficientes com o classificador externo alcançou custo 40 vezes menor que um classificador de trocas isolado, mantendo a robustez. O resultado prático é viabilidade de produção, um gargalo que frequentemente inviabiliza defesas mais pesadas.

Para times de produto, o ponto central é que segurança aplicável precisa caber no orçamento de latência e custo. A arquitetura em cascata permite preservar experiência do usuário porque a primeira etapa não recusa, ela encaminha casos para análise mais profunda. Isso reduz fricção de uso, evita bloqueios indevidos em tarefas como suporte ao cliente e analítica, e ainda assim mantém uma linha de defesa que resiste a estratégias universais conhecidas.

![Métricas de robustez, recusas e custo com o sistema de 2025]

O que o mercado aprendeu com os testes públicos em 2025

Em fevereiro de 2025, a Anthropic abriu um demo e um bug bounty convidando a comunidade a tentar contornar os classificadores. O exercício teve centenas de participantes, mais de 300 mil interações, prêmios em dinheiro e revelou um caso de jailbreak universal, além de técnicas frequentes como cifragem, role-play via system prompts e substituição de termos perigosos por eufemismos. Esses dados foram fundamentais para a evolução de 2026.

Esse tipo de transparência é incomum e, quando bem conduzido, ajuda a alinhar expectativas com clientes e reguladores. Em paralelo, outras avaliações independentes mostraram que chatbots comerciais permaneciam suscetíveis a jailbreaks básicos, reforçando a necessidade de defesas multi-camada. O Instituto de Segurança em IA do Reino Unido, por exemplo, reportou em maio de 2024 que modelos populares eram altamente vulneráveis a prompts que contornavam salvaguardas.

Ilustração do artigo

Como aplicar princípios dos Constitutional Classifiers no seu stack

A boa notícia é que princípios centrais podem ser adaptados para pipelines corporativos, mesmo que a sua organização não tenha um modelo proprietário como o Claude.

Defina uma constituição clara. Transforme políticas internas e requisitos regulatórios em regras legíveis por humanos que mapeiem classes permitidas e proibidas. Isso alimenta geração sintética de dados para treinar detectores.
Use avaliação contextual. Avaliar a saída isoladamente já não basta. Ligue prompts e respostas para capturar correlações suspeitas que indicam obfuscação ou reconstrução.
Implante em cascata. Coloque um filtro barato em toda a superfície de ataque e escalone apenas o que for suspeito para verificações mais custosas, preservando latência.
Explore sondas internas quando possível. Em modelos que você controla, monitore ativações para sinais de conteúdo nocivo. Sinais internos e externos se complementam e reduzem tanto falsos positivos quanto falsos negativos.
Combine com testes automatizados e humanos. Construa suítes de prompts adversariais inspiradas em literatura aberta sobre jailbreaking e mantenha um programa contínuo de red teaming, de preferência com recompensas e critérios claros.

Aplicar esses passos cria uma defesa pragmática. Mesmo sem reproduzir a arquitetura exata da Anthropic, sua equipe pode capturar grande parte dos ganhos em robustez e custo.

Limitações e debates em aberto

Nenhuma defesa é perfeita. A própria Anthropic relata que ataques de reconstrução e obfuscação continuam apresentando desafios e que mais pesquisa é necessária para integrar sinais de classificadores diretamente na geração do modelo e para automatizar red teaming. Esses rumos já aparecem como próximos passos do time.

Outro debate envolve métricas. Reduzir recusas indevidas em produção é tão importante quanto resistir a ataques sofisticados. Uma defesa que trava o uso legítimo cria incentivos para desativar proteções. O ganho reportado, 0,05 por cento de recusas benignas, é promissor e indica maturidade da linha de pesquisa.

Por fim, o ecossistema de jailbreaks segue evoluindo. Pesquisas acadêmicas introduziram ataques universais por otimização de prompts e estratégias de role-play cooperativo, o que exige avaliação contínua, telemetria e reciclagem de dados de defesa. Nenhum provedor está imune e a diversidade de técnicas torna essencial o uso de múltiplas camadas de controle.

Boas práticas operacionais para equipes de segurança e produto

Separe políticas por domínio de risco. CBRN, financeiro, privacidade e propriedade intelectual têm nuances diferentes. Constituições específicas melhoram recall sem elevar falsos positivos.
Telemetria com privacidade. Coletar sinais de ativação e decisões de classificadores é valioso, mas precisa de controles de privacidade, retenção e auditoria. Crie painéis que acompanhem taxa de escalonamento, recusas, e incidentes confirmados.
Feedback humano no loop. Para consultas de alto valor, prefira escalonar para revisão humana em vez de recusar. A experiência do usuário melhora e gera rótulos valiosos para retrain.
Testes A B em tráfego real. Meça latência, custo e satisfação do usuário quando ligar a cascata. Algumas equipes preferem iniciar com 10 por cento do tráfego e expandir em etapas semanais.
Plano de resposta rápida. Prepare playbooks para bloquear padrões emergentes e atualizar constituições e pesos dos classificadores em horas, não semanas. Isso foi apontado como vantagem no mundo real em relação a demos estáticas.

Impacto estratégico para negócios e governança

Para executivos, o recado é claro. Robustez a jailbreaks universais não é apenas segurança, é continuidade de negócio. Menos incidentes significa menos risco regulatório, menos interrupções de serviço e mais confiança do cliente.

Para conformidade, constituições explícitas são auditáveis. Em vez de uma caixa preta, há critérios claros que podem ser verificados por terceiros e alinhados a normas setoriais.

Para produto, a cascata mantém experiência fluida. A primeira etapa barata filtra com generosidade e encaminha, a segunda etapa decide com precisão. O resultado é UX consistente, sem a sensação de bloqueios arbitrários.

Conclusão

A evolução dos Constitutional Classifiers aponta para uma defesa prática, eficiente e mensurável contra jailbreaks universais. A Anthropic reduziu custos, baixou recusas indevidas e fortaleceu a detecção com um desenho que combina contexto da conversa, sondas internas e uma cascata inteligente. Em testes e produção, a abordagem entregou robustez sem sacrificar a utilidade do sistema.

O próximo passo do setor é transformar esses princípios em padrão de mercado, com constituições auditáveis, testes públicos e cooperação entre pesquisadores, provedores e reguladores. A competição agora não é apenas por modelos mais potentes, é por defesas que se sustentam em produção, com eficiência e transparência.