Anthropic leva 8 do top 10 da Cisco, Opus 4.5 nº 1

Introdução

A notícia é direta, a Anthropic ocupa 8 das 10 posições de LLMs mais seguros no novo ranking público da Cisco, com o Claude Opus 4.5 em primeiro lugar. O LLM Security Leaderboard foi divulgado em 23 de março de 2026 e coloca segurança de modelos no centro da decisão para uso corporativo.

A importância é prática, empresas estão adotando IA em ritmo acelerado e, ao mesmo tempo, relatam baixa prontidão para fazê‑la com segurança. O índice de prontidão em IA da Cisco indica que 83 por cento planejam implementar agentes de IA, mas apenas 29 por cento se sentem preparados para fazê‑lo com segurança. Isso cria um descompasso que o novo quadro de referência tenta reduzir.

Este artigo destrincha o que o leaderboard mede, por que a Anthropic dominou o top 10, como os ataques de múltiplas interações mudam o jogo, e quais ações imediatas reduzem risco sem travar a inovação.

O que é o LLM Security Leaderboard da Cisco

O LLM Security Leaderboard é uma classificação pública que avalia LLMs sob ataques adversariais com foco explícito em interações de uma e de várias rodadas, medindo a propensão dos modelos a responder de forma danosa. A Cisco destaca que não aplicou guardrails extras aos modelos testados e publicou a metodologia para mitigar viés e permitir comparações transparentes.

Segundo o resumo da The Deep View, a Anthropic domina 8 das 10 primeiras posições. Claude Opus 4.5 lidera, seguido por Sonnet 4.5 e Haiku 4.5. OpenAI aparece com GPT‑5.2 e GPT‑5 Nano nas posições 7 e 9, respectivamente. Na parte de baixo da tabela, modelos da Mistral ocupam as duas últimas colocações, e o bottom 10 ainda inclui DeepSeek, Cohere, Qwen e xAI.

Embora a página do leaderboard seja dinâmica, a Cisco centraliza os resultados e a metodologia em seu portal público, reforçando o objetivo de tornar avaliável a segurança de modelos em cenários reais. Para líderes de risco e segurança, isso cria um ponto de partida objetivo para due diligence técnica e de conformidade.

![Ilustração de IA e segurança, útil para contextualizar LLMs]

Por que os ataques de várias interações mudam a régua

Ataques de múltiplas rodadas representam o comportamento real de adversários, que insistem, reformulam e degradam gradualmente as barreiras de segurança. Relatórios independentes já mostravam que defesas eficazes contra ataques de uma única rodada podem falhar quando o diálogo se estende e o contexto sofre deslizamento semântico.

Em novembro de 2025, análises destacaram que modelos de código aberto eram especialmente suscetíveis a cadeias iterativas de prompts, com taxas de sucesso significativamente maiores que as vistas em testes de rodada única. A fala pública de pesquisadora da Cisco reforçou a necessidade de uma comunidade aberta para expor vulnerabilidades e acelerar correções. A ênfase do leaderboard exatamente nesse cenário de multiturnos atende a essa lacuna.

Na prática, avaliações que ignoram essa dinâmica tendem a superestimar a segurança. Equipes de produto e segurança precisam simular conversas longas, com cenários de persuasão, instruções ambíguas, solicitações off‑policy e uso encadeado de ferramentas externas, não apenas prompts isolados. O benchmark da Cisco avança ao refletir esse mundo real.

Como a Anthropic conquistou 8 de 10 posições

O desempenho da Anthropic no topo da lista sugere ganhos consistentes em alinhamento, robustez e tolerância a manipulações ao longo de diálogos. Os primeiros colocados, Claude Opus 4.5, Sonnet 4.5 e Haiku 4.5, indicam que a família 4.5 consolidou defesas úteis contra jailbreaks de múltiplos turnos dentro do protocolo de teste da Cisco.

Há sinais de continuidade nessa direção, em fevereiro de 2026, a Anthropic anunciou o Opus 4.6 com avanços declarados na identificação de vulnerabilidades de segurança em bibliotecas open source, inclusive mais de 500 falhas de alta gravidade encontradas durante testes. Embora o LLM Security Leaderboard destaque a versão 4.5 no topo, essa evolução paralela reforça uma tese, a linha Opus tem priorizado capacidades de segurança e auditoria.

Para quem decide em compras, a leitura é pragmática, robustez a ataques de múltiplas interações reduz exposição operacional, risco de conteúdo tóxico ou ilícito e vazamentos de instruções de sistema. Em setores regulados, isso conversa diretamente com requisitos de governança, auditoria e punições por respostas indevidas.

![Logotipo Cisco, referência ao ranking público]

O que o ranking significa para OpenAI, Google, Mistral e o ecossistema

A presença de OpenAI no top 10 com GPT‑5.2 e GPT‑5 Nano, mas sem liderança, sugere um cenário em que capacidades gerais e velocidade de produto não garantem automaticamente a melhor resiliência de segurança sob multiturnos, pelo menos nesses testes. Já os resultados mais baixos envolvendo Mistral e outros fornecedores no bottom 10 ligam um alerta, segurança não é só filtro de conteúdo, é comportamento consistente frente à insistência adversarial.

Ilustração do artigo

Para Google e demais, o recado vai além de pontuação. Pesquisas recentes demonstram que ataques multiturnos podem superar abordagens clássicas de alinhamento e filtros simples, exigindo novas técnicas de steering de diálogo, maior consciência temporal do contexto e guardrails em camadas. As linhas de pesquisa em defesas para multiturnos e para modelos multimodais mostram que o problema é ativo e em evolução, não um detalhe resolvido.

A transparência pública do leaderboard também pressiona labs a convergirem em práticas de medição e em divulgações técnicas que permitam auditorias externas, aproximando a avaliação de segurança de modelos ao nível de maturidade que já se espera de testes de software crítico.

A lacuna de prontidão em IA, e como o leaderboard ajuda a fechar

A mesma Cisco que publica o ranking aponta um gap claro, 83 por cento das organizações planejam adotar agentes de IA, porém apenas 29 por cento se consideram aptas a fazê‑lo com segurança. Esse abismo amplia o risco de incidentes, já que agentes operam com autonomia maior, executam ferramentas, consultam bases internas e orquestram fluxos complexos.

Benchmarks públicos reduzem assimetria de informação, criam linguagem comum entre segurança, engenharia e negócios e ancoram políticas de aprovação de modelo por uso, por exemplo, permitir modelos A em automação de atendimento, mas restringir a modelos B em integrações sensíveis com sistemas internos. Ao mesmo tempo, não substituem avaliações específicas do seu ambiente, dados, prompts e tool use.

Uma boa prática é combinar o leaderboard com testes internos de red teaming de múltiplos turnos, instrumentar logging de conversas e respostas de negação, mapear taxonomias de riscos por unidade de negócio e ativar guardrails em camadas, desde filtros semânticos até monitoramento de uso de ferramentas e latência anômala, além de desconexões seguras do MCP. Essas medidas dialogam com recomendações técnicas recentes do próprio ecossistema de segurança.

Como avaliar o risco do seu stack de IA em 5 passos práticos

Classifique tarefas por impacto e tolerância a erro. Funções com potencial de dano legal, financeiro ou reputacional alto devem exigir modelos melhor classificados no leaderboard, mais camadas de defesa e thresholds mais rígidos de detecção.
Teste o que importa, rode red teaming de múltiplas rodadas com variações de intenção, controle de contexto e tentativas de induzir vazamento de políticas internas. Compare resultados com as posições no ranking para calibrar expectativa.
Implemente guardrails em camadas, combine bloqueios semânticos, validações de tool use, verificação de integridade de contexto e auditoria contínua, e monitore drift de comportamento ao longo da conversa.
Separe modelos por uso. Mesmo que um modelo apareça bem no geral, o risco pode variar em cenários específicos, como agentes com autonomia, processamento de documentos sensíveis ou integrações com APIs de produção. Mantenha catálogos internos com políticas por tarefa e por modelo.
Atualize continuamente. Releases como o Opus 4.6 mostram que capacidades e segurança evoluem rápido. Reavalie modelos em ciclos curtos, especialmente quando surgem atualizações relevantes.

Perguntas rápidas que surgem no board

Segurança no leaderboard significa menos alucinação em geral? Não diretamente. O ranking mede resistência a ataques adversariais, sobretudo em várias rodadas. Alucinação pode diminuir como efeito colateral de políticas mais restritivas e melhor alinhamento, porém são métricas diferentes.
Modelos open‑weight estão descartados? Não. O estudo indica maior suscetibilidade em multiturnos, mas com guardrails, sandboxing e monitoramento é possível mitigar riscos. O custo‑benefício e a soberania tecnológica podem justificar seu uso em cenários controlados.
Vale migrar para o líder imediatamente? Depende do seu caso de uso, requisitos legais, dados e integrações. Use o ranking como ponto de partida, não como decisão única. Combine com pilotos, SLAs internos de segurança e auditorias de prompts e ferramentas.

Reflexões e insights ao longo do caminho

Transparência gera pressão saudável. Ao publicar uma metodologia e um quadro público, a Cisco coloca luz sobre diferenças reais entre modelos e evita que segurança vire apenas claim de marketing. Isso tende a acelerar correções e a elevar a régua do mercado.
Multimodal é futuro, segurança também precisa ser. Pesquisas já mostram vetores de ataque específicos para modelos com visão. Quem planeja adoção multimodal deve antecipar camadas de defesa além de texto, como saneamento de imagens e validação cruzada.
Segurança é dinâmica, não estática. A corrida entre atacantes e defensores favorece processos, telemetria e times preparados, mais do que a escolha isolada de um modelo. Ciclos curtos de teste, resposta e melhoria contam mais do que qualquer snapshot único.

Conclusão

O LLM Security Leaderboard da Cisco coloca a conversa certa na mesa, segurança de modelos precisa de medição realista e transparente. O domínio da Anthropic nas 10 primeiras posições, com Claude Opus 4.5 em primeiro lugar, valida uma estratégia de alinhamento e robustez que resiste melhor a ataques de múltiplas rodadas no protocolo de teste apresentado. Para quem lidera risco, governança e engenharia, isso oferece um norte objetivo para decisões em 2026.

O passo seguinte é transformar ranking em prática, classificar casos de uso por risco, testar multiturnos internamente, adotar guardrails em camadas e rever periodicamente a escolha de modelos, considerando evoluções como o Opus 4.6. A combinação de transparência pública e disciplina operacional é o que reduz a superfície de ataque sem desacelerar a entrega de valor da IA.