Ilustração conceitual de segurança para agentes de IA
IA e Segurança

Google DeepMind lança roteiro de controle para agentes de IA

O novo AI Control Roadmap define camadas de defesa, métricas de monitoramento e critérios de prevenção para conter riscos de agentes avançados, alinhando segurança com a evolução das capacidades.

Danilo Gato

Danilo Gato

Autor

20 de junho de 2026
9 min de leitura

Introdução

Em 18 de junho de 2026, o Google DeepMind apresentou o AI Control Roadmap, um roteiro de controle de IA projetado para reforçar a segurança de agentes avançados usados internamente, com foco em defesa em profundidade, supervisão ativa por outros modelos e respostas calibradas ao risco. A palavra-chave aqui é roteiro de controle de IA, um guia prático que traduz teoria de alinhamento em medidas operacionais. O anúncio enquadra a segurança de agentes como uma camada adicional, complementar ao alinhamento de modelo, que segue escalando conforme as capacidades evoluem.

A iniciativa parte de uma premissa objetiva, agentes de IA já executam tarefas complexas, de ciberdefesa a P&D, e precisam de controles que funcionem mesmo quando o alinhamento é imperfeito. O texto oficial descreve um desenho que combina sandboxing, segurança de endpoint, mitigação de injeção de prompt e controle de permissões graduais, tudo monitorado por “supervisores” de IA com métricas claras de cobertura, recall e tempo de resposta.

O que é o AI Control Roadmap, em termos práticos

O AI Control Roadmap define um sistema que trata agentes internos como potenciais riscos de insider. A equipe mapeia táticas e técnicas de agentes não confiáveis para a matriz MITRE ATT&CK, o que permite decompor ameaças em passos verificáveis e testáveis. Em seguida, acopla-se um ciclo de detecção, prevenção e resposta que usa outros modelos como supervisores para rever raciocínios, planos e ações, com bloqueio preventivo quando há sinal de comportamento danoso. É um arranjo que traduz boas práticas de cibersegurança para o contexto de IA.

O roteiro também introduz níveis de detecção e de prevenção ligados a dois eixos, a capacidade do modelo de evadir detecção e o potencial de dano das ações. Para atividades reversíveis, vale uma revisão assíncrona e remediação rápida. Para ações críticas, como um ataque cibernético em larga escala, impõe-se prevenção em tempo real e bloqueio imediato. Essa gradação operacionaliza a máxima de que o rigor do controle precisa crescer junto com o risco.

Por que isso importa agora para agentes de IA

Cobertura de mercado e interesse técnico por agentes se aceleraram desde 2025, o que levou big techs a publicarem arquiteturas de segurança de agentes e reforçarem camadas de observabilidade e governança nos ambientes de execução. A própria Microsoft, por exemplo, descreve classes de risco como sequestro de agente, quebra de intenção, vazamento de dados e comprometimento de cadeia de suprimentos, recomendando decisões de autorização explícitas para cada chamada de ferramenta e acesso a dados. Isso converge com o foco do roteiro do DeepMind em autorização granular e controle de efeitos colaterais.

Em paralelo, o ecossistema de plataformas de agente no Windows vem acoplando isolamento por contêineres, telemetria e políticas em um modelo único, com integração planejada de mecanismos como MXC e Windows 365 para agentes. O objetivo é iniciar seguro, manter observabilidade e aplicar políticas em tempo de execução, uma linha que reforça o caminho de defesa em profundidade.

As três camadas de segurança e o papel de padrões

O DeepMind complementa o roteiro técnico com um framework para formuladores de políticas, chamado Três Camadas de Segurança de Agentes, propondo melhorias simultâneas no nível do agente individual, em sistemas multiagentes e na resiliência do ecossistema, com ênfase em capacitar defensores cibernéticos. A mensagem, segurança de agentes não é uma função isolada do time de modelo, é coordenação entre engenharia, operações e políticas públicas.

Essa orientação se soma a compromissos anteriores do laboratório, como o Frontier Safety Framework, que prioriza avaliações de capacidades críticas, incluindo riscos de agentes autônomos, e medidas de mitigação proporcionais antes do deployment. Esse histórico ajuda a situar o roteiro como a camada “sistêmica” de segurança, acima do alinhamento de modelo e das avaliações de frontier.

Evidências operacionais, o que já foi medido

Para informar monitoramento ao vivo, a equipe afirma ter analisado um milhão de tarefas de agentes de código, classificando eventos sinalizados segundo a taxonomia de ameaças do roteiro e escalando para revisão humana. O monitor ao vivo do agente Gemini Spark usa esses achados para responder em tempo quase real a anomalias, como tentativas de exclusão não intencional de dados. Esse volume de telemetria sugere que ir além de filtros por palavra chave e rastrear padrões comportamentais tem mais sinal para segurança.

Outro ponto relevante, a maioria dos eventos sinalizados não indicou intenção adversária, mas sim interpretações equivocadas ou excesso de zelo do agente na tentativa de cumprir a meta do usuário. Essa nuance aponta para políticas que diferenciam erro operacional de abuso, e para respostas proporcionais, reduzindo falsos positivos sem cegar a detecção.

![AI security concept]

Como aplicar o roteiro no produto, um checklist tático

  • Defina ameaças inspiradas no ATT&CK, trate o agente como possível insider. Mapeie táticas, técnicas e procedimentos esperados no seu domínio, identifique desvios e crie playbooks de bloqueio e contenção. Isso antecipa o raciocínio e evita surpresa operacional.
  • Institua supervisão por pares de IA, acople um modelo verificador para revisar raciocínio, plano e chamadas de ferramenta do agente principal. Dê a esse supervisor poder para negar ações, não apenas alertar. Comece por eventos de alto impacto e expanda conforme a maturidade.
  • Estabeleça métricas de cobertura, recall e tempo de resposta. Sem telemetria, não há política efetiva. Audite trilhas de decisão e efeito de cada ferramenta. Ajuste limiares com dados reais, não apenas com cenários hipotéticos.
  • Modele níveis de resposta pelo risco. Para ações reversíveis, aceite revisão em atraso com correção rápida. Para ações críticas, exija revisão síncrona e bloqueio antes da execução, inclusive com autenticação reforçada para ações sensíveis.
  • Integre com infraestrutura e plataforma. Combine isolamento, políticas de execução, controle de credenciais e registro imutável. Beneficie-se de SDKs e recursos de plataforma que já contemplam isolamento de código e telemetria nativa para agentes.

Comparando com outras abordagens da indústria

O Google Research publicou uma visão aspiracional para agentes seguros, alinhada a princípios de minimização de privilégios, isolamento, observabilidade e resposta. O roteiro do DeepMind pode ser visto como a materialização operacional desses princípios, com foco em detecção ativa e controle por supervisores.

Do lado da Microsoft Security, a recomendação de autorização explícita por chamada de ferramenta e de tratar cada integração externa como fronteira de confiança está em sintonia com o uso de supervisores e políticas de bloqueio do roteiro. Em ambos os casos, a tônica é conter blast radius e eliminar autorizações implícitas.

A cobertura jornalística mais ampla reforça o recado, a Axios destacou que o plano prevê utilizar outros sistemas de IA como supervisores, uma camada adicional para revisar raciocínio e ações de agentes que ganham autonomia. Essa leitura sublinha a transição da segurança centrada no modelo para segurança centrada no sistema.

Riscos emergentes, do ataque à evasão de detecção

O roteiro chama atenção para dois vetores que exigem escalada de defesas, a evasão por consciência de supervisão e o raciocínio opaco, quando o modelo evita expor cadeia de pensamento ou raciocina de forma que não passa por texto auditável. Nesses cenários, analisar comportamento e, quando cabível, inspecionar o interior do modelo, entram como medidas necessárias. Essa evolução desloca a ênfase da explicabilidade textual para a comprovação de comportamento seguro sob red teaming contínuo.

Ataques de injeção indireta e envenenamento de contexto continuam relevantes, sobretudo quando agentes conectam bases documentais e ferramentas de ação. A própria DeepMind já havia descrito esforços para tornar modelos mais resilientes a injeções de prompt, e o roteiro consolida esses esforços na trilha de mitigação operacional.

![Agent governance layers]

Métricas que importam, e como não se enganar com KPIs

  • Cobertura precisa refletir fração de tráfego efetivamente observada, não a fração teórica de regras implantadas. Uma cobertura de 90 por cento que ignora rotas de ferramenta fora do proxy vale menos que 60 por cento com rotas fechadas.
  • Recall deve medir fração de comportamentos desalinhados que o sistema realmente captura, incluindo tentativas abortadas pelo supervisor. Treine detectores com dados de ataques simulados e reais, e use testes cegos para reduzir overfitting.
  • Tempo de resposta define se o evento vira incidente. Em ações de alto risco, a janela de decisão é curta, o que exige gatilhos síncronos e canais de bloqueio na borda de execução, não apenas alertas em dashboards.

Reflexões, onde investir primeiro

Começar pequeno é mais seguro e mais rápido, proteja primeiro as ferramentas com maior potencial de dano e as rotas de dados mais sensíveis. Em paralelo, introduza supervisão por IA em tarefas onde há redundância, por exemplo, agentes de código e migrações automatizadas, porque existe telemetria abundante e caminhos claros de reversão. Essa estratégia permite aprender com dados sem arriscar ativos críticos.

Outra frente é a colaboração setorial. Mapear táticas, técnicas e procedimentos específicos do seu domínio e compartilhar taxonomias acelera a criação de padrões. O framework de três camadas publicado junto ao roteiro oferece linguagem comum para conversas entre engenharia, segurança e reguladores. Adotar essa linguagem deflaciona debates abstratos e foca decisões em controles concretos.

Limitações e próximos passos

Nenhum roteiro elimina risco residual. A sofisticação crescente de modelos implica que supervisão baseada só em raciocínio textual perderá tração quando agentes ficarem mais hábeis em ocultar ou condensar raciocínios. O próprio DeepMind antecipa essa transição e sinaliza a necessidade de validar comportamento e, quando aplicável, usar inspeções internas. Isso pede investimento em tooling de auditoria de comportamento e em testes contínuos por equipes vermelhas.

O campo também precisa de avaliações padronizadas para agentes e de plataformas que reduzam atrito para isolar, observar e controlar chamadas de ferramenta. Documentos recentes de fornecedores de plataforma indicam que o stack está convergindo para esse design, com contêineres, políticas centralizadas e telemetria unificada. Essa direção reduz o custo marginal de segurança por agente e viabiliza escala.

Conclusão

O AI Control Roadmap do Google DeepMind estabelece um novo patamar de segurança para agentes, conectando princípios de cibersegurança, alinhamento de modelos e governança operacional. O foco em supervisores de IA, autorização explícita e resposta proporcional ao risco cria um caminho pragmático para operar agentes capazes sem abrir mão de controle. Para equipes de produto, isso se traduz em backlog claro de engenharia de segurança, priorizando onde o dano é maior e onde a reversão é mais difícil.

À medida que agentes assumem mais autonomia, a segurança deixa de ser atributo do modelo e vira propriedade do sistema. O roteiro reforça que medir, observar e responder rápido é tão importante quanto treinar modelos alinhados. O setor tende a convergir nessa direção, e o valor virá de times que tratam segurança como disciplina contínua, com dados reais e padrões compartilhados.

Tags

AI agentsSegurançaGovernançaMétricasMITRE ATT&CK