Cloudflare vai bloquear crawlers de IA que não separam trein

Introdução

Cloudflare vai bloquear crawlers de IA que não separem bots de treino. A mudança atinge crawlers mistos que combinam busca, agentes e coleta para treinamento de modelos. Em 15 de setembro de 2026, páginas com anúncios em domínios novos e em zonas gratuitas terão bloqueio padrão para treino e agentes, com busca permitida, o que pressiona operadores de bots a se adequarem.

O impacto vai além de firewall. A política cria incentivos econômicos com a evolução do Pay Per Crawl para Pay Per Use, que remunera o uso efetivo de conteúdo por plataformas de IA, e menciona parcerias iniciais com Ceramic.ai e You.com. Para editores, é uma nova alavanca de receita e de governança sobre como o conteúdo é consumido por sistemas de IA.

Por que Cloudflare está exigindo a separação de crawlers

A lógica é simples, transparência gera controle. Ao separar bots por finalidade, site owners entendem se um acesso serve a busca, a um agente que executa tarefas, ou ao treino de modelos. Com isso, podem autorizar busca e bloquear treino, ou o oposto, conforme a estratégia. Cloudflare detalhou a nova taxonomia de tráfego de IA e disponibilizou opções de controle a todos os clientes.

Dados recentes reforçam a urgência. Segundo a própria Cloudflare, 52 por cento das requisições de crawlers identificadas por finalidade em sua rede já são para treino, contra 22 por cento na primavera de 2025. O pêndulo virou, o que muda o risco de custo e de captura de valor para quem publica.

Há também um fator de escala. A empresa já vinha endurecendo contra scrapers de IA desde 2024, com botão único para bloquear treinadores e robots.txt gerenciado, e afirmou ter enfrentado centenas de bilhões de requisições indesejadas de bots de IA em poucos meses, sinal de que o problema é sistêmico.

O que muda em 15 de setembro de 2026

Bloqueio por padrão de categorias Treino e Agente em páginas com anúncios, para novos domínios e novos sites de clientes existentes, mantendo Busca permitida por padrão. Em zonas gratuitas, o padrão também passa a ser restritivo.
A política aplica a regra mais restritiva quando um mesmo crawler executa múltiplas finalidades. Na prática, se um operador usa um robô misto para busca e treino, e o site bloqueia Treino, o acesso inteiro pode ser barrado. Isso afeta bots como Googlebot, Applebot e BingBot enquanto permanecerem como crawlers multiuso.
Cloudflare dá um recado claro aos operadores: separem seus bots por finalidade. Quem separar, ganha previsibilidade e potencial de acesso contínuo, quem não separar, enfrenta bloqueios na borda.

Essa abordagem mira um dilema que editores têm vivido. Muitos querem indexação em busca, mas não querem ver seus textos abastecendo respostas de IA sem retorno. A separação cria uma linha clara entre descoberta e extração de valor por modelos.

Efeito colateral que importa para SEO

Um ponto sensível, o bloqueio em nível de rede é diferente de robots.txt. Se a configuração da Cloudflare estiver para bloquear Treino, um crawler misto pode ser impedido de acessar, mesmo que o robots.txt permita. Na prática, isso pode bloquear Googlebot em certos cenários, especialmente em páginas com anúncios, até que o operador desagregue as funções ou o site ajuste as permissões.

Há precedentes que mostram o atrito. Publicações acusaram grandes plataformas de usar o mesmo bot para busca e IA, reduzindo a capacidade de optar por uma coisa sem ceder a outra. Executivos do setor editorial vêm pedindo separação técnica como condição para negociar licenças e preservar tráfego orgânico.

Na avaliação prática, equipes de SEO e produto precisam testar cenários com as novas opções, validar acesso a sitemaps e superfícies de descoberta, e monitorar logs para evitar bloqueios acidentais em bots que ainda não segmentam corretamente suas finalidades.

Dinheiro na mesa, do Pay Per Crawl ao Pay Per Use

A mudança mais estratégica é econômica. Cloudflare está evoluindo do Pay Per Crawl, marketplace que cobra por acesso de bots, para Pay Per Use, que remunera quando o conteúdo gera valor, por exemplo quando aparece em resultados de IA ou quando um agente consome parte premium. Ceramic.ai e You.com são os primeiros parceiros dessa fase, o que indica testes no mundo real.

Críticos apontam desafios, como precificar páginas com valores informacionais diferentes, além do risco de migração de demanda para fontes abertas ou arquivos públicos. Mesmo assim, a combinação de bloqueio na borda, auditoria de bots e opções contratuais cria poder de barganha para editores, algo escasso na primeira onda da IA generativa.

Para empresas de IA, separar bots e negociar uso alinhado a valor reduz atrito regulatório e reputacional. Quem já oferece meios de opt out, como Google Extended para treino, terá de mostrar separação também para agentes e outros produtos, se quiser manter acesso amplo.

O dado que muda o jogo, bots superaram humanos

O CEO da Cloudflare, Matthew Prince, afirmou publicamente em 3 de junho de 2026 que bots ultrapassaram o tráfego humano na internet. Esse marco antecipa previsões internas e justifica apertos de política de acesso na borda. Se a maioria do tráfego é não humana, filtros por finalidade deixam de ser detalhe técnico e viram fundamento do modelo de negócios da web.

No mesmo espírito, relatórios recentes da empresa indicam que a fatia de crawlers para treino cresceu rapidamente, tornando insustentável deixar toda a decisão apenas no arquivo robots.txt, que é orientativo, não coercitivo. Bloqueio em borda, com auditoria e classificação de propósito, corrige essa assimetria.

![Logo da Cloudflare sobre fundo transparente]

Casos e exemplos práticos de configuração

Sites monetizados por anúncios. Ative bloqueio a Treino e Agentes nas páginas com ads, permita Busca. Teste o comportamento em sitemaps, páginas de listagem e artigos. O padrão novo já faz isso para domínios novos e zonas gratuitas, mas convém revisar regras em sites antigos.
Portais com áreas premium. Use Pay Per Use para superfícies de alto valor, liberando preview e snippet conforme o parceiro, e cobrando por consumo real. Monitore a origem do tráfego de respostas de IA e ajuste o mix entre exposição e monetização.
Propriedades que dependem muito de Google Discover e Top Stories. Faça auditoria de crawl em staging. Se detectar bloqueio involuntário de Googlebot em rotas críticas, crie exceções temporárias enquanto cobra do operador a separação de bots, ou migre a área crítica para uma superfície sem ads até a adequação.
Portais que já usam bloqueio de scrapers. Combine o toggle de bloqueio de bots de IA com robots.txt gerenciado, garantindo que diretivas para bots de treino específicos como GPTBot, ClaudeBot, Bytespider e Google Extended estejam atualizadas.

Riscos, limites e pontos de atenção

O efeito em bots multiuso precisa de acompanhamento. Mesmo operando de boa fé, um crawler que ainda misture busca e treino pode bater na barreira do bloqueio por herdar a política mais restritiva. Isso vale para Googlebot, Applebot e BingBot, segundo a própria Cloudflare. O resultado pode ser flutuação temporária em indexação e em prévias de link em alguns serviços.

Outra fronteira é a efetividade econômica do Pay Per Use. Editores de jornalismo original e documentação altamente especializada não aceitarão pagar por crawl nem por uso a taxas planas sem refletir valor marginal. O modelo terá de diferenciar contextos e medir contribuição de conteúdo em respostas compostas, o que é tecnicamente e contratualmente complexo.

Por fim, a governança. A política da Cloudflare tem efeito de rede, porque milhões de sites usam a infraestrutura. Isso cria um padrão de mercado de fato. Históricos recentes mostram tensões com operadores que contornam diretivas, o que reforça a necessidade de verificação em borda e de canais para deslistar crawlers que driblem regras.

![Diagrama de arquitetura de um web crawler]

Como medir impacto e ajustar a estratégia de conteúdo

Métricas de crawl. Acompanhe hits por categoria de bot, taxa de bloqueio e latência. Se um parceiro separar bots, valide a nova identificação no tráfego real e ajuste permissões.
Tráfego orgânico e de IA. Meça CTR em busca, referências de respostas de IA e atribuição de retorno. O objetivo é preservar descoberta e capturar receita em uso de IA.
Custos de infraestrutura. Bloqueios em borda evitam refetch de páginas estáticas, poupando banda e CPU. Relatos indicam que mais da metade dos acessos de crawlers de IA refazem fetch sem mudanças, um desperdício que cai com políticas mais rigorosas.
Governança de marca. Atualize páginas de política de uso de dados e comunique aos parceiros de IA as condições de acesso, inclusive para agentes de recuperação ao vivo, que podem permanecer permitidos sob regras específicas.

Reflexões e insights ao longo do caminho

Separar bots não é só questão técnica, é alinhamento de incentivos. Quem produz conteúdo precisa de descoberta, mas também de instrumentos para negociar quando seu trabalho é matéria prima de produtos que substituem cliques por respostas prontas. A borda virou o lugar onde esse equilíbrio se decide, com métricas, contratos e, quando necessário, bloqueio real.

A pressão por separação também cria um teste de liderança para as grandes plataformas. Oferecer opt outs parciais sem segmentar o rastreador principal já não basta. Transparência é o preço do acesso amplo. Os dados mostram que o volume de treino cresceu e que bots hoje superam humanos em tráfego. O status quo mudou, e as regras também.

Conclusão

Cloudflare está redesenhando a relação entre editores e empresas de IA ao condicionar acesso a separação técnica de crawlers e ao atrelar uso a remuneração. A data de 15 de setembro de 2026 marca um divisor. Quem opera bot precisará declarar intenções com clareza. Quem publica ganha instrumentos para equilibrar alcance, custo e receita.

O próximo ano definirá padrões. Se os maiores operadores adotarem bots separados para busca, agentes e treino, o ecossistema tende a estabilizar com menos atrito e mais acordos baseados em valor. Se resistirem, a borda vai impor limites. Em ambos os cenários, conteúdo com governança clara e métricas sólidas ficará em melhor posição para capturar retorno no universo da IA.