Merriam-Webster e Britannica processam a OpenAI por uso de copyright em LLM
A ação conjunta de Merriam-Webster e Encyclopaedia Britannica contra a OpenAI reacende o debate sobre direitos autorais em IA, RAG, responsabilidade por alucinações e os rumos da monetização de conteúdo
Danilo Gato
Autor
Introdução
Merriam-Webster e Encyclopaedia Britannica processam a OpenAI, acusando a empresa de usar conteúdo protegido por copyright em larga escala para treinar e operar modelos de linguagem, além de recuperar material por RAG sem autorização, e de violar marcas quando alucinações são atribuídas às editoras. A ação foi protocolada no Tribunal Distrital do Sul de Nova York em 13 de março de 2026 e noticiada em 16 de março de 2026.
O caso importa porque toca o coração da economia de conteúdo na web. Publishers dependem de audiência e assinaturas, e veem chatbots responderem às perguntas dos usuários com sínteses diretas, o que desloca cliques e receita. A disputa de Merriam-Webster e Britannica com a OpenAI acrescenta combustível a uma lista crescente de ações movidas por veículos e autores, enquanto a indústria busca limites, licenças e padrões para IA generativa.
Este artigo detalha as alegações principais, mostra os precedentes que moldam a discussão, avalia riscos e oportunidades para marcas, equipes de SEO e produto, e propõe passos práticos, sem alarmismo, para navegar este novo cenário jurídico e técnico.
O que exatamente está sendo alegado
O documento de 44 páginas apresentado por Encyclopaedia Britannica e Merriam-Webster lista três frentes de violação de copyright. Primeiro, a suposta cópia massiva de conteúdo protegido para treinar LLMs. Segundo, a recuperação e uso de conteúdo via RAG, descrita como um complemento que abastece o modelo com material atualizado. Terceiro, saídas substancialmente semelhantes, que incluiriam reproduções verbatim ou parafraseadas de artigos.
Além do copyright, as editoras alegam violação do Lanham Act, uma lei de marcas norte-americana, quando o chatbot gera alucinações e as atribui ao Britannica ou ao Merriam-Webster, ou quando apresenta trechos incompletos ao lado de marcas registradas, potencialmente confundindo usuários sobre a origem e a exatidão do conteúdo.
O TechCrunch resume o quadro, destacando ainda a acusação de que as respostas do ChatGPT substituem o consumo direto dos sites das editoras, o que reduziria receitas de assinaturas e publicidade, um argumento comum em diversas ações contra empresas de IA. Também observa que a OpenAI não comentou até o fechamento da reportagem.
Onde os precedentes jurídicos pesam, e onde ainda há zona cinzenta
Não existe precedente definitivo que encerre a discussão sobre se treinar LLMs com conteúdo protegido constitui infração. Mas decisões recentes criam balizas. Em 2025, o juiz William Alsup, no Norte da Califórnia, considerou o uso de obras protegidas, quando legalmente obtidas, para treinar modelos como fair use por ser “quintessencialmente transformador”. Ao mesmo tempo, censurou a obtenção de livros piratas, o que resultou numa proposta de acordo de 1,5 bilhão de dólares com autores, valor de referência histórico em disputas de copyright.
Esse quadro cria uma tensão prática. O treino com material licitamente adquirido pode ganhar respaldo como uso transformador, mas fontes não autorizadas, como repositórios piratas, podem acarretar grande exposição financeira. Para organizações que operam IA, a cadeia de origem e o compliance da coleta de dados são agora temas de risco operacional, não apenas de PR.
Outro ponto importante é a distinção entre treino e geração com recuperação. O complaint aponta a RAG como uma segunda via de infração, quando o sistema recupera conteúdo protegido no fluxo de resposta. Isso tende a aproximar o comportamento do chatbot da republicação, o que pode ser juridicamente distinto do uso em treino. Essa estratégia processual mira a prática do produto hoje, não só a história de formação do modelo.
Como o caso dialoga com a batalha paralela contra ferramentas de busca com IA
Britannica e Merriam-Webster já moveram ação contra a Perplexity em 2025, alegando scraping, saídas substancialmente semelhantes e uso indevido de marcas. O processo permanece em andamento. Essa trilha mostra que a tese das editoras é consistente contra diferentes fornecedores, não um litígio isolado.
Publicações como The New York Times, Ziff Davis e consórcios de jornais nos EUA e no Canadá também processaram empresas de IA. O denominador comum é a substituição de tráfego e a alegada apropriação de valor gerado por redações, pesquisadores e editores. O caso atual reforça a pressão por licenças, por pagamentos por acesso e por mecanismos de atribuição que realmente convertam em receita para quem cria.
Implicações para publishers, produto e SEO, na prática
- Auditoria de acessos e canibalização. Times de audiência precisam correlacionar quedas de cliques orgânicos com picos de uso de chatbots em consultas de cauda longa, avaliando termos onde as respostas generativas substituem páginas-chave. A alegação de que respostas de IA “cannibalizam” tráfego aparece de forma explícita no complaint e no resumo jornalístico.
- Políticas de robots e rate limiting. Ações contra a Perplexity citam scraping agressivo e suposta violação de regras de acesso. Equipes devem reforçar rate limiting, honeypots e monitoramento por ASN, além de manter documentação de incidentes que sustentem eventuais medidas legais.
- Estratégia de licenciamento. O acordo proposto no caso Anthropic coloca um preço de referência por obra que ajuda a modelar negociações privadas. Editoras com catálogos estruturados podem considerar bundles temáticos, janelas de uso e variações por exclusividade e frescor editorial.
- Design para conversão pós-resposta. Em contextos onde a IA ainda cite a fonte, páginas destino devem se comportar como landing pages rápidas, com o principal valor acima da dobra, leitura assistida por sumários, e CTA de assinatura leve. O objetivo é capturar valor mesmo quando o primeiro contato do usuário é mediado por um chatbot.
- Marcas e qualidade. Quando um modelo exibe respostas com logotipos ou nomes de editoras, a experiência percebida pode retroagir sobre a marca. Documente ocorrências de alucinações atribuídas a você, com data, prompt e captura, para sustentar pedidos de remoção, ajustes de produto ou compensações. O Lanham Act citado no processo é a base para reclamar danos de confusão de origem.
![Livro e páginas de dicionário, conceito de conhecimento]
O que times de IA e dados precisam ajustar agora
- Due diligence de datasets. Mapeie a proveniência dos conjuntos de dados, com evidências de aquisição lícita e termos de uso. Segmente por criticidade, especialmente para corpora de alta qualidade de publishers. As decisões relacionadas ao caso Anthropic mostram que a origem do material é o calcanhar de Aquiles mais caro.
- Controles na RAG. A RAG aumenta precisão e atualidade, mas também o risco de reproduções ou atribuições problemáticas. Aplique filtros por domínio na etapa de retrieval, use resumos abstrativos com limites de similaridade e implemente citações claras, com links e datas, além de bloom filters para reduzir risco de verbatim. O complaint descreve a RAG como vetor específico de infração, então o design precisa refletir isso.
- Avaliações de similaridade. Adote verificações de overlap lexical e semântico entre a resposta e os documentos fonte. Defina thresholds conservadores que disparem reformulação ou truncamento. Mantenha logs para auditoria e para responder a solicitações de direitos autorais.
- Guardrails de marca. Crie regras que evitem exibir marcas de terceiros lado a lado com trechos gerados quando não houver acordo de licenciamento ou quando a precisão não seja garantida. O ponto central das alegações de marca é a confusão para o usuário, algo mitigável com disclaimers visíveis e UI que diferencie claramente citação, resumo e opinião do modelo.
Como investidores e executivos podem ler o tabuleiro
A tese econômica por trás dessas ações é clara. Se os chatbots capturam a intenção informacional no topo do funil, a captura de valor sai dos publishers e migra para as plataformas. Sem mecanismos de compensação, o incentivo à produção de conteúdo de referência se enfraquece. A consequência provável, já em curso, é a aceleração de acordos comerciais, com tabelas de licenças mais explícitas e cláusulas de auditoria técnica.
Os valores ventilados no litígio de autores contra a Anthropic calibram o mercado para 2026. Embora o mérito jurídico sobre treino com material licitamente adquirido tenha ganho respaldo, a combinação treino mais RAG e a reprodução de saídas semelhantes cria novas frentes de responsabilidade. Para conselhos e CFOs, isso significa provisões, seguros, reforço de compliance e governança de dados.
O que muda para redações, educação e produtos de referência
- Redações. A cadência de exclusivas, guias evergreen e análises profundas continuam a ser a matéria prima mais valiosa. A recomendação é priorizar formatos e dados proprietários, com marcações que facilitem a detecção de uso indevido, e acordos que convertam em receita por acesso de IA.
- Educação. Britannica e Merriam-Webster lembram que há investimento humano denso por trás de verbetes e definições. Para edtechs, a lição é dupla, negociar acesso e incorporar camadas de autoria, revisão e datação para que o valor pedagógico seja reconhecido e remunerado em fluxos generativos.
- Produtos de referência. A integração de LLM mais RAG deve vir com telemetria que mostre o quanto cada fonte contribui para a resposta. Isso abre portas a modelos de rev share por contribuição, algo que pode atenuar litigiosidade e alinhar incentivos.
![Conceito legal, martelo do juiz em destaque]
Perguntas estratégicas que toda empresa de IA deveria responder
- Quais conjuntos de dados usados no treino têm documentação verificável de origem lícita e termos claros de uso, com trilha de auditoria disponível em até 48 horas, em caso de notificação extrajudicial.
- Como a arquitetura de RAG garante que a saída final não seja substancialmente semelhante a obras protegidas, sobretudo de publishers de referência, e como as citações são apresentadas ao usuário de forma clara e útil.
- Quais políticas de marca impedem confusão de origem, evitando que marcas de terceiros figurem ao lado de respostas geradas sem o devido contexto e sem consentimento.
- Que métricas de substituição de tráfego estão sendo monitoradas e compartilhadas com parceiros editoriais, incluindo termos, CTR, tempo de leitura e conversão em assinaturas.
- Como o roadmap de produto incorpora mecanismos de licenciamento granular e remuneração por contribuição documental.
Reflexões e insights
O litígio revela um impasse de incentivos. LLMs, treinados em vastos acervos, precisam de conteúdo de alta qualidade para continuar úteis. Se os modelos esvaziam a captura de valor dos produtores, a própria fonte seca. Uma solução sustentável deve combinar fair use bem delimitado, coleta lícita de dados, e um mercado de licenças transparente para treino, recuperação e exibição. Essa engenharia econômica pode ser o verdadeiro motor de um ecossistema saudável de IA.
Outro ponto é a UX. Respostas mais úteis precisam reconhecer a autoria humana como um ativo e não apenas como um insumo. Citar bem, enviar tráfego qualificado e oferecer contextos ricos, com datas e nuances, não é só estratégia para mitigar risco jurídico, é boa experiência para o usuário final.
Conclusão
A ação de Merriam-Webster e Britannica contra a OpenAI é um marco do ciclo 2024 a 2026. Consolida a pressão por regras claras, licenças e métricas de impacto. Enquanto o mérito sobre treino com material lícito ganha contornos mais definidos, o uso via RAG e a exibição de saídas semelhantes ou mal atribuídas surgem como novas linhas vermelhas a evitar.
Do lado de quem cria e de quem constrói IA, a mensagem é pragmática. Para publishers, fortalecer inventário proprietário, monitorar canibalização e negociar acordos. Para empresas de IA, due diligence de dados, guardrails na RAG, atribuição clara e disposição real para remunerar valor editorial. O caminho do meio passa menos pela retórica e mais por engenharia de produto, contratos e métricas compartilhadas.