Meta é processada por editoras por copyright no Llama AI
Processo coletivo de grandes editoras acusa a Meta de treinar o Llama com livros e artigos pirateados, pede indenização e transparência sobre o dataset. Entenda o que está em jogo agora.
Danilo Gato
Autor
Introdução
Meta é processada por editoras por copyright no Llama AI. O novo processo coletivo, aberto em 5 de maio de 2026, alega que a Meta treinou seus modelos Llama com milhões de obras protegidas, copiadas de repositórios piratas e do Common Crawl, resultando em saídas que reproduzem trechos palavra por palavra. O caso reúne cinco grandes editoras e o autor Scott Turow, com pedidos de danos e de transparência sobre todo o material usado no treinamento.
A importância do tema vai além da Meta. A discussão reacende a linha tênue entre o que pode ser considerado fair use no treinamento de IA e o que configura violação, em especial quando surgem evidências de cópia literal, remoção de avisos de direitos autorais e uso de acervos piratas. Decisões judiciais recentes, inclusive em ações contra outras empresas de IA, mostram um cenário em movimento que afeta autores, editores, desenvolvedores e marcas.
Este artigo explica o que o processo alega, como a Meta se defende, que precedentes existem, o que muda para quem treina, licencia e integra modelos, e como empresas podem reduzir riscos legais sem travar a inovação.
Quem está processando, onde e por quê
O processo foi proposto por Elsevier, Cengage, Hachette, Macmillan e McGraw Hill, além do autor Scott Turow, em tribunal federal de Manhattan, acusando a Meta e seu CEO, Mark Zuckerberg, de violação massiva de direitos autorais. Entre os pedidos, estão indenizações, ordens para cessar as práticas apontadas como ilegais e a divulgação detalhada de todos os livros e artigos usados para treinar o Llama.
O texto da ação alega que a empresa copiou obras de sites como LibGen, Anna’s Archive, Sci‑Hub e Sci‑Mag, e que o Common Crawl, frequentemente usado em projetos de IA, estaria repleto de cópias não autorizadas. O documento oferece exemplos de prompts que teriam levado o Llama a reproduzir, palavra por palavra, passagens de livros didáticos e outros conteúdos protegidos.
A peça de 65 páginas protocolada em 5 de maio de 2026 detalha cronologia, fontes e comunicações internas, e menciona tratativas de licenciamento que não avançaram. Ela pede que a Meta liste precisamente os títulos, artigos e demais obras usadas no treinamento dos modelos.
O que a Meta diz, e qual é o eixo da defesa
A posição pública da Meta enfatiza que treinar IA com material protegido pode qualificar como fair use, citando decisões recentes, e promete disputar o caso agressivamente. A empresa rejeita a narrativa de “pirataria” sistêmica e aponta que a jurisprudência sobre treinamento de modelos com obras protegidas está em evolução.
Há, porém, nuances legais importantes. Em 2025, o juiz Vince Chhabria, na Califórnia, rejeitou grande parte de uma ação movida por autores contra a Meta, sinalizando que o uso de livros para treinar modelos, naquele conjunto específico de alegações, poderia qualificar como uso transformativo. Mas o juiz também destacou que sua decisão não autoriza, por si só, todo e qualquer uso de obras protegidas no treinamento, e manteve vivo o debate sobre outras condutas, como a alegada distribuição via torrent.
O ponto prático é que a linha de defesa da Meta, baseada em fair use, não encerra a discussão quando há indícios de cópia literal nas saídas, remoção de informações de gestão de direitos ou obtenção deliberada de conteúdo em fontes sabidamente piratas. Esses elementos, se comprovados, podem pesar muito na análise judicial.
Por que este processo é diferente de brigas anteriores
Ainda que autores individuais já tenham processado a Meta por treinamento do Llama, o novo caso agrega o poder de fogo jurídico e probatório de grandes editoras, amplia o recorte de obras afetadas e enfatiza episódios de cópia palavra por palavra. A reportagem do The Verge destaca exemplos e contextualiza decisões anteriores, além de trazer a resposta oficial da companhia.
Outra diferença é o foco em suposta obtenção e multiplicação de cópias a partir de repositórios piratas. Debates sobre a relevância jurídica de torrenting e scraping de acervos não licenciados já apareceram em outras ações, e decisões recentes indicam que tribunais podem tratar de maneira distinta o ato de treinar, a distribuição de arquivos protegidos e a remoção de avisos de direito autoral.
![Pilha de livros representa o acervo usado para treinar modelos de IA]
O cenário legal, em datapoints que importam
- Em 5 de maio de 2026, o The Verge reportou o novo processo das editoras e trouxe a alegação de que o Llama consegue reproduzir, palavra por palavra, trechos de obras quando provocado com prompts mínimos.
- O Washington Post e a AP noticiaram que a ação também imputa responsabilidade direta a Mark Zuckerberg, dizendo que ele teria pessoalmente autorizado condutas questionadas, algo que, se comprovado, amplia a exposição de executivos.
- Em 2025, na ação de autores contra a Meta na Califórnia, o juiz Chhabria reconheceu elementos favoráveis à tese de fair use no treinamento, mas não endossou, de forma geral, o uso de conteúdo protegido em qualquer circunstância, deixando em aberto a análise de suposta distribuição ou remoção de créditos.
- No mesmo período, outra gigante de IA, a Anthropic, concordou com um acordo proposto de 1,5 bilhão de dólares para encerrar uma ação coletiva de autores, com aprovação preliminar em setembro de 2025, prevendo cerca de 3 mil dólares por obra e medidas de saneamento de dados. O acordo, se confirmado, influenciará expectativas de mercado sobre preços de licenças e de risco.
Implicações para quem cria, licencia e integra IA
Para autores e editoras, o caso contra a Meta reforça duas avenidas de monetização e proteção. Primeiro, a precificação de licenças em escala para treinar modelos, como já ocorre em dados de música e notícias. Segundo, a verificação de cópias literais nas saídas, que tende a ser vista com rigor judicial quando ultrapassa um limiar de similaridade e extensão, especialmente em livros didáticos e acadêmicos.

Para empresas que treinam modelos, o recado é claro. A origem dos dados precisa ser auditável, com chain of custody e trilhas de consentimento, além de listas de exclusão robustas. Datasets amplos, porém contaminados por cópias não autorizadas, podem gerar passivos maiores do que o custo de uma licença. Decisões e acordos recentes mostram que tribunais olham não só para a transformação estatística do treinamento, mas também para o modo de aquisição, a presença de cópia literal nas saídas e a eventual remoção de metadados de direitos autorais.
Para integradores e times de produto, políticas de mitigação são essenciais. Incluem filtros de prompt e saída para reduzir risco de reprodução literal, logs para auditoria e recursos de bloqueio quando o modelo tenta completar textos que pareçam protegidos. A documentação clara sobre o comportamento do modelo e os dados de afinamento também ajuda a demonstrar diligência em disputas futuras.
O que a jurisprudência recente sinaliza sobre fair use
O entendimento que ganha força é que treinar modelos com obras protegidas pode, em certos contextos e com certos cuidados, ser visto como uso transformativo, sobretudo quando não há substituição de mercado direta nem reprodução literal. O caso dos autores contra a Meta em 2025 ilustra isso, mas com ressalvas expressas pelo próprio tribunal sobre os limites dessa proteção.
Já quando há alegações de que a empresa obteve os arquivos por torrent em bibliotecas piratas, ou retirou avisos de direitos, a avaliação judicial tende a ser distinta. Nessas hipóteses, surgem potenciais violações adicionais, como distribuição ou gestão indevida de direitos, que não se confundem com a doutrina de fair use aplicada a um processo de aprendizado estatístico.
Do outro lado, o acordo de 1,5 bilhão de dólares da Anthropic com autores, que obteve aprovação preliminar em setembro de 2025, cria uma referência econômica concreta para licenciamento retroativo e para a gestão de passivos, sem necessariamente exigir a deleção de modelos já treinados, embora imponha medidas de saneamento de dados e destruição de cópias infratoras.
Ferramentas, práticas e exemplos para reduzir risco já
- Curadoria de dados com inventário de origem. Exigir dos provedores de dataset a comprovação de licenças, usar scanners que detectem livros e manuais em acervos e manter registros versionados de todo o pipeline. Exemplos recentes mostram que o problema costuma se concentrar em acervos piratas e coleções agregadas sem triagem adequada.
- Filtros de saída e checagem de similaridade. Implementar verificações de n‑gramas e hash semântico para bloquear reproduções extensas de obras conhecidas, especialmente quando o prompt contém trechos de livros populares. O caso das editoras cita saídas com continuidade literal de um textbook.
- Mecanismos de opt‑out e listas de exclusão. Atender pedidos de remoção de obras específicas do treinamento e da geração, com documentação pública. Isso reduz atritos com detentores de direitos e demonstra boa fé regulatória.
- Programas de licenciamento proativo. Após o acordo preliminar envolvendo a Anthropic, cresce a tendência de acordos‑guarda‑chuva com associações de autores e editoras. Para quem publica ou integra IA, esse movimento facilita compliance e previsibilidade de custo.
- Transparência sobre datasets. O pedido das editoras para que a Meta divulgue a lista completa de obras usadas no Llama antecipa uma pressão de mercado por SBOMs de dados, relatórios de provenance e auditorias independentes.
![Logo da Meta, no centro do debate sobre direitos autorais e IA]
Como isso impacta produtos, marketing de conteúdo e SEO
Para times de marketing e conteúdo, o risco não está apenas no treinamento, mas também no uso de modelos generativos que possam cuspir trechos de livros e artigos protegidos. Isso exige guidelines claras para prompts, revisão humana em peças longas e uso de detectores de similaridade quando o conteúdo final aborda obras clássicas ou trechos didáticos. Em empresas com alto volume de produção, vale separar fluxos, com modelos especializados em conteúdo factual licenciado e outros focados em ideação, mitigando a chance de reprodução literal.
Para produtos com recursos de resumo e answering, uma política de citações, snippets curtos e links para fontes oficiais reduz atritos. Isso é especialmente útil em verticais com alto risco de copyright, como educação, pesquisa acadêmica e jornalismo técnico. O caso contra a Meta indica que a expectativa de mercado caminha para mais atribuição e mais contratos de licenciamento em larga escala.
O que observar nos próximos meses
- Andamento do caso em Nova York. Prazos de resposta, eventuais pedidos de liminar e a discussão sobre o dever de listar todas as obras do dataset dirão muito sobre a tendência jurisprudencial.
- Efeitos de precedentes. A leitura de fair use do caso Meta na Califórnia continuará sendo citada, mas cada novo processo trará fatos e evidências próprias, incluindo suposta cópia literal e supressão de metadados.
- Contágio do acordo da Anthropic. A aprovação final e a operacionalização dos pagamentos podem acelerar acordos semelhantes, inclusive no setor educacional e acadêmico, onde o valor de catálogo é alto e a janela de adoção de IA em sala de aula se abre rapidamente.
Conclusão
O processo que coloca a Meta no centro do embate sobre direitos autorais traduz, em números e fatos, a nova economia da IA. Se treinamentos em larga escala podem, em certos cenários, ser abrigados pelo fair use, a obtenção de dados em fontes piratas, a remoção de avisos de direito e a ocorrência de cópia literal nas saídas tendem a atrair a responsabilização. Os autos das editoras deixam claro que a prova técnica de reprodução palavra por palavra será um vetor crucial no julgamento.
A mensagem prática, para criadores, editoras e empresas de tecnologia, é de oportunidade com prudência. Licenciar catálogos, documentar a origem dos dados e mitigar a chance de cópia literal custam menos do que arcar com passivos bilionários e danos reputacionais. O caso contra a Meta e o acordo preliminar da Anthropic moldam, desde já, a fronteira entre inovação e responsabilidade no mercado de IA.
