OpenAI alerta Congresso: DeepSeek usa IA dos EUA no R1
OpenAI enviou em 12 de fevereiro de 2026 um memo ao Comitê da Câmara sobre a China dizendo que a DeepSeek vem usando técnicas de distillation para treinar o R1 com saídas de modelos americanos, o que reacende o debate sobre IP e segurança
Danilo Gato
Autor
Introdução
OpenAI formalizou a acusação em 12 de fevereiro de 2026, ao enviar um memorando ao Comitê Seleto da Câmara dos EUA sobre a China alegando que a DeepSeek utiliza distillation para treinar o seu chatbot de raciocínio R1 a partir de saídas de modelos americanos. O documento cita o uso de métodos obfuscados para contornar proteções, rotas de terceiros e automação para coleta de outputs em escala.
A disputa ganhou fôlego porque DeepSeek R1, lançado em 2025, popularizou a ideia de que é possível aproximar o desempenho de modelos de ponta com custos muito menores, graças a pipelines de reforço e, segundo críticos, distillation. A própria imprensa e autoridades americanas já ventilavam a hipótese desde janeiro de 2025, enquanto OpenAI dizia estar revisando indícios de uso inadequado de seus outputs.
Este artigo explora o que exatamente foi alegado, como funciona distillation, o que se sabe sobre a família R1, os impactos em propriedade intelectual e segurança, e quais movimentos práticos fazem sentido para empresas e equipes técnicas.
O que OpenAI afirmou aos legisladores
OpenAI disse aos deputados que observou tentativas persistentes de distillation contra seus modelos, com evolução do simples “chain of thought” para pipelines multietapas que combinam geração sintética, limpeza massiva de dados e otimização por preferências estilo reforço. O memo relata contas associadas a funcionários da DeepSeek, uso de roteadores de terceiros para mascarar origem, e código para acessar modelos americanos de forma programática. A empresa também argumenta que a cópia de capacidades sem salvaguardas eleva riscos em domínios sensíveis, como biologia e química.
O texto entregue em 12 de fevereiro de 2026 contextualiza o caso no tabuleiro geopolítico, destacando apoio estatal ao ecossistema de IA na China e um suposto viés pró-CCP em respostas de modelos da DeepSeek, inclusive com censura dinâmica na interface. Além disso, OpenAI relaciona a disputa a um gargalo estratégico de energia e computação, e cita seu projeto de infraestrutura Stargate como resposta para ampliar capacidade até 2029.
A Bloomberg reportou a existência e o teor do memorando na mesma data, reforçando que a advertência foi direcionada ao Comitê da Câmara e que OpenAI detectou táticas novas para evasão de defesas.
O que é distillation e por que virou o centro da disputa
No jargão técnico, distillation é treinar um modelo aluno com base nas saídas de um modelo professor mais capaz, replicando comportamento sem acesso direto aos pesos originais. A técnica é antiga, mas ganhou novo papel com modelos de raciocínio e RL, onde sinais de qualidade e rankings de respostas podem impulsionar alunos menores. Meios de imprensa e autoridades americanas mencionaram a prática no contexto DeepSeek desde janeiro de 2025, inclusive com a fala do então czar de IA da Casa Branca sobre haver evidências substanciais de que o R1 se apoiou em saídas de modelos da OpenAI.
Pesquisas e reportagens de 2025 descreveram a rapidez com que times acadêmicos e open source passaram a reproduzir recursos de raciocínio por meio de distillation e técnicas adjacentes, às vezes com orçamentos surpreendentemente baixos, o que ampliou a sensação de que “modelos professores” podem ser usados como atalhos para capacidades similares.
Do lado científico, o artigo na Nature de setembro de 2025 detalha como a linha R1 incentiva raciocínio por reforço, algo compatível com pipelines que também se beneficiam de sinais derivados de preferências, rankings e autoavaliação. Mesmo não tratando de infrações, a pesquisa ajuda a entender por que distillation se encaixa bem em modelos com foco em raciocínio.
O que se sabe sobre a família DeepSeek R1
Relatos técnicos descrevem a família V3 e R1 como arquiteturas com Mixture-of-Experts, ativando apenas parte dos parâmetros por token para reduzir custo. O R1-Zero teria emergido via RL puro com o algoritmo GRPO, e o R1 adicionou uma fase de SFT de arranque antes do reforço para estabilizar estilo e clareza das respostas. DeepSeek também divulgou destilações densas baseadas em modelos de terceiros, como Qwen, visando rodar em menor custo.
Fontes setoriais compilaram a linha do tempo, citando o R1 como lançado em janeiro de 2025, com atualizações ao longo de 2025 para profundidade de raciocínio, função de ferramentas e JSON, além de uma evolução V3.1 híbrida. Esses relatos reforçam o posicionamento da DeepSeek como player de custo agressivo, desempenho competitivo e ampla adoção em APIs e apps.
![Ilustração genérica de IA e circuitos]
O contraponto e o que ainda não está provado
Até a publicação do memo de 12 de fevereiro de 2026, as acusações se apoiam em indícios e investigações internas, relatos de parceiros e imprensa, e não em divulgação pública de evidências forenses completas. Reportagens ao longo de 2025 apontaram investigações com Microsoft, bloqueio de contas suspeitas e violações dos termos de uso da OpenAI, que proíbem usar outputs para criar modelos concorrentes, mas sem detalhar todos os elementos técnicos do suposto esquema.
Veículos como CNBC e The Guardian registraram tanto o fascínio pelo custo e alcance do R1 quanto as dúvidas sobre como a DeepSeek chegou lá, incluindo especulações de distillation e comentários de investidores e executivos do setor. Não há, porém, consenso público definitivo, o que mantém a controvérsia aberta no plano técnico e jurídico.
Ao mesmo tempo, governos reagiram por outra via, priorizando risco de segurança e governança. Em 2025, deputados americanos apresentaram projeto para banir o app DeepSeek em dispositivos governamentais, refletindo preocupações com coleta de dados e alinhamento regulatório. Esse tipo de medida independe da prova técnica de distillation em si, mas reforça o ambiente político em torno do caso.
O impacto empresarial imediato, do jurídico ao produto
Para empresas que consomem ou constroem IA, três forças se chocam aqui. Primeiro, propriedade intelectual e contratos de uso. Mesmo que distillation seja técnica neutra, copiar capacidades a partir de saídas protegidas pode violar termos e leis, com risco de litígios. Relatos indicam que OpenAI e Microsoft investigaram usos programáticos de outputs e automação que transgridem condições de API.
Segundo, a economia da IA. A possibilidade de treinar alunos baratos a partir de professores caros pressiona preços, acelera concorrência e altera o mix entre open source e fechado. Em 2025, pesquisas e demonstrações baratas de reprodução de recursos de raciocínio chamaram atenção, e analistas discutiram o efeito em hardware e em estratégias de investimento.
Terceiro, segurança e conformidade. O memo da OpenAI alega que distillation adversária tende a descascar salvaguardas, ampliando o risco de abuso em biologia e química, e lista sinais de censura política no ecossistema DeepSeek. Mesmo sem verificar cada alegação de forma independente, equipes de risco corporativo devem mapear esses cenários na seleção de modelos e fornecedores.
Como líderes técnicos podem responder hoje
- Reforçar governança de uso de APIs. Auditar prompts e integrações para garantir que outputs de provedores fechados não sejam reaproveitados para treinar modelos proprietários, em desacordo com termos. Muitos contratos proíbem expressamente o uso de outputs para desenvolvimento de modelos concorrentes.
- Priorizar rastreabilidade de dados e outputs. Registrar quem consome, onde armazena e como reusa respostas de modelos, inclusive em pipelines de RLHF e preferência, para evitar mistura inadvertida de sinais protegidos. Referências públicas já mostraram que pipelines de distillation e preferência podem nascer de coleta massiva e classificação de respostas.
- Avaliar alternativas open source com pesos abertos quando compliance exigir controles finos. Modelos abertos evitam zonas cinzentas de termos de uso de terceiros, desde que respeitem licenças de dados e marcas. A literatura técnica e casos de 2025 mostram ganhos reais em raciocínio com RL e distillation em cima de bases abertas.
- Implementar guardrails internos. Mesmo modelos de alto desempenho precisam de filtros e avaliação de riscos. O próprio memo aponta preocupações com domínios de alto impacto, o que torna essencial monitoramento, red-teaming e critérios de desligamento de respostas.
![Fundo tecnológico genérico de IA]
Cenários regulatórios e de mercado para 2026
- Endurecimento contratual e técnico contra distillation adversária. A fala de autoridades em 2025 e o memo de 2026 indicam que provedores planejam mais barreiras técnicas contra extração programática de outputs, como novos detectores, limites adaptativos e ofuscação de rastros de raciocínio. Isso diminui o risco jurídico para quem consome APIs, mas pode encarecer ou limitar recursos como “chain of thought”.
- Medidas governamentais focadas em segurança e dados. Projetos de lei e diretrizes administrativas podem avançar mirando apps e modelos de origem considerada sensível, independentemente de prova técnica pública de distillation, por razões de soberania, privacidade e risco estratégico.
- Consolidação de estratégias híbridas. Mesmo críticos reconhecem que grandes modelos continuam relevantes, enquanto distillation e RL barateiam capacidades específicas. O resultado provável para 2026 é um portfólio que mistura modelos fechados premium, variantes abertas ajustadas e distillations legítimas sob licença.
O que observar nos próximos meses
- Evidências técnicas verificáveis. Sinais de automação, padrões de consulta, correlação de fingerprints de saída e sobreposição estatística de preferências podem surgir em processos, relatórios ou ações legais. A materialização desses dados mudará o tom da discussão de suspeita para prova.
- Respostas oficiais da DeepSeek. Até aqui o debate público contou mais com investigações, análises de terceiros e menções de autoridades do que com refutações detalhadas e auditáveis da própria empresa sobre cada alegação específica de distillation adversária. A eventual disponibilização de auditorias independentes teria peso.
- Evolução de salvaguardas. Se provedores fechados limitarem exposição de raciocínio ou alterarem formatos de saída, times de produto precisarão adaptar prompts, avaliação e integrações para manter qualidade sem infringir termos.
Conclusão
O memorando de 12 de fevereiro de 2026 cristaliza uma disputa que vinha crescendo desde o boom do R1 em 2025. Ao levar o tema a legisladores, OpenAI enquadra distillation adversária como risco comercial, de segurança e estratégico, enquanto reforça a necessidade de mais computação, energia e políticas industriais. A confirmação pública e verificável dos detalhes técnicos ainda é o ponto pendente para transformar suspeitas em prova, com implicações diretas para contratos e eventual jurisprudência.
Para quem lidera times de tecnologia, a mensagem prática é clara. Revisar governança de uso de APIs, fortalecer trilhas de auditoria e alinhar termos contratuais com práticas de engenharia reduz exposição jurídica e mantém flexibilidade estratégica. Observando os próximos passos de reguladores e das próprias empresas, o mercado tende a acomodar modelos abertos, distillations legítimas com permissão e serviços fechados premium, cada um com papel claro na pilha de IA.