Logotipo da DeepSeek em azul sobre fundo transparente
Inteligência Artificial

DeepSeek treinou Blackwell da Nvidia apesar de veto dos EUA

Relato recente indica treinamento de um novo modelo da DeepSeek no chip Blackwell, apesar do veto de exportação dos EUA. O caso reacende debates sobre controles, supply chain e competitividade em IA.

Danilo Gato

Danilo Gato

Autor

2 de março de 2026
9 min de leitura

Introdução

DeepSeek treinou Blackwell da Nvidia apesar de veto dos EUA, segundo reportagem exclusiva divulgada em 24 de fevereiro de 2026. O relato, atribuído a um alto funcionário do governo dos EUA, afirma que o próximo modelo da DeepSeek teria sido treinado com GPUs Blackwell, potencialmente em um data center na Mongólia Interior, dentro da China, em desacordo com as regras de exportação.

A importância do tema vai além de uma disputa bilateral. O Blackwell é a plataforma de GPU de ponta da Nvidia para treinar e servir modelos avançados de IA, peça central em superchips como o GB200 e em sistemas escaláveis como o NVL72. Se confirmada, a informação sugere rotas de aquisição, uso remoto ou integração logística que desafiam controles de exportação, com implicações para fornecedores, clouds e startups de IA.

Este artigo reúne o que já foi publicado, coloca os fatos em perspectiva com eventos recentes envolvendo a DeepSeek e a Nvidia, e descreve tendências práticas para equipes técnicas e líderes de produto que precisam decidir onde treinar, como escalar e como mitigar riscos regulatórios e de supply chain.

O que exatamente foi dito sobre o Blackwell

A reportagem citada aponta que o novo modelo da DeepSeek, previsto para lançamento em curto prazo, teria sido treinado com o Blackwell, o topo de linha da Nvidia, apesar do veto de exportação vigente para a China. O texto menciona a expectativa de que indicadores técnicos de uso do hardware americano seriam removidos e sugere a localização dos clusters na Mongólia Interior. O governo dos EUA não detalhou como obteve as informações, nem como os chips teriam sido adquiridos.

Vale frisar que se trata de uma alegação oficial reportada pela imprensa, não de uma confirmação técnica auditada publicamente. O histórico do debate é complexo. Em 2025, uma matéria baseada em fontes dos EUA já destacava investigações sobre o acesso da DeepSeek a chips avançados, citando supostas tentativas de burlar controles, inclusive via empresas de fachada no Sudeste Asiático e acesso remoto a data centers fora da China. Na ocasião, a Nvidia declarou não apoiar violações e afirmou que, com as regras vigentes, estava “efetivamente fora” do mercado chinês de data center.

Em paralelo, houve controvérsia pública sobre o hardware usado pela DeepSeek em modelos anteriores. Em janeiro de 2025, a Nvidia elogiou o DeepSeek R1 como um avanço e disse que o trabalho ilustrava técnicas compatíveis com exportação, contrapondo a hipótese de uso de GPUs banidas naquele momento. Esse contraste ressalta como o cenário é fluido, com afirmações divergentes dependendo de modelo, data e fonte.

Por que o Blackwell é o foco do debate

O Blackwell, alicerce do superchip GB200 Grace Blackwell e de sistemas como o NVL72, foi projetado para modelos gigantes, incluindo raciocínio e agentes. Informações oficiais da Nvidia descrevem ganhos substanciais em desempenho e eficiência, redes de até 800 Gb por segundo e topologias com NVLink e NVSwitch para reduzir gargalos coletivos em treinamento. A promessa é desempenho de inferência até 30 vezes maior que H100 em certos cenários e economia de custo e energia de até 25 vezes para LLMs, o que explica o interesse global por esse hardware.

Do lado dos integradores, anúncios como o da HPE sobre o primeiro envio de um sistema GB200 NVL72, com resfriamento líquido e integração de GPUs, CPUs Grace e rede de alta velocidade, reforçam que o Blackwell não é apenas um chip, é uma pilha completa de computação acelerada para treinar e servir modelos de larga escala. Isso torna qualquer alegação de uso não autorizado particularmente sensível, pois envolve supply chain, serviços de integração, logística e telecom.

DeepSeek, custos de treinamento e alegações recentes

A DeepSeek ganhou manchetes ao afirmar custos de treinamento muito mais baixos, com uso intensivo de otimizações de software e arquiteturas eficientes. Análises independentes destacaram a adoção de clusters com GPUs como H800, além de tunning profundo do pipeline para contornar limitações de memória e interconexão, reduzindo custos de milhões para frações do padrão do setor. Essas leituras explicam a competitividade da empresa mesmo sem acesso irrestrito ao topo da linha de GPUs.

Nos últimos dias, outra frente de controvérsia emergiu: a Anthropic acusou empresas chinesas, incluindo a DeepSeek, de conduzir campanhas de “escala industrial” de distilação usando saídas do Claude, por meio de 24 mil contas fraudulentas e 16 milhões de interações, para extrair capacidades. O episódio adiciona tensão ao ambiente regulatório e competitivo, pois discute não só hardware, como também práticas de engenharia de modelos.

Há ainda relatos de estratégia comercial: a DeepSeek teria negado acesso antecipado ao seu próximo modelo V4 a Nvidia e AMD, priorizando fornecedores domésticos como a Huawei. Embora essa movimentação não confirme nada sobre Blackwell, é um dado do tabuleiro competitivo que influencia benchmarks, cootimização de software e preferências de ecossistema.

Possíveis rotas técnicas para uso de chips sob controle

Mesmo com vedações de exportação, duas rotas sempre aparecem nas análises de risco de compliance: acesso remoto a data centers fora da jurisdição restrita e contrabando físico de componentes. Em 2025, reportagens já mencionavam a hipótese de accesso remoto a GPUs de alto desempenho hospedadas em países sem restrição, algo que, dependendo da entidade envolvida e do conhecimento do exportador, poderia ou não violar regras, e teria diferentes consequências regulatórias. Essa complexidade explica por que autoridades e empresas reagiram com reforço de monitoramento e due diligence.

Na prática do dia a dia de engenharia, quando a equipe não obtém o hardware de ponta, a alternativa passa por escalar horizontamente com GPUs anteriores, otimizar comunicação entre placas, reduzir largura de banda em camadas de atenção, empregar mixture-of-experts e técnicas de raciocínio em teste. Foi exatamente essa linha que muitas análises públicas associaram à DeepSeek antes do novo relato sobre Blackwell.

O que observar nas próximas semanas

  • Sinalizações oficiais. Se o governo dos EUA detalhar a investigação, a indústria saberá mais sobre a cadeia de suprimentos, rotas logísticas e suposto uso do Blackwell. Sem isso, permanece um cenário de alegações e negativas, com riscos reputacionais e geopolíticos.
  • Reações da Nvidia. Atualizações sobre disponibilidade, clientes, compliance e clarificações sobre o ecossistema Blackwell, incluindo documentação técnica e notas a integradores, ajudam a separar marketing de realidade operacional.
  • Calendário de lançamentos da DeepSeek. O suposto novo modelo citado pela reportagem pode ser o gatilho para medições independentes, avaliações de latência, custo por token e footprint energético, o que, por dedução, fornece pistas sobre a infraestrutura usada.
  • Continuidade das disputas sobre distilação. O desfecho das alegações da Anthropic e eventuais contranarrativas técnicas podem acelerar padrões de governança de dados de treinamento e reforçar obrigações contratuais nas APIs.

Implicações práticas para times de engenharia e produto

  • Planejamento de hardware. Times que dependem de GPUs topo de linha devem diversificar cenários, combinando reservas em múltiplos provedores e mantendo um plano B com gerações anteriores, além de otimizações de comunicação e memória. O caso Blackwell reforça como a disponibilidade geopolítica pode mudar com pouco aviso.
  • Arquiteturas elásticas. Projetar pipelines que alternam entre treino distribuído com comunicação agressiva e fases de raciocínio com test-time compute ajuda a navegar períodos de escassez de hardware, mantendo SLOs de produto. Relatos sobre o R1 mostraram o quanto escolhas de arquitetura podem compensar limites físicos.
  • Compliance e forense. Monitoramento de tags de hardware, telemetria de rede, logs de driver e fingerprints de execução deve entrar no checklist de auditoria interna, principalmente se o produto atua em múltiplas regiões com regras distintas. Isso reduz a exposição a alegações de violação indireta via terceiros.

Imagens e contexto visual

![Logotipo da DeepSeek]

![Corredor de data center com racks de servidores]

Perguntas frequentes que líderes me fazem sobre o caso

  • Isso confirma violação das regras de exportação. Não, confirma que um alto funcionário dos EUA afirmou isso à imprensa. A confirmação depende de evidências técnicas e de investigações oficiais com divulgação pública.
  • Então por que tanta comoção. Porque o Blackwell, em particular, define patamares de custo por token, latência e throughput para modelos de raciocínio e agentes. Se alguém sob restrição tiver acesso a esse patamar, muda o equilíbrio competitivo e a pressão sobre cadeias globais de suprimentos.
  • Há precedentes. Relatos anteriores abordaram supostos acessos a H100 ou a variantes compatíveis com exportação, além de uso criativo de infraestrutura fora da China. A Nvidia, em 2025, classificou o R1 como avanço compatível, o que mostra como cada caso precisa ser lido no contexto temporal e técnico correto.
  • E quanto às acusações de distilação. São alegações recentes e separadas do hardware, porém reforçam o escrutínio sobre métodos de treinamento e extração de capacidades, o que pode influenciar respostas regulatórias e acordos entre provedores de API.

Como isso afeta custos, roadmap e posicionamento

No curto prazo, a incerteza aumenta o prêmio por disponibilidade garantida de GPU. Contratos com clouds e integradores que entregam Blackwell e GB200 podem ficar mais caros e mais seletivos, enquanto projetos dispostos a explorar técnicas de test-time scaling, mixture-of-experts e compressão inteligente preservam margens mesmo longe do estado da arte em hardware. Nesse cenário, portabilidade de workloads entre provedores e regiões vira vantagem estratégica.

No médio prazo, se as autoridades ampliarem transparência sobre investigações, o mercado precifica melhor o risco de sanções, entity lists e controles adicionais. Para fabricantes e parceiros, convém reforçar trilhas de auditoria de firmware, drivers e chain-of-custody de componentes, além de mecanismos de atestação remota que provem, com criptografia, onde e com qual hardware uma sessão de treino foi executada.

Conclusão

O relato de que a DeepSeek treinou um novo modelo no Blackwell consolida a IA como campo onde tecnologia, geopolítica e supply chain se sobrepõem. Enquanto não há confirmação técnica pública, a indústria opera com cenário de alegações embasadas em fontes oficiais e sinais contraditórios de mercado. Nesse ambiente, times que privilegiam resiliência técnica e compliance bem documentado ficam menos expostos a oscilações políticas e de fornecimento.

Independentemente do desfecho, a mensagem é clara para quem constrói produtos de IA em 2026. Arquitetura e engenharia continuam sendo alavancas para competir, e transparência sobre origem de dados, métodos de treino e infraestrutura se tornou parte do produto. Investir em design elástico, planos de contingência e telemetria verificável é o caminho mais pragmático para navegar um ciclo de inovação que não desacelera.

Tags

DeepSeekNvidiaChipsPolítica industrialModelos de linguagem