OpenAI gastará US$ 20 bi+ em chips da Cerebras

Introdução

OpenAI gastará US$ 20 bilhões ou mais em chips da Cerebras nos próximos três anos, segundo o The Information, e ainda receberá warrants para uma participação acionária minoritária na fabricante, potencialmente chegando a até 10 por cento conforme os gastos aumentem. O acordo inclui cerca de US$ 1 bilhão para ajudar a financiar data centers e pode ser anunciado junto da abertura de documentos de IPO da Cerebras, de acordo com o mesmo relato.

Otimização de computação é palavra chave neste momento da IA, e este compromisso com a Cerebras indica uma estratégia clara de diversificação de hardware. A keyword aqui é OpenAI gastará US$ 20 bi+ em chips da Cerebras, porque envolve mais do que compra de capacidade, envolve arquitetura alternativa que pode alterar custos por token, latência e velocidade de implantação em escala. Ao mesmo tempo, o acordo sucede um acerto anterior, reportado em janeiro de 2026, estimado em mais de US$ 10 bilhões, o que sugere uma ampliação da parceria.

O artigo aprofunda o que muda com a Cerebras, por que isso importa para quem desenvolve e opera modelos, como isso interage com outras apostas de hardware, e o que observar em 2026 e 2027.

O que exatamente foi reportado, e por que isso importa

O novo compromisso inclui o uso de servidores com aceleradores da Cerebras e estruturas de warrants que podem levar a OpenAI a deter uma fatia de até 10 por cento, caso metas de gasto sejam cumpridas. Além disso, cerca de US$ 1 bilhão seriam alocados à construção de data centers. O horizonte do acordo, de três anos, casa com ciclos de lançamento de modelos de grande porte e com a necessidade de disponibilidade imediata de inferência.

Há coerência temporal com as notícias de janeiro de 2026, quando veículos como TechCrunch e Reuters citaram um acerto superior a US$ 10 bilhões entre OpenAI e Cerebras. A nova cifra de mais de US$ 20 bilhões, portanto, parece representar uma expansão relevante, possivelmente relacionada à maturidade do stack de inferência da OpenAI sobre os processadores wafer-scale da empresa.

Outro ponto importante é a expectativa de um IPO. Em outubro de 2025 a Cerebras retirou uma tentativa anterior de abrir capital, mas sinais recentes indicam retomada dos planos, com novo arquivamento e captação privada de US$ 1 bilhão em fevereiro de 2026, em valuation reportado de US$ 23 bilhões, além da possibilidade de tornar o prospecto público em breve.

![Logo da OpenAI]

Cerebras, WSE e por que a arquitetura wafer-scale pode interessar à OpenAI

A Cerebras criou o Wafer Scale Engine, um único chip que ocupa praticamente um wafer inteiro, conectando centenas de milhares de núcleos e grandes blocos de SRAM on‑chip com malha de comunicação de altíssima largura de banda. Na terceira geração, o WSE‑3 agrega cerca de 4 trilhões de transistores, em processo de 5 nm da TSMC, oferecendo 900 mil núcleos otimizados para IA e enorme memória próxima ao compute. Na prática, isso reduz gargalos de interconexão típicos de clusters de GPUs e ataca latências críticas no pré‑preenchimento e na fase de decodificação de LLMs.

Do ponto de vista de operações, a proposta da Cerebras enfatiza throughput elevado para treinamento e inferência com paralelismo espacial, simplificando escalonamento por nós e, em certos workloads, reduzindo overhead de comunicação entre chips. Relatos técnicos recentes mediram desempenho e consumo de energia do CS‑3 em cenários de inferência de LLMs, comparando com Nvidia e AMD, sugerindo ganhos específicos em prefill e latência sob determinadas cargas. Esses resultados variam por modelo e tokenização, por isso a adoção em escala pela OpenAI é um sinal pragmático de que a relação preço, desempenho e disponibilidade se tornou atraente.

Evidências de produção, não só de laboratório

Sinais de produção já haviam surgido em fevereiro de 2026, quando a OpenAI lançou o GPT‑5.3‑Codex‑Spark servido sobre chips Cerebras, marcando a primeira implantação de produção em silício fora do stack Nvidia da empresa. Isso reforça que a parceria não é piloto isolado. É operação real, com modelo atendendo usuários e com métricas de throughput competitivas.

Esse contexto ajuda a entender a ampliação do compromisso financeiro. A partir do momento em que há workload de produção que se beneficia de latências menores e de custos mais previsíveis por usuário, faz sentido reservar capacidade dedicada, selando contratos plurianuais. O novo acordo de mais de US$ 20 bilhões e a possibilidade de participação acionária criam alinhamento de incentivos para roadmap de hardware e software.

Como este movimento dialoga com Nvidia, AMD e Broadcom

Diversificação não é ruptura. Mesmo com Maia 200 na Microsoft e a expansão do portfólio, executivos reforçaram recentemente que Nvidia e AMD continuam parte do plano de compras, o que aponta para um mix pragmático de aceleradores. Ao mesmo tempo, a OpenAI firmou parceria com a AMD para infraestrutura, com opção de adquirir até 10 por cento da empresa caso metas sejam atingidas, e anunciou colaboração com a Broadcom para codesenvolver e implantar 10 GW de aceleradores customizados a partir de 2026. O tabuleiro é amplo, e a Cerebras ocupa um nicho onde latência e largura de banda on‑chip pesam muito.

Também houve reportagens sobre alianças vultosas com Nvidia para data centers multigigawatt a partir de 2026. Ao consolidar acordos em paralelo, a OpenAI se protege de gargalos de oferta e negocia preço por token e SLA com mais poder de barganha. Para quem constrói produtos, esse ecossistema diversificado tende a significar mais disponibilidade e menos risco de fila de GPU.

![Logo da Cerebras Systems]

Ilustração do artigo

Impactos práticos para produtos, custos e roadmap de modelos

Latência e UX. A arquitetura wafer-scale reduz comunicação entre chips e mantém grandes porções de memória muito próximas dos núcleos. Em aplicações que dependem de prefill rápido e multiplexação de sessões, isso pode cortar milissegundos preciosos, melhorando percepções como fluidez em code assistants e agentes que executam múltiplas ferramentas em paralelo. Estudos recentes quantificaram ganhos de eficiência energética e velocidade em prefill e decode, moldando uma visão mais granular de onde cada acelerador se sobressai.
Custo por token. Capacidade contratada em blocos de grande porte e com SLA previsível permite otimização de alocação de modelos por perfil de uso. Modelos de codificação e agentes de ferramentas, por exemplo, podem ser direcionados ao stack Cerebras quando o perfil de latência e batching encaixa, deixando clusters GPU para cargas que se beneficiam de kernels ou compiladores já muito maduros nesses ambientes.
Training e fine‑tuning. A Cerebras reporta que o WSE‑3 escala para treinar modelos de 70 bilhões de parâmetros em um dia em configurações de quatro sistemas e pode avançar para faixas de 240B a 1T conforme o cluster cresce. Para labs, isso significa encurtar ciclos de POCs e de personalização, algo estratégico quando novas versões de modelos e evals surgem em cadência trimestral.
Resiliência de supply. A demanda por GPUs de ponta continua altíssima. Ao contratar capacidade wafer‑scale e, potencialmente, participar do capital da fornecedora, a OpenAI reduz risco de desabastecimento em janelas críticas, especialmente em picos de lançamento. O desenho de warrants vinculado a milestones de gasto reforça essa simbiose.

O que observar no possível IPO da Cerebras

Caso a documentação pública saia nos próximos dias, pontos de atenção incluem concentração de receita, margens e capex de clientes, além do cronograma de entregas de clusters. Em 2024, a empresa relatou salto de receita no primeiro semestre, mas ainda operava com prejuízo, algo esperado em hardware de fronteira. Depois de retirar um arquivamento em outubro de 2025, a Cerebras captou US$ 1 bilhão em fevereiro de 2026 e, segundo relatos, pode tornar público o novo filing, mirando listagem ainda em 2026. Essa janela de mercado, aquecida por rodadas históricas em IA, pode favorecer a recepção do papel.

Para quem constrói produto, o IPO em si importa menos do que a visibilidade no roadmap e a capacidade de financiar fábricas, rede e suporte de software. Prospectos detalhados costumam trazer mapas de risco, parcerias críticas e cronogramas de produção, úteis para planejar migrações de workload e compromissos de longo prazo.

Como equipes técnicas podem se preparar agora

Classifique workloads por sensibilidade a latência, throughput e custo por token. Workloads com prefill pesado, alta taxa de multiplexação e tolerância a mudanças no toolchain tendem a se beneficiar primeiro do stack Cerebras. Use perfis reais de tráfego e simulações.
Avalie toolchains e compilers. O ecossistema do WSE evoluiu, com pipelines MLIR e relatórios de performance em benchmarks científicos e de IA. Adotar cedo pede prova de conceito com modelos representativos e integração com orquestradores existentes.
Planeje o mix multi‑acelerador. O portfólio da OpenAI segue amplo, com alianças com AMD, Broadcom e Nvidia. Para desenvolvedores corporativos, é prudente arquitetar camadas de abstração de inferência que permitam rotear requisições por custo e SLA, sem acoplamento rígido a um único fornecedor.
Reavalie segurança, observabilidade e SRE. Ambientes heterogêneos precisam de telemetria consistente, métricas por acelerador e capacidade de feature-flag para alternar rapidamente entre backends de inferência. Isso vale em dobro quando lançamentos de modelos chegam em ciclos de semanas.

Reflexões e insights

O acordo de mais de US$ 20 bilhões com a Cerebras mostra que o gargalo da IA em 2026 não é apenas algoritmos, é energia, silício e logística. Quando a OpenAI coloca dinheiro e potencial equity na mesa, sinaliza que a vantagem competitiva passa por orquestrar vários tipos de aceleradores, cada um otimizado para uma parte do pipeline. Isso reduz dependência de supply, pressiona preços e acelera o ritmo de entrega de produtos.

Há, no entanto, realidades físicas difíceis de contornar. A fabricação wafer‑scale desafia yield e termal, e a padronização de software ainda corre para acompanhar a popularidade das GPUs. O fato de a OpenAI já estar servindo um modelo em produção sobre Cerebras indica que as dores de adoção diminuíram o bastante para justificar escala e, agora, capital. Para o ecossistema, a boa notícia é que competição saudável tende a expandir o total de capacidade disponível, melhorando disponibilidade e previsibilidade para startups e grandes empresas.

Conclusão

O movimento da OpenAI, de gastar US$ 20 bilhões ou mais com chips da Cerebras e ainda obter participação acionária via warrants, reforça que computação é o novo diferencial estratégico. Em vez de depender de um único fornecedor, a empresa está construindo um mosaico de opções para treinar e servir modelos com melhor custo e menor latência, preparando o terreno para lançamentos frequentes e experiências mais responsivas.

Para quem desenvolve produtos, a mensagem é clara. Este é o momento de estruturar um plano multi‑acelerador, testar workloads no stack wafer‑scale e criar os trilhos para alternar entre backends conforme custo e SLA. Em 2026 e 2027, quem dominar essa flexibilidade vai lançar mais rápido, com mais previsibilidade e margens melhores, acompanhando a estratégia que a OpenAI está sinalizando ao mercado.