OpenAI lança novo Codex com chip dedicado da Cerebras
A OpenAI apresentou o GPT-5.3-Codex-Spark, uma versão leve do Codex otimizada para latência ultrabaixa, alimentada pelo WSE-3 da Cerebras e liberada em pesquisa para usuários Pro do Codex, marcando o primeiro marco da parceria.
Danilo Gato
Autor
Introdução
OpenAI Codex com chip dedicado virou realidade. A OpenAI anunciou o GPT-5.3-Codex-Spark, uma versão leve do seu agente de codificação, desenhada para rodar com latência mínima em hardware dedicado da Cerebras, o WSE-3, e disponibilizada como pesquisa para usuários Pro no app do Codex. A TechCrunch detalhou que o Spark é o primeiro marco da integração de chips Cerebras no stack de inferência da OpenAI.
O anúncio se apoia em um acordo firmado em 14 de janeiro de 2026, no qual a OpenAI confirmou parceria com a Cerebras para adicionar 750 MW de computação de baixa latência, com capacidade entrando em operação em fases até 2028. A empresa descreve a meta, acelerar respostas e tornar interações mais naturais em fluxos de trabalho de IA.
O que é o GPT-5.3-Codex-Spark
O Codex-Spark é apresentado como um modelo menor da família GPT-5.3-Codex, ajustado para colaboração em tempo real e iteração rápida, com respostas que buscam parecer quase instantâneas. De acordo com a OpenAI, o Spark entrega mais de 1000 tokens por segundo quando servido em hardware de latência ultrabaixa e chega com janela de contexto de 128k, atualmente só texto, e com limites de uso próprios durante o período de pesquisa. A disponibilidade inicial cobre o app do Codex, CLI e extensão para VS Code, além de acesso na API para um conjunto reduzido de parceiros de design.
A TechCrunch complementa que a versão Spark é posicionada como motorista diário de produtividade, ideal para prototipação e edições direcionadas, enquanto o GPT-5.3-Codex “cheio” cobre tarefas longas e mais pesadas. O Spark está em pesquisa com usuários ChatGPT Pro no app do Codex.
Por que um chip dedicado muda o jogo
A decisão de rodar o Spark no WSE-3 da Cerebras sinaliza uma arquitetura de computação por portfólio. A OpenAI reforça que GPUs permanecem fundamentais para treinar e servir modelos em larga escala e custo eficiente, mas que a Cerebras complementa ao brilhar em fluxos que exigem latência extremamente baixa. O resultado prático é encurtar o ciclo pergunta, raciocínio, resposta, algo crítico para agentes de código que trabalham ao vivo dentro do IDE.
A parceria OpenAI e Cerebras não nasce isolada. Segundo a TechCrunch, ela se soma a um acordo multianual avaliado em mais de 10 bilhões de dólares, enquanto o Financial Times reportou 750 MW de computação reservados até 2028, parte de uma estratégia para reduzir dependência e diversificar fornecedores de hardware. O objetivo, manter desempenho, disponibilidade e, sobretudo, velocidade interativa.
![OpenAI e Cerebras: parceria anunciada em janeiro de 2026]
O que há no WSE-3, o chip por trás do Spark
O Wafer Scale Engine 3 é um processador de escala de wafer com 4 trilhões de transistores e cerca de 900 mil núcleos otimizados para IA, atingindo 125 petaFLOPS de pico. A Cerebras e veículos especializados como Tom’s Hardware destacam que ele dobra a performance da geração anterior mantendo potência, enquanto a página de produto da empresa o posiciona como o maior e mais potente chip de IA já construído. Na prática, esse design privilegia memória, largura de banda e comunicação on-chip, reduzindo gargalos típicos de clusters de GPUs convencionais.
Outra peça do contexto, a IEEE Spectrum cobriu o anúncio do novo waferscale, reforçando o salto geracional na arquitetura e a aposta da indústria em formatos radicalmente diferentes de GPU discreta. Em termos de latência, o arranjo de compute, memória e interconexão no mesmo wafer reduz as idas e vindas de dados, algo essencial quando cada milissegundo conta no loop humano, agente, código.
Onde o Codex-Spark se encaixa no ecossistema do Codex
Importante separar os papéis. O GPT-5.3-Codex principal foi co projetado, treinado e servido com sistemas NVIDIA GB200 NVL72, segundo a OpenAI, mirando desempenho amplo e custo efetivo em cargas massivas. O Spark entra como o modo ultrarrápido, servindo cenários interativos no Codex. A combinação, GPUs para throughput e Cerebras para latência, cria um leque de execução mais elástico que adere à natureza dual do trabalho de engenharia, tarefas longas versus micro iterações frequentes.
Em disponibilidade, a OpenAI indica rollout hoje, 12 de fevereiro de 2026, como pesquisa no app do Codex, CLI e VS Code, com fila temporária em picos de demanda e rate limits específicos. O objetivo declarado, aprender com usos do desenvolvedor e expandir acesso nas próximas semanas.
Casos práticos, do protótipo ao deploy
- Refatorações rápidas e incrementais. Em um PR que exige ajustes imediatos de nomes, estruturas ou validações, o Codex-Spark pode editar trechos específicos e devolver diffs quase instantâneos, reduzindo o tempo entre revisão e commit. A OpenAI descreve o Spark como colaborador em tempo real, capaz de responder com fluidez quando a prioridade é velocidade.
- Pair programming com feedback contínuo. Em sessões de design exploratório, latência baixa permite testar abordagens rapidamente. O modelo aceita interrupções, redirecionamentos e mantém o contexto, o que favorece ciclos de tentativa e erro.
- Tarefas longas, outro modo do Codex. Para migrações complexas, investigações de performance ou automações que rodam por horas, o GPT-5.3-Codex, fora do Spark, foi projetado para resistir e executar sem supervisão prolongada, mantendo logs e checkpoints de progresso.

Indicadores do mercado, por que isto importa agora
A parceria técnica vem acompanhada de tração financeira. Em 3 e 4 de fevereiro de 2026, a Cerebras anunciou rodada Series H de 1 bilhão de dólares a um valuation de 23 bilhões, com liderança da Tiger Global e participação de casas como Benchmark, Fidelity e AMD, entre outras, sinalizando apetite de capital para hardware de IA de baixa latência. Coberturas da própria empresa e da Bloomberg contextualizam a expectativa de IPO.
O Financial Times noticiou um acordo multibilionário de infraestrutura entre OpenAI e Cerebras, com 750 MW comprometidos até 2028. Esse pacote se soma à estratégia conhecida de diversificar fontes de compute, incluindo colaborações com NVIDIA e AMD. Para empresas usuárias, o recado é claro, o futuro do agente de software combina throughput massivo e respostas instantâneas, cada qual atendido por uma classe distinta de hardware.
![Servidor em rack, representando infraestrutura de baixa latência]
Como times podem se preparar, práticas recomendadas
- Classifique tarefas por sensibilidade a latência. Tudo que depende de ciclos curtos de tentativa, depuração e teste tende a se beneficiar do Spark. Tarefas que exigem varreduras amplas, análise profunda ou execução autônoma por horas se encaixam melhor no modo principal do GPT-5.3-Codex.
- Atualize integrações do Codex. A OpenAI indica suporte no app do Codex, CLI e extensão do VS Code, além de liberar a API do Spark para poucos parceiros inicialmente. Vale revisar autenticação, limites e recursos disponíveis em cada superfície.
- Recalibre SLAs internos. Latência percebida muda o comportamento do desenvolvedor. Ao reduzir espera, é comum que o volume de iterações cresça. Ajuste métricas de produtividade para capturar ciclos mais curtos e maior paralelismo. Insight apoiado pelas metas de latência da OpenAI na parceria com a Cerebras.
- Planeje segurança e conformidade. A OpenAI afirma que o Spark passa pelo mesmo treinamento de segurança e avaliações padrão, inclusive em ciber, e que não atinge limiares de alto risco do Preparedness Framework. Mesmo assim, defina trilhas de auditoria e políticas de uso, especialmente em código sensível.
Perguntas que valem ser feitas agora
- Quanto do backlog se resolve com velocidade em vez de capacidade bruta. Se a maior dor está no vai e vem de refinos em PRs e testes, o ganho de latência pode encurtar o ciclo crítico do time.
- Onde a latência subtrai valor em produtos. Em features que dependem de geração e validação instantâneas, a base Cerebras pode abrir caminhos para experiências mais fluidas, por exemplo em UIs geradas on the fly.
- Qual o plano de fallback em picos. O lançamento indica limites próprios e filas temporárias durante a pesquisa. Instrumente monitoramento e caminhos alternativos em tarefas críticas.
Como isso conversa com outras ofertas de IA para código
O ecossistema de agentes de código amadureceu rápido. Em 2025, o The Verge registrou a chegada do Codex como agente de codificação dentro do ChatGPT para públicos Pro, Enterprise e Team, destacando seu papel de coworker virtual que escreve, testa e corrige. Desde então, a OpenAI tem alinhado o Codex a uma visão de trabalho fim a fim. O GPT-5.3-Codex reforça o modo de tarefas longas, enquanto o Spark atende iterações em tempo real, os dois lados de uma mesma moeda.
Benchmarks recentes citados pela imprensa especializada já vinham mostrando evolução do Codex em cenários de engenharia real, como o SWE-bench Verified. Embora metodologias variem, o quadro geral aponta para crescimento em sucesso de tarefas e eficiência de tokens, acompanhado de melhorias de steering e transparência de execução. Isso casa com a proposta do 5.3, dar controle sem perder o ritmo.
Reflexões finais, oportunidades sem hype
O recado do GPT-5.3-Codex-Spark é pragmático. Quando o gargalo está na espera, hardware dedicado faz diferença mensurável. Ultrapassar 1000 tokens por segundo muda a forma como equipes interagem com um agente de código, aproximando a experiência de uma conversa fluida em vez de requisições discretas. A aceleração não elimina a necessidade de modelos grandes e profundos, mas cria um modo complementar em que velocidade vira alavanca de qualidade.
Também vale notar a engenharia organizacional por trás. A OpenAI está montando um mosaico de compute, com GPUs NVIDIA GB200 para o grosso das cargas e Cerebras para latência crítica, amarrado por um stack de inferência que decide a ferramenta certa para o trabalho certo. Para desenvolvedores e líderes de engenharia, a lição é simples, planejar produtos e pipelines considerando dois regimes, throughput e tempo de resposta. Quem alinhar o processo a essa dualidade, tende a ganhar em cadência, previsibilidade e, por tabela, em entrega de valor.
Conclusão
A nova versão do Codex com chip dedicado coloca velocidade no centro da experiência do desenvolvedor. O Spark, servido no WSE-3 da Cerebras, entrega latência agressiva para colaboração em tempo real, enquanto o GPT-5.3-Codex mantém a capacidade de conduzir tarefas longas com profundidade. O resultado é um agente que alterna entre modos conforme o contexto, do toque leve ao mergulho profundo.
Em paralelo, a parceria multibilionária e os 750 MW de compute comprometidos até 2028 mostram que a aposta não é episódica. É uma estratégia de longo prazo para escalar experiência, confiabilidade e custos. Para equipes, o convite está feito, experimentar onde a latência muda o jogo e redesenhar o fluxo de trabalho para colher ganhos cumulativos de produtividade.
