OpenAI e Broadcom lançam o chip de inferência LLM Jalapeño

Introdução

OpenAI e Broadcom oficializaram o Jalapeño, chip de inferência LLM projetado para entregar mais desempenho por watt que as soluções de ponta atuais, com tape-out em apenas nove meses e plano de implantação em escala de gigawatts em data centers parceiros a partir do fim de 2026. O Jalapeño nasce como o primeiro acelerador de uma plataforma multi geração voltada para a execução de modelos de linguagem em produção.

O anúncio posiciona o chip de inferência LLM Jalapeño como parte da estratégia de full stack da OpenAI, agora incluindo silício próprio, kernels, memória, rede e orquestração. A empresa afirma já rodar workloads em amostras de engenharia na frequência e potência alvo, incluindo cargas como GPT‑5.3‑Codex‑Spark, com testes iniciais apontando eficiência energética superior ao estado da arte.

O que é o Jalapeño e por que isso importa

O chip de inferência LLM Jalapeño foi concebido do zero para servir modelos de linguagem atuais e futuros, priorizando latência baixa, throughput alto e eficiência por watt. Diferente de GPUs de propósito geral, o projeto equilibra computação, memória e rede para reduzir movimentação de dados e aproximar a utilização realizada do pico teórico. Essa arquitetura focada em inferência é especialmente relevante quando o objetivo é diminuir custo por token, métrica que dita a viabilidade de produtos baseados em IA em escala.

No ecossistema atual, empresas com grande volume de requisições buscam otimizar o custo por token por meio de co design hardware e software. A NVIDIA, por exemplo, destaca avanços de custo por token e throughput por megawatt com Blackwell em relação a Hopper, reflexo de melhorias de arquitetura e pilha de software. Esse contexto mostra por que um acelerador de inferência dedicado pode mexer no tabuleiro de TCO e na disponibilidade de IA para usuários finais.

Como o Jalapeño foi desenvolvido em nove meses

A OpenAI indica que o ciclo do Jalapeño, do design ao tape out, levou nove meses, atribuindo a velocidade à co engenharia com a Broadcom e ao uso de modelos da própria OpenAI para acelerar etapas de projeto e otimização. Em semicondutores avançados, prazos tão curtos são raros e sugerem automação intensiva, reuso inteligente de IPs e integração antecipada entre times de arquitetura, compiladores, kernels e sistemas de serving.

Na prática, reduzir o tempo de projeto encurta o time to value. Quando o roadmap de modelos pressiona por mais tokens e sequências mais longas, cada mês ganha peso econômico direto. A mensagem implícita é que ferramentas de IA generativa e agentes já começam a reduzir ciclos de design de hardware, o que tende a baratear computação para todo o setor.

Rede, racks e a importância da Celestica e do Tomahawk

Inferência em larga escala exige redes de alta capacidade, filas previsíveis e baixa latência. No anúncio do Jalapeño, a Broadcom entra com implementação de silício e tecnologias de rede, incluindo a família Tomahawk, enquanto a Celestica atua no nível de placas, racks e integração de sistemas. Essa combinação endereça o gargalo típico de clusters de IA, que migram para 800G e 1,6T para conectar milhares de aceleradores.

Para ilustrar a direção de rede, a Broadcom já comunica produção em volume do Tomahawk 6 com 102,4 Tbps e suporte denso a 800GbE e 1,6TbE, bem como um NIC Ethernet de 800G, o Thor Ultra, alinhado ao esforço do consórcio Ultra Ethernet. Esse ecossistema de conectividade busca reduzir congestionamento e aumentar a utilização real dos aceleradores, componente crítico para o custo por token em inferência.

Complementando, a Celestica divulgou switches 1,6TbE baseados em Tomahawk 6, reforçando a disponibilidade de malhas de alta densidade para clusters de IA de próxima geração. Em outras palavras, a infraestrutura de rede necessária para sustentar o chip de inferência LLM Jalapeño já se move do roadmap para o fornecimento efetivo.

![Corredor de data center, racks de servidores]

Escala de implantação, energia e o horizonte de 10 GW

O plano vai além do chip. Broadcom e OpenAI anunciaram colaboração estratégica para co desenvolver e implantar 10 gigawatts de aceleradores personalizados, com início de implantação na segunda metade de 2026 e expansão ao longo de vários anos. Isso dá a dimensão do esforço, indicando que o chip de inferência LLM Jalapeño é peça de um programa de múltiplas gerações e lotes de racks fabricados e entregues a parceiros de data center.

Gigawatt é palavra que define a nova economia de IA. Grandes provedores planejam mega data centers e fontes dedicadas de energia para suprir treinamento e, cada vez mais, inferência always on. Nos Estados Unidos, cresceram os planos de abastecimento energético para clusters de IA, incluindo iniciativas para data centers e compromissos de arcar com custos de energia, e até projetos gigantes de geração dedicada. Essa transição confirma que eficiência por watt do lado do silício virou variável macroeconômica.

A ambição de gigawatts, porém, esbarra na execução. Relatórios recentes apontam atrasos na construção de capacidade anunciada globalmente, o que pressiona ainda mais soluções que entreguem mais tokens por megawatt. Nesse cenário, chips de inferência otimizados, redes com 102,4 Tbps e óptica 400G por canal aparecem como vetores de viabilidade, não apenas de performance.

Comparativo estratégico, onde o Jalapeño se encaixa

O mercado de inferência hoje se organiza em três caminhos principais. Primeiro, as GPUs generalistas com pilha madura, onde a NVIDIA domina e promete grandes saltos de eficiência por watt e custo por token com Blackwell. Segundo, os ASICs proprietários voltados a cargas específicas, como TPUs para o ecossistema Google. Terceiro, uma nova onda de aceleradores de inferência orientados a LLMs, como o chip de inferência LLM Jalapeño da OpenAI em parceria com a Broadcom.

Nesse tabuleiro, a vantagem potencial do Jalapeño está em alinhar arquitetura e software com as rotinas reais de serving que rodam diariamente em ChatGPT, API e produtos correlatos. A premissa é transformar o conhecimento granular de kernels, padrões de memória e redes de atenção em ganhos de utilização e latência para interações humanas em escala, como respostas mais rápidas e custos mais baixos. É o tipo de otimização impossível de alcançar apenas com componentes genéricos.

Casos de uso práticos e impacto no produto

O chip de inferência LLM Jalapeño mira diretamente produtos interativos. Em chatbots, codificação assistida e agentes, cada redução de latência e custo pode ser convertida em respostas mais fluídas, contextos mais longos e planos de preço mais acessíveis. A OpenAI lista ganhos esperados em confiabilidade e disponibilidade, fatores que se traduzem em menos quedas de serviço sob picos de demanda e previsibilidade para negócios que integram IA ao fluxo operacional.

Na prática, empresas com grandes volumes de atendimento podem rever SLAs e filas, plataformas de e commerce podem recomendar com menos jitter, e desenvolvedores podem orquestrar cadeias de ferramentas com passos adicionais sem degradar tempo de resposta percebido. Em times de engenharia de dados, isso se traduz em SLOs mais agressivos, sabendo que a camada de inferência entrega tokens de forma mais estável por unidade de energia.

O papel da rede, de novo, e por que 800G e 1,6T importam

A inferência moderna não vive isolada no chip. Memória de alta largura de banda, interconexão com baixa latência, ECN eficaz e topologias adaptadas a grafos de atenção e KV caches determinam o throughput efetivo. Nesse ponto, o ecossistema Broadcom sinaliza maturidade com Tomahawk 5 e 6, NICs de 800G e óptica avançada, que juntos habilitam clusters maiores, com menos hotspots e janelas de congestão. Isso favorece justamente a proposta do chip de inferência LLM Jalapeño de converter pico teórico em desempenho realizado.

A Celestica, por sua vez, acelera o tempo até rack escalável com linhas de switches 1,6TbE para malhas de IA. Racks projetados de fábrica com perfis térmicos, roteamento de cabos e mecanismos de manutenção preditiva encurtam a jornada da bancada para a produção, crucial quando o plano de implantação fala em múltiplos gigawatts até 2029.

![Logotipo Broadcom, ecossistema de rede e conectividade]

Energia, sustentabilidade e o custo por megawatt

O custo por token tem um parente direto, o custo por megawatt. Um salto em eficiência por watt no chip de inferência LLM Jalapeño pode refletir em menos CAPEX de energia e refrigeração por PUE, e OPEX mais previsível. Grandes provedores destacam novos desenhos de data centers com menor uso de água e soluções de resfriamento que recirculam fluido diretamente no chip durante operação normal, reduzindo torres de resfriamento. Esses movimentos mostram que a eficiência não é apenas um KPI de silício, é resultado de um sistema como um todo.

Do lado da oferta elétrica, surgem arranjos de geração dedicada e PPAs de longo prazo para alimentar data centers de IA, ilustrando a competição por energia firme. A viabilidade desses projetos depende de curvas de demanda compatíveis com picos de inferência e do compromisso de eficiência por watt que o hardware entrega. É nesse contexto que um acelerador dedicado a LLMs, como o Jalapeño, adiciona previsibilidade à operação.

Leituras dos sinais e próximos passos

Os sinais do anúncio indicam três movimentos coordenados. Primeiro, a OpenAI expande o controle da pilha, do produto ao silício, buscando transformar conhecimento de modelos em vantagem de infraestrutura. Segundo, a Broadcom consolida seu papel como implementadora de silício e provedora de rede para clusters de IA em alta escala, com linhas Tomahawk, NICs de 800G e óptica 400G por canal. Terceiro, parceiros como a Celestica encurtam o caminho até a produção com integração em placas, racks e sistemas. Juntos, esses elementos criam o cenário para o chip de inferência LLM Jalapeño disputar espaço onde realmente importa, custo por token e latência percebida.

Vale notar que, enquanto os números finais de performance ainda não foram publicados, a OpenAI promete um relatório técnico nos próximos meses. Até lá, a comparação direta com placas já conhecidas depende de dados de terceiros. Mesmo assim, a direção estratégica é clara, chips dedicados a inferência LLM, redes de 800G e 1,6T, e uma visão de implantação em gigawatts até o fim da década.

Conclusão

O Jalapeño representa mais que um chip de inferência LLM, simboliza um ciclo novo em que quem domina o modelo molda o silício e captura ganhos de eficiência direta no ponto onde a IA encontra o usuário, a inferência. Se a promessa de melhor desempenho por watt se confirmar, a consequência prática será simples, respostas mais rápidas, contas de energia mais baixas por requisição e produtos mais acessíveis.

O preço a pagar é executar em uma escala inédita, com rede, racks e energia em harmonia. A parceria OpenAI e Broadcom, somada a fornecedores de sistemas como a Celestica e ao ecossistema Ethernet de alta velocidade, aponta que a fundação está sendo montada. Os próximos meses, com dados técnicos, dirão como o chip de inferência LLM Jalapeño se compara, na prática, ao que hoje define o estado da arte em TCO de inferência.