Google lança TPUs 8ª geração, 8t treino e 8i inferência
A nova dupla de TPUs da Google separa treino e inferência para turbinar agentes de IA, prometendo escala maciça, eficiência energética e custos menores em produção
Danilo Gato
Autor
Introdução
Google colocou a palavra chave do momento, TPU 8t e TPU 8i, no centro do palco do Cloud Next 2026. A empresa anunciou a 8ª geração das suas TPUs, agora divididas em duas arquiteturas especializadas, uma para treino e outra para inferência, com promessas claras de escala, eficiência e menor custo operacional.
A estratégia mira diretamente o crescimento de agentes de IA, que exigem raciocínio, execução em múltiplas etapas e iteração contínua. Essa dinâmica muda o perfil de carga nos data centers e força escolhas de design que vão do silício ao software. A Google diz que a TPU 8t entrega quase 3 vezes mais desempenho de computação por pod que a geração anterior, enquanto a TPU 8i foca latência e throughput com ganhos de até 80 por cento em desempenho por dólar.
O artigo aprofunda a proposta técnica de cada chip, a rede e a topologia de interconexão, as métricas de eficiência energética, os impactos práticos para equipes de engenharia e produto e como isso se posiciona no tabuleiro competitivo dos provedores de nuvem.
O que muda com as TPUs 8t e 8i
A separação entre treino e inferência é a mudança mais visível. A TPU 8t foi desenhada para treinamentos de modelos de fronteira, com altíssima taxa de computação, memória compartilhada em grande escala e banda de interconexão ampliada. Já a TPU 8i atende cargas de inferência sensíveis a latência, típicas de agentes orquestrando várias chamadas, compartilhando contexto e colaborando em fluxos longos. Ambas continuam versáteis, mas a especialização destrava ganhos de eficiência e custo.
Para quem está dimensionando plataformas de IA, a implicação é direta. Em vez de otimizar tudo em um único tipo de acelerador, a recomendação prática é mapear o ciclo de vida do modelo, do treino ao serving, e combinar recursos. Treinos longos e pesados vão se beneficiar do throughput e da escala da 8t. Produtos com picos de tráfego, chat multimodal e ferramentas de automação com agentes, que valorizam baixa latência, tendem a performar melhor na 8i.
TPU 8t por dentro, o motor de treino
Segundo a Google, a TPU 8t reduz ciclos de desenvolvimento de modelos de meses para semanas, resultado de três pilares, computação bruta, memória compartilhada em larga escala e banda entre chips mais alta. Um único superpod chega a 9.600 chips, com 2 petabytes de memória de alta largura de banda compartilhada, e o dobro de banda entre chips em relação à geração anterior. No agregado, esse superpod entrega 121 exaflops de computação, viabilizando que modelos muito grandes trabalhem como se tivessem um único e vasto pool de memória.
Para manter o cluster sempre ocupado, a 8t integra acesso a armazenamento 10 vezes mais rápido e o TPUDirect puxa dados direto para o acelerador, reduzindo gargalos de alimentação. A rede Virgo, combinada ao stack de software com JAX e Pathways, é anunciada com escalonamento quase linear até um milhão de chips em um único cluster lógico. Para confiabilidade e disponibilidade, o alvo é de mais de 97 por cento de goodput, com telemetria em tempo real, desvio automático em links defeituosos e comutação óptica reconfigurando o hardware sem intervenção humana. Esses recursos traduzem-se em menos pausas, menos checkpoints e mais tempo útil de treino.
Do ponto de vista prático, times de MLOps podem explorar esse desenho para treinos de modelos multimodais grandes, exploração rápida de arquiteturas e tuning intensivo. A orientação é clara, se o gargalo atual é largura de banda entre chips, acesso a dados ou reinícios de jobs por instabilidade, a 8t foi planejada para atacar exatamente esses pontos.
![Data center com corredores de racks]
TPU 8i por dentro, a máquina de raciocínio para inferência
Em produção, cada milissegundo conta. A TPU 8i foi otimizada para reduzir latência e escalar throughput de agentes, e a Google destaca quatro inovações, quebrar a parede de memória, hosts Axion baseados em ARM, topologia Boardfly e o mecanismo on chip CAE. Primeiro, a 8i combina 288 GB de memória de alta largura de banda com 384 MB de SRAM on chip, três vezes mais que a geração anterior, para manter o working set ativo do modelo no chip. Segundo, a adoção dos CPUs Axion dobrou hosts físicos por servidor, com arquitetura NUMA para isolar e otimizar caminho de dados. Terceiro, para modelos Mixture of Experts, a banda de interconexão ICI dobrou para 19,2 Tb por segundo e a Boardfly reduz em mais de 50 por cento o diâmetro de rede, aproximando tudo e baixando a latência. Por fim, o Collectives Acceleration Engine move operações globais para hardware dedicado, reduzindo latência on chip em até 5 vezes. O pacote entrega 80 por cento melhor desempenho por dólar que a geração anterior, permitindo quase dobrar o volume de usuários atendidos ao mesmo custo.
O efeito direto para times de produto está em experiências mais fluidas, menos fila entre requisições de agentes e maior previsibilidade de SLO. Em arquiteturas com muitos especialistas, roteamento frequente e caches KV grandes, a combinação de mais SRAM, Boardfly e CAE tende a se traduzir em ganhos perceptíveis de tempo de resposta e throughput sustentado.
![Racks de servidores iluminados em data center]
Rede, topologia e software, Virgo, Boardfly, JAX e vLLM
A história da 8ª geração vai além dos chips. Dois elementos de interconexão aparecem como protagonistas, a rede Virgo e a topologia Boardfly. Para treino, a Virgo sustenta o escalonamento quase linear divulgado para até um milhão de chips em um cluster lógico, uma afirmação ousada que, se confirmada em cargas reais, pode redesenhar critérios de paralelismo de modelos trilionários. Para inferência, a Boardfly encurta caminhos, reduz o diâmetro de rede pela metade e viabiliza que grupos de placas se comportem como um único conjunto coeso de baixa latência.
No software, a compatibilidade nativa com JAX, MaxText, PyTorch, SGLang e vLLM e o acesso bare metal atacam duas dores comuns, overhead de virtualização e fricção de portabilidade. Para quem precisa migrar pipelines de treino existentes e engines de inferência otimizadas, essa abertura encurta o tempo até produção e preserva investimentos anteriores no stack.
Eficiência energética e resfriamento, desempenho por watt como prioridade
Com potência elétrica se tornando o novo gargalo, a Google afirma ganhos de até 2 vezes em desempenho por watt sobre a geração anterior, Ironwood, além de gestão de energia integrada que ajusta consumo em tempo real conforme demanda. A quarta geração de refrigeração líquida ajuda a sustentar densidades de calor que ar não dá conta. A empresa também enfatiza co design do data center com as TPUs, desde a integração de rede no próprio chip, reduzindo custo energético de movimentação de dados, até a arquitetura do prédio. De acordo com a companhia, os data centers atuais entregam seis vezes mais computação por unidade de eletricidade que há cinco anos.
Na prática, eficiência vira variável de negócio. Para áreas financeiras, TCO e capacidade instalada por megawatt passam a ser tão importantes quanto FLOPs. Para engenharia, telemetria e RAS em escala de dezenas de milhares de chips, combinadas com OCS, tendem a melhorar a utilização efetiva, o que impacta custo por experimento e velocidade de iteração.
Disponibilidade, contexto de anúncio e sinal competitivo
O anúncio aconteceu durante o Google Cloud Next 2026 em Las Vegas, com a empresa indicando disponibilidade geral ainda em 2026 e integração com o AI Hypercomputer, o stack que une hardware, software aberto e modelos flexíveis de consumo em uma pilha unificada. Coberturas independentes reforçaram a leitura estratégica, a bifurcação entre treino e inferência endereça diretamente as pressões de custo e latência que definem a próxima fase da corrida de IA em nuvem.
Nesse cenário, o recado vai além do marketing, a Google aposta que agentes, não apenas chatbots, puxarão a demanda de inferência. E, se os números de desempenho por dólar e por watt se sustentarem em produção, a decisão de adotar TPU 8i para grandes bases de usuários pode acelerar. Por outro lado, treinos de modelos de fronteira continuarão exigindo orçamentos significativos e engenharia cuidadosa, onde a 8t quer brigar por tempo de parede, estabilidade e escala de memória.
Como aplicar agora, recomendações por perfil de equipe
- Times de P&D com backlog de experimentos grandes, priorizem a 8t quando o limitante for banda entre chips, tamanho de memória compartilhada e reinícios de job. Mudem o planejamento de checkpoints e considerem sharding de dados aproveitando TPUDirect para alimentar o cluster no ritmo certo.
- Times de produto com SLAs agressivos, priorizem a 8i quando a dor for latência p95 e p99 em caminhos de agentes, caches KV grandes e MoE. Testem ajustes em batch size dinâmico, caching distribuído e roteamento de especialistas para explorar Boardfly e CAE.
- Arquitetos de plataforma, considerem um mix, 8t para treino, 8i para serving, com o AI Hypercomputer orquestrando pools e consumo elástico. Avaliem custos marginais de migração a partir de stacks em PyTorch e vLLM para reduzir atritos.
Reflexões e insights, onde isso nos leva
Duas leituras parecem sólidas. Primeiro, especialização venceu a generalidade no curto prazo. Ao partir a família de TPUs em 8t e 8i, a Google sinaliza que a otimização fina por tipo de carga entrega mais valor que um único chip tentando agradar a todos. Segundo, infraestrutura volta ao centro da estratégia de produto. Agentes de IA viáveis em escala não dependem só de prompts ou parâmetros, dependem de trilhas rápidas de dados, interconexões curtas e energia usada com parcimônia.
Há dúvidas legítimas a acompanhar, quão próximo do linear será o escalonamento em workloads reais até a casa do milhão de chips, como os ganhos de desempenho por dólar variam entre modelos e contextos, e qual o efeito líquido em custos quando combinamos tráfego volátil, governança e observabilidade. Ainda assim, o movimento acelera o setor e pressiona rivais a responderem com clareza sobre latência, eficiência e custo total em produção.
Conclusão
A 8ª geração de TPUs inaugura uma fase mais pragmática na infraestrutura de IA, onde o que vale é reduzir tempo de treino, baixar latência de agentes e entregar mais por dólar e por watt. Com 8t para treino pesado, 8i para inferência crítica e uma pilha que vai do Axion ao resfriamento líquido, a Google encaixa peças para escalar a próxima leva de produtos inteligentes. Resta às equipes decidirem o melhor mix e comprovarem resultados no próprio tráfego.
Vale acompanhar a chegada à disponibilidade geral ainda em 2026, validar métricas em benchmarks independentes e ajustar planos de capacidade. Se os números sustentarem, a pressão por experiências com agentes mais rápidos e baratos vai aumentar, e a concorrência, também.
