OpenAI lança GPT-5.4, 1M de contexto, melhor código e tools
O novo GPT-5.4 chega com janela de 1 milhão de tokens no Codex e API, ganhos claros em raciocínio, codificação e uso de ferramentas, além de rollout imediato no ChatGPT para planos pagos.
Danilo Gato
Autor
Introdução
O GPT-5.4 foi lançado em 5 de março de 2026 com foco em trabalho profissional, unificando avanços de raciocínio, codificação e fluxos agentic. No Codex e na API, o modelo suporta até 1M de tokens de contexto, um salto relevante para agentes que precisam planejar, executar e verificar tarefas em longos horizontes. No ChatGPT, chega como GPT-5.4 Thinking, com melhorias visíveis em pesquisa web e manutenção de contexto.
Para quem depende de IA no dia a dia, esse lançamento sinaliza maturidade. Há ganhos práticos em planilhas, apresentações e documentos, além de um novo sistema de busca de ferramentas no API que promete reduzir latência operacional de agentes. A disponibilidade e preços já aparecem no anúncio oficial, com rollout imediato em ChatGPT e nomes de modelos no API.
O que é novo no GPT-5.4
O modelo é apresentado como o mais capaz e eficiente da OpenAI para trabalho profissional. No ChatGPT, a variante Thinking agora pode expor um plano inicial de raciocínio durante a geração, permitindo ajustar a direção no meio da resposta e chegar a um resultado mais alinhado com menos iterações. Para desenvolvedores e times técnicos, a combinação de raciocínio com codificação de ponta e uso nativo de computador ajuda a executar fluxos complexos em sites e softwares reais.
No universo de ferramentas, o GPT-5.4 introduz tool search no API, melhorando a escolha e o encadeamento de conectores sem sacrificar inteligência. Em benchmarks internos e públicos, o modelo mostra evolução ampla, como 75,0% no OSWorld-Verified para uso de desktop, 82,7% no BrowseComp para navegação com ferramentas, além de 57,7% no SWE-Bench Pro em código. Esses números sugerem avanço consistente em tarefas que combinam raciocínio, percepção visual e ação.
Janela de 1M de tokens: quando usar e por que importa
A janela estendida até 1M de tokens está disponível no Codex e na API, pensada para agentes e fluxos de longa duração. Na prática, permite que um agente mantenha contexto de grandes bases, cadeias de passos e verificações sem fragmentar o trabalho. A OpenAI destaca que o 1M de contexto é experimental no Codex, requer algumas configurações e que requisições acima do limite padrão de 272K têm taxação de uso em dobro. Para ChatGPT, as janelas do GPT-5.4 Thinking permanecem iguais às do GPT-5.2 Thinking.
Em longos projetos de análise, consolidação de documentos e automações no desktop, esse espaço de contexto reduz orquestração manual. Finance, jurídico e operações que dependem de verificações repetidas em arquivos grandes tendem a se beneficiar, especialmente quando combinadas com o novo uso de computador e percepção de documentos de alta resolução.
Uso de computador e visão: do print ao clique com precisão
O GPT-5.4 é o primeiro modelo generalista da OpenAI com capacidades nativas de computer use. Ele lê capturas de tela e executa cliques por coordenadas, navega em páginas com DOM ou apenas por visão e consegue automatizar rotinas como e-mails e agenda. Em benchmarks, alcança 75,0% no OSWorld-Verified, superando GPT-5.2, e se destaca também no Online-Mind2Web com até 92,8% apenas com observação por screenshot. Esses ganhos vêm acompanhados de melhor percepção visual, com 81,2% no MMMU-Pro sem ferramentas e redução de erro em parsing de documentos no OmniDocBench.
Outro avanço técnico é a nova opção de detalhe de imagem original na API, com suporte a até 10,24 milhões de pixels ou 6 mil pixels por dimensão máxima, além de aumento do nível high. Em testes iniciais, isso elevou a acurácia de localização e entendimento. Para agentes que precisam clicar com precisão em interfaces densas, a fidelidade visual faz diferença direta na taxa de sucesso.
![Exemplo de planilha gerada pelo modelo]
Codificação, agentes e eficiência de tokens
Na frente de código, o GPT-5.4 combina as forças do GPT-5.3-Codex com ganhos em raciocínio e uso de ferramentas. O resultado prático aparece em tarefas de manutenção e correção em bases reais, com desempenho competitivo no SWE-Bench Pro e ganhos de latência nas faixas de esforço de raciocínio. A OpenAI afirma que o modelo consome significativamente menos tokens para resolver problemas quando comparado ao GPT-5.2, o que reduz custo efetivo e acelera a entrega.
Para quem constrói agentes, o novo tool search no API ajuda a encontrar a ferramenta certa em ambientes com muitos conectores. Em cenários corporativos, a soma de planejamento, execução e verificação em janelas extensas e com percepção visual robusta tende a reduzir retrabalho. Esse pacote coloca o GPT-5.4 como opção central para pipelines de automação e copilots internos. Canais como TechCrunch e Axios ressaltaram o foco explícito em tarefas de escritório, incluindo integrações que levam o ChatGPT para planilhas.
Disponibilidade e preços
No dia do anúncio, o GPT-5.4 começou a ser liberado gradualmente no ChatGPT e no Codex. No API, os modelos disponíveis são gpt-5.4 e gpt-5.4-pro. No ChatGPT, o GPT-5.4 Thinking substitui o GPT-5.2 Thinking para usuários Plus, Team e Pro, com a versão 5.2 Thinking permanecendo acessível por três meses na aba de modelos legados e aposentadoria em 5 de junho de 2026. Essas datas e nomes de plano importam para times que precisam planejar transição sem ruptura.

Quanto a preços no API, o anúncio lista valores por 1M de tokens. Para gpt-5.4, o preço de entrada é 2,50 dólares por 1M de tokens de input e 15 dólares por 1M de tokens de output, com cache de input a 0,25 dólares por 1M. Para gpt-5.4-pro, 30 dólares por 1M de input e 180 dólares por 1M de output. Também há modalidades Batch e Flex a metade da tarifa padrão e processamento Priority ao dobro. Esses números reforçam a ideia de que eficiência de tokens do 5.4 pode compensar o preço base maior que o 5.2.
Benchmarks e casos de uso no trabalho do conhecimento
No benchmark GDPval, que simula entregáveis de 44 ocupações em setores que compõem o grosso do PIB americano, o GPT-5.4 empata ou supera profissionais da indústria em 83,0%, contra 70,9% do GPT-5.2. Em tarefas que lembram um analista júnior de investment banking, o 5.4 alcançou média de 87,3%. Em avaliações humanas de apresentações, as saídas do 5.4 foram preferidas em 68,0% dos casos, citando estética e variedade visual. Esses dados sugerem que a curva de polidez de entregáveis foi prioridade.
No jurídico, a startup Harvey reporta 91% no BigLaw Bench, com vantagem em análise transacional e manutenção de acurácia em contratos extensos. Embora resultados internos sempre mereçam leitura crítica, a direção aponta para ganhos em tarefas documentais de alta exigência, onde pequenas alucinações custam caro. Para organizações que operam com governança rígida, esse tipo de métrica, combinado a controles de confirmação no uso de computador, oferece caminhos práticos de adoção controlada.
![Robô em cenário minimalista, adequado para pautas de IA]
Aplicações práticas imediatas
- Automação de planilhas e apresentações: com melhor edição e geração, a equipe financeira consegue versionar cenários, atualizar drivers e validar fórmulas com menos idas e vindas. A OpenAI lançou também um add-in do ChatGPT para Excel e sinalizou integrações com planilhas. Isso simplifica a adoção em times que já vivem no Excel ou Sheets.
- Agentes de backoffice: conciliação de dados em portais, cadastro em massa e monitoramento de tarefas repetitivas se beneficiam do uso de computador com percepção visual de alta fidelidade. Taxas de sucesso maiores em benchmarks de desktop e navegação indicam menos falhas operacionais.
- Desenvolvimento com tool search: em ecossistemas com dezenas de conectores, o modelo encontra e aciona a ferramenta adequada, preservando contexto em tarefas multipasso. Menos tentativas e yields resultam em menor latência efetiva.
Riscos, limites e boas práticas
Apesar dos avanços, ainda existem limites. A própria OpenAI relata que o GPT-5.4 apresenta menor taxa de afirmações factualmente incorretas em prompts de usuários, mas não zera alucinações. Em contextos regulados, políticas de confirmação e validação humana continuam mandatórias. O controle de cadeia de pensamento pelo usuário é classificado como baixo, considerado positivo para monitoramento de segurança. Para cargas imensas com 1M de contexto, é preciso avaliar custo, latência e a estratégia de compactação automática.
A recomendação prática é combinar três elementos: seleção cuidadosa de janelas de contexto, adoção gradual das capacidades de uso de computador com políticas de confirmação customizadas e medição contínua de qualidade, custo e tempo de ciclo. Organizações que versionarem prompts, logs e decisões de agentes tendem a sustentar ganhos sem surpresas.
Como começar, passo a passo
- No ChatGPT: habilitar o GPT-5.4 Thinking no Plus, Team ou Pro, especialmente para tarefas longas de análise, síntese e pesquisa. Para Enterprise e Edu, há early access via configuração do administrador. Anote o prazo de convivência com o GPT-5.2 Thinking até 5 de junho de 2026 para migração suave.
- No API: testar primeiro no gpt-5.4, medindo custo efetivo por tarefa. Em cargas mais críticas, validar o gpt-5.4-pro e ajustar o nível de esforço de raciocínio, além de avaliar Batch, Flex e Priority conforme necessidade de fila.
- Em agentes: ativar o tool search e, quando fizer sentido, uso de computador com políticas de confirmação por risco, além de instrumentação para medir yields e tempo por etapa.
Conclusão
O GPT-5.4 marca uma virada pragmática para quem precisa de IA que entrega. A combinação de raciocínio mais estável, codificação forte, uso nativo de computador e janela de 1M de tokens na API e no Codex abre espaço para agentes mais confiáveis e fluxos mais longos sem perder contexto. Os números em benchmarks e os relatos de parceiros sugerem ganhos reais de produtividade.
Para aproveitar bem, vale começar por casos com dor mensurável, medir custo total por tarefa e amadurecer a governança de agentes. Com isso, o 5.4 deixa de ser apenas um upgrade e vira alavanca de eficiência para times financeiros, jurídicos, operações e engenharia que precisam transformar esforço humano em entregáveis sólidos e auditáveis.
