Mão robótica tocando rede digital, representando agentes de IA em ação
Inteligência Artificial

GPT-5.5 da OpenAI supera Claude Fable 5 no Agents' Last Exam

Benchmark recém-lançado para agentes avalia tarefas longas e valiosas do mundo real. GPT-5.5 fica à frente do Claude Fable 5, apesar de taxas de acerto ainda baixas.

Danilo Gato

Danilo Gato

Autor

12 de junho de 2026
9 min de leitura

Introdução

GPT-5.5 supera Claude Fable 5 no Agents’ Last Exam, o novo benchmark que mede se agentes de IA conseguem executar fluxos de trabalho profissionais de ponta a ponta. A notícia chamou atenção porque, mesmo com a vitória do GPT-5.5, as taxas de acerto seguem modestas, um lembrete de que a automação confiável de tarefas complexas ainda é um desafio.

O Agents’ Last Exam, ou ALE, foi concebido por pesquisadores ligados à UC Berkeley para testar agentes em tarefas longas, com valor econômico mensurável, e resultados verificáveis. Em termos práticos, o ALE busca reduzir atalhos de avaliação e aproximar o desempenho do que acontece em ambientes de trabalho reais.

Ao longo deste artigo, analiso como o ALE foi construído, trago os números que colocaram o GPT-5.5 à frente do Fable 5, discuto limitações metodológicas, comparo com outros benchmarks populares e traduzo essas descobertas em implicações práticas para times de produto, engenharia e operações.

O que é o Agents’ Last Exam e por que ele importa

O ALE avalia agentes de IA em tarefas de “longo horizonte”, ou seja, atividades que exigem múltiplos passos, ferramentas e decisões encadeadas. O objetivo é capturar não apenas conhecimento, mas capacidade de orquestrar ações, navegar interfaces, usar softwares profissionais e entregar saídas verificáveis, como um relatório financeiro, um plano de projeto ou um ativo pronto para produção.

Segundo a descrição oficial, o ALE cobre dezenas de fluxos de trabalho distribuídos por mais de cinquenta ocupações, indo de análises regulatórias a modelagem 3D e desenvolvimento de jogos. A estrutura também enfatiza a mitigação de “atalhos de benchmark”, penalizando comportamentos que dependem de respostas memorizadas ou da extração de gabaritos.

Esse desenho o diferencia de testes tradicionais de linguagem, porque desloca o foco do “acertar respostas” para “fazer o trabalho”. Em contextos corporativos, é justamente essa competência de execução que reduz retrabalho, encurta ciclos e eleva ROI. Para equipes que avaliam adoção de agentes, ter um marcador de performance próximo do chão de fábrica é valioso.

Os números que movimentaram o mercado

Relatos iniciais indicam que o GPT-5.5, executado via o framework de agente Codex, liderou o ALE com uma taxa de aprovação reportada de cerca de 24 por cento, enquanto o Claude Fable 5 ficou em torno de 22 por cento. Ainda que a diferença seja curta, ela contrariou expectativas de parte da comunidade, dado o forte momento do ecossistema Claude.

Em paralelo, um agregador de resultados lista múltiplas combinações de agente e modelo, com variações do GPT-5.5 no topo de um snapshot público do ALE, reforçando a leitura de que o 5.5 está competitivo no recorte “agente com ferramentas e automação de software”. Como toda tabela em evolução, esses números podem mudar conforme mais execuções são adicionadas.

Ponto crítico: mesmo o líder teria acertado apenas uma fração das tarefas. Sinais em matérias correlatas e resumos de resultados destacam que, no corte mais duro, a taxa de sucesso ainda é baixa, um alerta pragmático para quem cogita colocar agentes em rotinas sensíveis sem salvaguardas.

Quem é o Claude Fable 5 e onde ele brilha

O Fable 5 é a mais nova geração de modelo “Mythos-class” da Anthropic, disponibilizada publicamente em 9 de junho de 2026, com avanços expressivos em benchmarks tradicionais, incluindo coding e raciocínio de alta dificuldade. Em alguns testes amplamente citados, o Fable 5 supera antecessores como o Opus 4.8, elevando margens em suites como SWE-bench Verified e GPQA. Isso ajuda a explicar por que muitos esperavam uma vitória folgada do Fable no ALE.

Por outro lado, comparativos recentes lembram que liderança depende do tipo de tarefa e do harness usado. Em avalições como Humanity’s Last Exam com ferramentas, Fable 5 apareceu com vantagem, enquanto em outros cortes de agentes, como o ALE, o pódio ficou com o GPT-5.5 nos primeiros painéis públicos. Em engenharia de produto, a leitura é direta, escolher modelo envolve mapear o trabalho a fazer, as ferramentas, o orçamento e o nível de supervisão exigido.

Como o ALE é montado, o que isso muda na prática

A proposta do ALE é combinar curadoria de especialistas da indústria com instrumentação que valida resultados de ponta a ponta. Em vez de apenas pedir uma resposta textual, o agente precisa abrir apps, manipular arquivos, usar CLIs e UIs diversas e, no fim, entregar um artefato checável. Essa abordagem busca reduzir overfitting a perguntas estáticas e captura melhor a fragilidade das cadeias de ação longas.

Para times técnicos, isso tem implicações táticas. Primeiro, harness importa, muito. As variações de GPT-5.5 com Codex, OpenClaw ou outras camadas de agente apresentam deltas de performance, mostrando que orquestração, ferramentas e recovery strategies pesam quase tanto quanto o modelo base. Segundo, o design do workflow, prompts estruturados e checagens intermediárias elevam taxas de sucesso. Terceiro, a curadoria de tarefas deve refletir casos de uso do negócio, não listas genéricas.

![Mão robótica tocando rede digital, conceito de agentes]

Limitações, controvérsias e o que observar nos próximos dias

Ilustração do artigo

Toda métrica nova cria atrito. Comentários da comunidade apontam que a ausência de alguns modelos ou configurações específicas pode distorcer percepções iniciais, e que a diferença entre 24 por cento e 22 por cento, embora estatisticamente relevante dependendo do N, pede mais repetições, transparência sobre seeds, ambiente e versões de ferramentas. Esse ceticismo é saudável e deve acompanhar qualquer decisão de adoção baseada em benchmarks.

Também vale lembrar que diferentes suites contam histórias distintas. Em famílias de testes como APEX-Agents, focadas em produtividade corporativa com tarefas de consultoria e finanças, o ranking histórico já mostrou modelos de outras casas em primeiro lugar. Em contrapartida, benchmarks como Humanity’s Last Exam, em versões recentes, têm exibido vitórias do ecossistema Claude em cenários de raciocínio com ferramentas. Moral da história, evite conclusões absolutas a partir de um único placar.

Estratégia de adoção, custo e risco, como traduzir o ALE para o seu roadmap

Em ambientes de produção, a pergunta não é só quem venceu, mas o que dá para operacionalizar com segurança. A leitura prática dos resultados do ALE sugere três movimentos imediatos:

  1. Escolher o agente pelo trabalho a fazer. Se o seu fluxo depende de navegar UIs complexas, converter formatos e fazer validações automáticas, priorize harnesses com memória de ações, fallback e verificação de resultados antes do handoff. O snapshot de rankings com diferentes combinações model-plus-agent-harness mostra que a orquestração move a agulha.
  2. Medir em casa. Monte um micro-ALE interno com 10 a 20 tarefas que importam no seu P&L, com ground truth verificável. Avalie GPT-5.5 e Fable 5 nas mesmas condições, inclusive tempo limite, budget de tokens e permissões de ferramentas. Documente erros recuperáveis, erros fatais e custo por tarefa concluída. Essa disciplina frequentemente redefine “melhor modelo”.
  3. Produção com cinto e alça. Use camadas de verificação, limites de escopo, registros detalhados e circuit breakers. Os próprios relatos sobre o ALE deixam claro que, no corte mais difícil, todos os agentes ainda falham bastante. Isso não desqualifica o uso, só define onde entram humanos no loop e automações conservadoras.

Como os resultados se conectam a outras métricas do ecossistema

A vitória do GPT-5.5 no ALE não invalida leituras recentes em que a família Claude aparece no topo em tarefas de raciocínio e provas profissionais específicas, nem muda o fato de que o Fable 5 chegou com números impressionantes em coding, incluindo avanços sobre linhas Opus anteriores. O quadro geral é heterogêneo, e times maduros compõem um “cesto de métricas” que inclui agentes, raciocínio, codegen, tool-use e robustez.

Também é útil observar datas. O Fable 5 foi lançado em 9 de junho de 2026, enquanto o GPT-5.5 circula desde abril em diferentes frentes. A dinâmica de releases, tuning e novos harnesses pode alterar curvas de aprendizado rapidamente nas próximas semanas. Planeje reavaliações trimestrais ou até mensais para cargas críticas.

![Interface de IA em laptop, visual de uso real]

Casos de uso, exemplos aplicados e checklist tático

  • Atendimento com automação guiada. Em vez de soltar o agente livre no CRM, limite a escopo e crie sub-rotas com confirmações explícitas antes de atualizar registros. Compare GPT-5.5 e Fable 5 nas mesmas macros de suporte, e meça abandono de sessão e retrabalho humano. Resultados do ALE servem como proxy do quão bem cada agente lida com interfaces e tarefas longas.
  • Análise regulatória e relatórios. Se o fluxo exige coletar documentos, abrir planilhas, aplicar checklists de conformidade e gerar PDFs, scripts com verificação e logs auditáveis tendem a reduzir erros. A concepção do ALE com outputs verificáveis inspira esse pipeline.
  • Engenharia de dados e ETL leve. Para pipelines de planilhas e CSVs, prefira agentes com capacidade de rollback e testes de sanidade entre etapas. A diferença de poucos pontos percentuais entre 5.5 e Fable 5, em tarefas longas, pode virar irrelevante se o seu harness elevar a robustez.
  • DevTools e automação de IDE. Se a prioridade é codegen assistida e operações dentro do editor, vale lembrar que, em outros benchmarks de coding, o pódio muda de lugar. Não presuma liderança universal, teste na sua base de código e toolchain.

O que acompanhar a partir de agora

  • Novas execuções e réplicas do ALE. À medida que mais rodadas entram no painel público, a vantagem do 5.5 pode encolher, ampliar ou inverter. Benchmarks desse tipo amadurecem com volume e diversidade de runs.
  • Atualizações dos harnesses. Pequenas mudanças em recuperação de erros, memória de passos e uso de ferramentas costumam render saltos significativos. O próprio snapshot com Codex, OpenClaw e variações já sugere sensibilidade alta à orquestração.
  • Lançamentos de modelo. A Anthropic vem iterando rápido na família Claude, e o Fable 5 estreou com força em vários testes clássicos. O lado OpenAI também ajusta versões e latência, o que pode mexer no custo-benefício percebido.

Conclusão

Os primeiros resultados do Agents’ Last Exam colocam o GPT-5.5 na frente do Claude Fable 5 na corrida por agentes que realmente entregam trabalho de ponta a ponta. A diferença é real, mas curta, e vem acompanhada de um lembrete útil, mesmo os líderes ainda erram muito quando as tarefas ficam longas e difíceis. Planejamento, harness bem projetado e verificação contínua valem mais do que apostar tudo em um único vencedor de benchmark.

O recado para equipes é pragmático. Faça medições no seu contexto, trate o ALE como bússola e não como sentença final, e desenhe a adoção de agentes com guard rails claros. Quem fizer isso vai capturar valor cedo, mesmo que o placar entre GPT-5.5 e Fable 5 continue dançando conforme entram novas rodadas e atualizações.

Tags

LLMsbenchmarksagentes de IA