GPT-5.2 Pro faz 31% no FrontierMath Tier 4

Introdução

O GPT-5.2 Pro registrou 31% no FrontierMath Tier 4, de acordo com avaliação publicada pela Epoch AI. A palavra-chave FrontierMath Tier 4 define o recorte mais difícil do benchmark, com 50 problemas de pesquisa elaborados por matemáticos, e a nova pontuação supera a marca anterior de 19%.

Esse salto ocorre em um cenário no qual o GPT-5.2 foi lançado oficialmente em 11 de dezembro de 2025 com três variantes, Instant, Thinking e Pro, e com desempenho de ponta em vários benchmarks, ainda que com pontuação menor no próprio FrontierMath Tier 4 na configuração Thinking. Ou seja, a variante Pro, avaliada manualmente pela Epoch AI, parece entregar ganhos substanciais em problemas de matemática de pesquisa.

Este artigo analisa o que o Tier 4 mede, como a Epoch AI conduziu a avaliação, onde o resultado se encaixa no panorama de benchmarks, e o que isso significa, na prática, para times que constroem produtos, pipelines de agente e fluxos de trabalho que exigem raciocínio matemático confiável.

O que é o FrontierMath e por que o Tier 4 é especial

FrontierMath é um benchmark de centenas de problemas de matemática inéditos e de alta dificuldade, organizados em Tiers 1 a 3, que cobrem do nível de graduação ao início do pós-graduação, e um Tier 4 de nível de pesquisa. Os problemas demandam horas ou dias de trabalho humano, abrangendo áreas como teoria dos números, análise, combinatória, topologia e geometria algébrica.

O Tier 4 foi finalizado em junho de 2025 como um conjunto adicional de 50 problemas projetados para exceder muito a dificuldade dos Tiers 1 a 3. Professores e pós-doutorandos contribuíram, e prêmios foram concedidos às melhores questões por área, reforçando a curadoria acadêmica. É, portanto, um recorte pensado para aproximar a avaliação de desafios de pesquisa reais.

Segundo a própria Epoch AI, o conjunto completo inclui porções públicas e privadas, e há controle de acesso a parte do material. Em Tiers 1 a 3, existem 300 problemas, com 10 públicos e 290 privados, e no Tier 4 há 50, com 2 públicos e 48 privados. Essa separação ajuda a reduzir contaminação e facilita verificações, já que as métricas referem-se prioritariamente aos conjuntos privados.

O resultado de 31%, como foi medido e o que mudou

A Epoch AI publicou que o GPT-5.2 Pro atingiu 31% no FrontierMath Tier 4, acima do recorde de 19%. O time declarou ter feito a avaliação manualmente na interface do ChatGPT, devido a timeouts na API durante a orquestração, e listou pormenores da correção e da distribuição de problemas resolvidos, incluindo ajustes em dois itens após descobrir problemas no enunciado e no avaliador.

No hub de benchmarks, a Epoch AI destaca a atualização de 23 de janeiro de 2026 com o novo recorde, além de um changelog explicando os consertos e a nova versão do benchmark. Esse nível de transparência, incluindo versões e notas, é útil para usuários técnicos que precisam acompanhar reavaliações e mudanças de protocolo.

É importante notar uma nuance. A página oficial da OpenAI reporta, para o GPT-5.2 Thinking, 14,6% no FrontierMath Tier 4 e 40,3% nos Tiers 1 a 3. Já a pontuação de 31% veio da avaliação da Epoch AI para a variante Pro, com configuração de raciocínio intensivo e execução manual. Isso ajuda a explicar a diferença e reforça que comparações válidas exigem alinhar variante, esforço de raciocínio e protocolo de execução.

![Quadro com equações complexas de matemática]

Como o FrontierMath lida com acesso, contaminação e conflitos de interesse

O FrontierMath foi desenvolvido com apoio da OpenAI. A Epoch AI esclarece que a OpenAI encomendou 300 questões para o conjunto principal e 50 para o Tier 4, com acesso aos enunciados e soluções até uma determinada versão, embora um subconjunto de soluções seja retido como holdout, inclusive 20, de um total de 50, no Tier 4. Esse arranjo é explicitamente documentado como conflito de interesse, e a Epoch AI afirma manter independência editorial na publicação de resultados.

A página técnica detalha a divisão entre problemas públicos e privados e enfatiza que, salvo indicação, as métricas referem-se aos conjuntos privados. Isso é especialmente relevante para modelos com acesso antecipado a partes do acervo, dado que a comparação justa depende do holdout. Para quem acompanha benchmarks, o recado é simples, comparar sempre avaliações no mesmo split, com o mesmo esforço de raciocínio e, quando possível, com logs ou verificadores reproduzíveis.

Variantes do GPT-5.2 e implicações práticas

O anúncio oficial do GPT-5.2 lista três variantes, Instant, Thinking e Pro, e descreve ganhos em tarefas profissionais, programação e visão. Na tabela pública, a OpenAI reporta resultados em benchmarks como GDPval, SWE-bench e ARC-AGI, além do próprio FrontierMath. A disponibilidade para usuários e desenvolvedores, assim como os nomes de modelo na API, está documentada. Para equipes que operam cenários de alto raciocínio, a variante Pro e o ajuste de esforço de raciocínio tornam-se peças-chave.

Na prática, a diferença entre Thinking e Pro pode se traduzir em profundidade de cadeia de pensamento, orquestração de ferramentas, latência e custo. Ao migrar pipelines de matemática simbólica, álgebra computacional e verificação de provas, vale medir o trade-off, por exemplo, per-run time, tokens, taxa de sucesso e taxa de verificação automática. Em benchmarks internos e em problemas públicos do FrontierMath, log viewers e verificadores ajudam a padronizar o setup.

Onde o 31% se encaixa no estado da arte e nas tendências

Comparado com o recorde anterior de 19% no Tier 4, o salto para 31% indica um avanço significativo na capacidade dos modelos de atacar problemas de pesquisa com verificadores programáticos. Ainda assim, 31% implica que a maioria dos problemas permanece sem solução por IA, o que corrobora a expectativa de que o Tier 4 serviria como estresse para separar melhorias incrementais de saltos reais. Essa leitura é consistente com a criação do conjunto, que mira questões mais duradouras e com avaliação robusta.

No restante do ecossistema, a própria OpenAI posiciona o GPT-5.2 Thinking como novo estado da arte em outras baterias, inclusive com pontuações expressivas em GPQA Diamond e ARC-AGI. O contraste entre resultados em diferentes benchmarks reforça a necessidade de portfólio de métricas, sem extrapolar de um único número para todas as tarefas. Em particular, matemática de pesquisa exige planejamento, verificação simbólica e exploração, habilidades que nem sempre aparecem em tarefas de múltipla escolha.

![Lousa com fórmulas escritas a giz]

Aplicações práticas, do laboratório ao produto

Triagem de conjecturas e lemas. Em times de P&D, a estratégia é usar GPT-5.2 Pro para gerar esboços verificáveis em problemas com verificador programático, antes de escalar tentativa e erro. Isso reduz custo marginal por insight, desde que existam checagens automáticas, como no FrontierMath.
Ferramentas CAS e prova assistida. Integrar o modelo com bibliotecas de álgebra computacional, como parte de um agente com ferramentas de Python, aumenta a robustez. O protocolo do FrontierMath, que exige uma função answer(), é compatível com esse estilo de automação.
Engenharia de dados e avaliação. Logs detalhados em problemas públicos e verificação offline permitem comparar variantes, sementes e esforços de raciocínio. Times podem reproduzir runs, registrar falhas e medir regressões conforme novas versões do modelo são disponibilizadas.

Limitações e como interpretar o número com cautela

Protocolo de avaliação. A run mais alta foi manual via site, motivada por timeouts na API. Isso não invalida o resultado, mas recomenda reproduções controladas em API, com reintentos e limites padronizados, para confirmar a estabilidade da taxa de acerto.
Split e acesso. Parte do acervo foi comissionado pela OpenAI, e um subconjunto fica em holdout. A Epoch AI documenta o conflito e as salvaguardas, mas o risco de assimetria de conhecimento nunca é zero. Comparações justas pedem o mesmo split privado, além de checks em problemas públicos.
Variância por variante. A pontuação de 14,6% do GPT-5.2 Thinking no Tier 4, no anúncio oficial, mostra que a escolha de variante e esforço de raciocínio altera substancialmente o desempenho. Quem reporta resultados internos precisa especificar essa configuração.

O que observar nos próximos meses

Reprodutibilidade com API. Uma reexecução oficial usando API, controles de timeout e retries poderá consolidar o número de 31% como baseline, além de reduzir dúvidas sobre orquestração manual.
Expansão de problemas e verificação. A Epoch AI abriu uma trilha de Open Problems, com soluções programaticamente verificáveis e curadoria sobre a relevância. Se modelos começarem a marcar pontos nesses itens, haverá implicações científicas mais amplas.
Comparativos com outros modelos. À medida que fornecedores como Google e xAI estabilizam APIs e esforços de raciocínio, novas rodadas no Tier 4 podem alinhar a fotografia competitiva, com notas de rodapé sobre erros de API e limites de tokens devidamente registrados.

Conclusão

O resultado de 31% do GPT-5.2 Pro no FrontierMath Tier 4 marca um avanço palpável em matemática de pesquisa, na medida em que a diferença sobre 19% sugere progresso de verdade, não apenas variação estatística. Ainda assim, a distância para 100% mostra que os gargalos fundamentais do raciocínio matemático orientado a prova permanecem, e que o uso prático deve vir acompanhado de verificadores, logs e comparação entre variantes.

Para times de produto e pesquisa, a leitura pragmática é clara, alinhar variante ao caso de uso, padronizar avaliação, investir em verificação automática e tratar benchmarks como instrumentos, não como fim. O FrontierMath Tier 4 continua sendo um ótimo termômetro para separar hype de capacidade real, e os próximos meses devem trazer novas rodadas que vão consolidar, ou relativizar, a marca de 31%.