OpenAI lança o FrontierScience benchmark

Introdução

OpenAI lançou o FrontierScience benchmark para avaliar raciocínio científico de alto nível em física, química e biologia. O anúncio foi publicado em 16 de dezembro de 2025 e descreve duas trilhas, Olimpíadas e Pesquisa, além de resultados iniciais de desempenho de modelos como GPT‑5.2.

A importância é direta. À medida que modelos avançam em raciocínio e conhecimento, medir de forma confiável o que conseguem fazer em tarefas científicas reais orienta laboratório, política pública e investimento. O FrontierScience foi escrito e verificado por especialistas das três áreas e pretende preencher lacunas de benchmarks saturados e muito focados em múltipla escolha.

Este artigo aprofunda como o benchmark foi construído, o que mede, os resultados divulgados, as limitações e as implicações práticas para equipes de P&D, universidades e empresas que desejam usar IA como parceira em ciência.

O que é o FrontierScience e por que importa

O FrontierScience avalia capacidades de raciocínio científico em dois eixos. A trilha Olimpíadas reúne 100 questões em formato de resposta curta, escritas por medalhistas de olimpíadas internacionais, visando raciocínio teórico difícil. A trilha Pesquisa reúne 60 subtarefas abertas de pesquisa, criadas por cientistas com PhD, avaliadas por rubrica de 10 pontos que considera etapas intermediárias de raciocínio e não apenas a resposta final. No total, a avaliação completa possui mais de 700 questões textuais, com 160 no conjunto ouro.

Essa proposta surge em um contexto claro. Benchmarks anteriores, como o GPQA, foram fundamentais para medir o gap entre não especialistas, especialistas e modelos, mas seguiram o formato múltipla escolha. No lançamento do GPQA em novembro de 2023, GPT‑4 marcou 39 por cento, abaixo da linha de especialistas por volta de 70 por cento, ilustrando o quanto raciocínio científico robusto exige mais que busca na web. Em 2025, a OpenAI reporta GPT‑5.2 com 92 por cento no GPQA, sinal de saturação de benchmarks do tipo múltipla escolha e necessidade de avaliações mais difíceis e abertas.

Na prática, o FrontierScience dá uma régua mais próxima do trabalho real de laboratório. Em Pesquisa, as tarefas exigem leitura, decomposição de problemas, justificativas e síntese. O uso de uma rubrica objetiva com múltiplos itens e um avaliador automatizado baseado em GPT‑5 permite escalar avaliação, embora com cuidados para calibração e verificação.

Como o benchmark foi construído, critérios e amostras de tarefas

O pipeline de desenvolvimento das tarefas teve quatro etapas, criação, revisão, resolução e revisão final. Cientistas independentes revisaram tarefas uns dos outros para reforçar critérios de factualidade, possibilidade de graduação, objetividade e dificuldade. A OpenAI destaca que houve seleção contra modelos internos, descartando itens que modelos acertavam com facilidade, buscando manter a dificuldade. O conjunto ouro das Olimpíadas e de Pesquisa foi aberto, enquanto outras questões ficaram retidas para monitorar contaminação.

![Gráfico oficial do anúncio do FrontierScience]

Exemplos publicados ajudam a visualizar o nível de exigência. Em química, um problema pede deduzir estruturas intermediárias em uma sequência reacional, incluindo análise de massas molares, estereoquímica e subprodutos, tudo em formato de resposta curta. Em Pesquisa, há prompts que exigem discutir metodologia, propriedades espectroscópicas, relação estrutura-propriedade e comparação com análogos, com justificativas coerentes. Esses exemplos deixam claro que memorização não basta. É preciso argumentação correta, cálculo e compreensão conceitual.

A decisão por uma trilha de resposta curta para Olimpíadas e uma trilha aberta com rubrica para Pesquisa equilibra mensurabilidade e realismo. Múltipla escolha é simples de corrigir, porém aquele formato rapidamente satura e convida a atalhos estatísticos. Já rubricas dão granularidade, mas exigem avaliadores consistentes. O uso de um avaliador automatizado com verificação e rubricas detalhadas é uma tentativa de manter escala e consistência.

![Fluxo do pipeline de desenvolvimento de tarefas do FrontierScience]

Resultados iniciais, o que os números dizem e o que não dizem

Nos resultados divulgados, GPT‑5.2 lidera com 77 por cento na trilha Olimpíadas e 25 por cento na trilha Pesquisa, à frente de outros modelos de fronteira avaliados. O Gemini 3 Pro aparece próximo no conjunto de Olimpíadas, com 76 por cento. A OpenAI também destaca que mais tempo de raciocínio melhora a acurácia, e que ainda há muito espaço para crescer em tarefas abertas.

Cobertura independente reforça esse quadro. Reportagem da Time observou que, apesar do avanço, a performance na trilha Pesquisa permanece distante de um colaborador humano experiente. A matéria destaca o valor do benchmark para mensurar capacidades conforme modelos ficam mais competitivos com cientistas, mas também lembra limites, como amostras menores que dificultam separar modelos com desempenhos próximos e o fato de o conjunto ser texto puro, sem avaliação de habilidades experimentais ou multimodais.

Para equipes que pensam em adoção, esses números sugerem um recado simples. Hoje, modelos podem acelerar partes do trabalho que se parecem com problemas de competição e análises estruturadas, mas ainda não entregam autonomia confiável para pesquisa aberta, em que é preciso formular hipóteses novas, escolher métodos, criticar resultados e decidir próximos passos. Aqui, integração com especialista humano permanece central.

Relação com benchmarks prévios, como o GPQA, e por que isso muda a régua

O GPQA marcou uma virada ao propor perguntas escritas por especialistas e à prova de busca, com desempenho de GPT‑4 em 39 por cento na versão original. Esse resultado, frente a cerca de 65 por cento de especialistas PhD, ajudou a quantificar o gap. A evolução para 92 por cento no GPQA com GPT‑5.2 sugere que tarefas de múltipla escolha foram parcialmente saturadas pelos modelos mais recentes, o que motiva benchmarks mais difíceis, com respostas abertas e rubricas. É exatamente o espaço que o FrontierScience pretende ocupar.

Esse movimento também acompanha uma tendência mais ampla no ecossistema de avaliações. Surgem benchmarks voltados a riscos e capacidades específicas, como bioproteção e red teaming autônomo, que exigem julgamentos mais finos e contextos operacionais. Isso reforça a importância de metodologias de avaliação transparentes, independentes e com governança clara.

Aplicações práticas, como usar os sinais do FrontierScience em P&D

Há quatro aplicações imediatas para times técnicos e de produto.

Priorização de casos de uso. Se o seu pipeline inclui etapas que lembram problemas de Olimpíadas, por exemplo, dedução, cálculo, equilíbrio químico, derivação física e análise de circuitos, modelos de última geração já podem entregar ganhos de velocidade e qualidade sob supervisão. Reserve as partes mais abertas, como definição de hipóteses, desenho de experimentos e interpretação de achados ambíguos, para ciclos humano no comando.
Desenho de avaliações internas. Use a estrutura de duas trilhas como referência. Crie um conjunto de resposta curta, facilmente gradável, para controle de regressões e comparações, e um conjunto de pesquisa com rubrica de 10 pontos que capture decomposição, justificativas e consistência quantitativa. Adote revisão por pares com especialistas e retenha parte do conjunto para monitorar contaminação.
Políticas de tempo de raciocínio. A evidência de que mais tempo de raciocínio melhora resultados indica que vale experimentar níveis crescentes de esforço de raciocínio em tarefas críticas, controlando custo e latência. Acompanhe ganho marginal por token pensado e defina tetos de tempo por nível de criticidade.
Métricas focadas em qualidade, não apenas acerto final. Em tarefas abertas, avalie etapas intermediárias. Erros comuns mapeados na publicação incluem falhas de lógica, cálculos incorretos e desconhecimento de conceitos de nicho. Relatórios de erro com taxonomia padronizada aceleram aprendizagem organizacional.

Limitações, governança e debates sobre avaliação

A própria OpenAI reconhece limitações. O benchmark foca problemas textuais com enunciados restritos, não avalia geração de hipóteses genuinamente novas, nem interação com dados multimodais ou experimentos no mundo físico. Em Pesquisa, a avaliação por rubrica introduz subjetividade residual, ainda que mitigada por critérios objetivos e verificação. Além disso, amostras de 100 e 60 itens por trilha são úteis, porém podem não distinguir modelos com diferenças pequenas.

Outro ponto de atenção no ecossistema é a governança de benchmarks. Discussões de 2025 sobre transparência de financiamento e acesso privilegiado em outras avaliações mostram como percepções de conflito de interesse podem corroer confiança. É prudente que comunidades e empresas adotem disclosure proativo, revisão independente e divisórias claras entre quem desenvolve modelos e quem constrói benchmarks.

Como esse movimento se conecta ao futuro da ciência com IA

A direção é nítida. Há evidências de aceleração em fluxos científicos específicos, como revisão de literatura, provas matemáticas e análise de dados, embora com necessidade de supervisão criteriosa. A publicação da OpenAI cita experimentos de novembro de 2025 com GPT‑5 mostrando ganhos de velocidade em atividades científicas. O FrontierScience tenta medir a capacidade de raciocínio que sustentaria essa aceleração em cenários mais complexos.

Do outro lado, especialistas lembram que a régua final não é o benchmark, é descoberta científica nova e validada. Benchmarks são bússolas, úteis para mensurar progresso e orientar roadmap. Quando modelos aproximarem 100 por cento no conjunto Pesquisa, o papel como colaborador poderá ser mais amplo, mas ainda será necessário domínio humano para formular problemas, validar resultados e decidir rumos.

Checklist prático para equipes que querem se preparar agora

Identifique tarefas com alta estrutura e alta gravabilidade. Comece por elas. Em paralelo, desenhe pilotos com rubrica para tarefas abertas, com supervisão de especialista.
Estabeleça níveis de esforço de raciocínio e políticas de custo tempo. Meça ganhos por nível e ajuste limites.
Construa um comitê de revisão interna de avaliações. Reavalie rubricas trimestralmente, use amostras cegas e auditoria cruzada.
Mantenha governança transparente. Documente datasets, inspirando-se nas discussões recentes sobre conflitos de interesse.
Não ignore benchmarks tradicionais. GPQA ainda é útil para sanity check e regressões, mesmo com sinais de saturação para modelos topo de linha.

Conclusão

O FrontierScience benchmark coloca a régua mais perto do trabalho científico real, combinando uma trilha de Olimpíadas que testa raciocínio estruturado e uma trilha de Pesquisa que exige justificativas e análise de etapas intermediárias. Resultados de 16 de dezembro de 2025 mostram progresso relevante, com GPT‑5.2 à frente, porém com desafios claros nas tarefas abertas, onde colaboração humana permanece indispensável.

O próximo capítulo depende de dois movimentos em paralelo, evolução de modelos de raciocínio e maturidade de avaliações robustas, transparentes e independentes. Medir melhor não substitui a ciência, mas direciona esforços. Em um cenário em que IA promete acelerar descobertas, benchmarks como o FrontierScience funcionam como sinal de progresso e como mapa de onde a pesquisa ainda precisa investir.