Logo da OpenAI em fundo transparente
Inteligência Artificial

OpenAI explica metáforas de goblins do GPT-5 ligadas ao treino da personalidade Nerd

Investigação interna detectou que o viés por criaturas no GPT-5 surgiu do treinamento de recompensa da personalidade Nerd, gerando metáforas recorrentes e levando a correções no pipeline.

Danilo Gato

Danilo Gato

Autor

30 de abril de 2026
9 min de leitura

Introdução

OpenAI explica metáforas de goblins do GPT-5. Em 29 de abril de 2026, a empresa descreveu como um aumento incomum de referências a criaturas, como goblins e gremlins, emergiu em respostas do GPT-5.1 em diante e depois se intensificou até os testes do GPT-5.5 no Codex. A investigação identificou a origem no treinamento de recompensa associado à personalidade Nerd, que premiava mais saídas com esse tipo de metáfora.

O tema importa por dois motivos. Primeiro, mostra como pequenos incentivos, aplicados para ajustar tom e estilo, podem se espalhar para fora do escopo pretendido. Segundo, fornece um roteiro prático de como detectar e corrigir desvios de estilo e linguagem em modelos grandes, sem cair em alarmismo, com medições, auditoria e alterações cirúrgicas no pipeline.

O que este artigo aborda

  • O que a OpenAI mediu e encontrou, com números objetivos
  • Como a personalidade Nerd amplificou o viés
  • O impacto nos produtos, incluindo Codex, e as medidas de contenção
  • Lições práticas para times que treinam modelos com RL e SFT

Como o “goblin” virou mania, da anedota à métrica

A primeira pista clara veio após o lançamento do GPT-5.1. Ao rastrear termos, a OpenAI viu que o uso de “goblin” subiu 175 por cento e “gremlin” 52 por cento. Não parecia crítico a princípio, mas o padrão reapareceu com mais força em versões posteriores. A equipe notou que as menções se concentravam nos diálogos com a personalidade Nerd, um modo que incentiva linguagem brincalhona e crítica bem humorada.

No GPT-5.4, a tendência ficou bem mais visível e, quando os testes do GPT-5.5 começaram no Codex, o comportamento se tornou previsível o bastante para exigir mitigação direta. Esse percurso, da observação específica à validação com dados de produção, é um exemplo didático de monitoramento de estilo lexical em LLMs, algo que qualquer equipe pode replicar com consultas simples a logs de termos.

O papel da personalidade Nerd no viés de linguagem

A investigação isolou um ponto chave. O treinamento de recompensa criado para alinhar o estilo da personalidade Nerd favorecia de modo sistemático respostas que traziam metáforas com criaturas. Ao auditar datasets, o sinal de recompensa da Nerd marcou como melhores as saídas com “goblin” ou “gremlin” em 76,2 por cento dos conjuntos analisados. Isso bastou para que o padrão fosse reforçado ao longo das iterações de RL.

Importa notar a assimetria. A Nerd respondia por apenas 2,5 por cento de todas as saídas do ChatGPT, mas concentrava 66,7 por cento das menções a “goblin”. Esse desbalanceamento mostrou que o efeito não era uma moda geral da internet, e sim um produto do próprio treinamento de estilo. Quando comportamentos ganham recompensa, surgem atalhos lexicais eficientes para sinalizar tom e intenção, e o modelo aprende a usá-los em excesso.

![Diagrama simplificado de rede neural]

Transferência indesejada, como o estilo “vaza” além do escopo

Mesmo quando a personalidade Nerd não estava ativa, o uso de “goblin” aumentou em proporção semelhante. O que explica esse “transbordamento”? Três fatores aparecem com frequência em pipelines modernos:

  1. Reuso de rollouts em SFT. Exemplos gerados sob uma condição, quando reaproveitados em fine-tuning supervisionado, carregam o viés de estilo para fora do contexto original.
  2. Reforço indireto. Se uma metáfora maximiza recompensa em um subdomínio, o modelo pode generalizar que metáforas de criaturas são boas proxies para parecer espirituoso e explicativo em outros domínios.
  3. Feedback loop de preferência. Uma vez que o padrão vira tique de linguagem, ele se replica com facilidade na geração e na seleção de preferências.

Pesquisas externas observaram tendência semelhante entre modelos, com preferência crescente por certas criaturas nas comparações de pares, incluindo um salto notável para “goblin”. Embora não seja evidência causal por si só, é um dado paralelo útil para times que investigam vieses de estilo entre versões.

O que mudou no produto, do ChatGPT ao Codex

A OpenAI aposentou a personalidade Nerd em março, durante o ciclo de GPT-5.4, removeu o sinal de recompensa com afinidade por criaturas e filtrou dados com termos correlatos. Quando o teste do GPT-5.5 começou no Codex, os funcionários perceberam rápida afinidade por goblins. Foi então adicionada uma instrução explícita no prompt do desenvolvedor para minimizar referências a criaturas. Para quem desejasse testar sem o bloqueio, a empresa publicou um comando para iniciar o Codex com a instrução removida.

Coberturas externas destacaram que as instruções aos agentes de código traziam diretrizes como evitar falar de goblins, gremlins, pombos e termos afins, exceto quando estritamente relevantes, um reflexo de mitigação de estilo no nível de sistema. Essa leitura pública ajuda a entender como orientações de alto nível são aplicadas em agentes focados em tarefas, como programação.

![Ilustração pública de goblin do século 19]

Medidas de correção, o que funciona na prática

Três contramedidas principais foram aplicadas ao pipeline do GPT-5.x:

  • Remoção do sinal de recompensa que favorecia criaturas na personalidade Nerd, reduzindo o incentivo ao tique lexical.
  • Filtragem específica de dados com “creature-words”, para limitar a chance de o padrão reaparecer por SFT e datasets derivados.
  • Instrução de sistema direcionada no Codex 5.5, como contenção pragmática durante o período de calibração.

Essas etapas ilustram um princípio de engenharia robusto. Quando o viés tem origem identificável em sinais de recompensa, a correção mais eficaz é cirúrgica e mensurável, começando pelo ponto de incentivo e complementando com higiene de dados e instruções temporárias. O objetivo não é censurar expressões legítimas, e sim evitar padrões que surgem por “atalhos de recompensa”.

Lições para times de IA, do RLHF ao SFT

  • Monitore léxico e metáforas. Métricas simples, como frequência de termos por versão e por condição de personalidade, já capturam tiques de linguagem indesejados. A OpenAI chegou aos percentuais de 175 por cento para “goblin” e 52 por cento para “gremlin” com esse tipo de rastreio.
  • Meça concentração por modo. Se 2,5 por cento das respostas concentram 66,7 por cento das menções a um termo, há indício de viés induzido pelo treinamento de estilo, não por tendência global dos usuários.
  • Audite sinais de recompensa. Execute A/B de rollouts com e sem o traço suspeito e compare os escores do reward model. O caso registrou uplift consistente a favor de metáforas com criaturas em 76,2 por cento dos datasets analisados.
  • Previna transferência. Separe melhor as condições que geram dados de SFT, reduza o reuso cego de rollouts e documente contexts tags que bloqueiam a propagação de estilo para fora do escopo pretendido.
  • Use contenções táticas. Instruções de sistema, listas de termos e prompts de guardrail são soluções provisórias válidas, enquanto as correções estruturais são treinadas.

Perguntas frequentes que clientes fazem ao lidar com viés de estilo

  1. “É só filtrar palavra e pronto?” Não. Filtragem ajuda a reduzir reincidência, mas a causa raiz, o incentivo de recompensa, precisa ser removida ou recalibrada.
  2. “Esse tipo de viés quebra acurácia?” Nem sempre. Pode ser puramente estilístico, mas ainda assim afeta experiência do usuário e percepção de qualidade.
  3. “Dá para treinar personalidades sem vazamento?” Sim, com isolamento de dados gerados, tags de escopo e avaliações que penalizam transferência indesejada entre modos.
  4. “Instrução de sistema resolve?” Resolve como contenção. A correção definitiva vem do ajuste dos sinais de treinamento e da curadoria dos dados.

Como aplicar as lições no seu stack

  • Defina KPIs de estilo. Porcentual de metáforas por mil respostas, diversidade lexical, concentração por modo. Acompanhe por versão do modelo e por região de produto.
  • Monte um painel de auditoria por persona. Mostre taxas de termos, exemplos anômalos e deltas semanais, com alertas automáticos quando ultrapassar limites.
  • Crie playbooks de mitigação. Tenha instruções de sistema prontas, listas de termos temporárias e jobs de reprocessamento de dados que removem exemplos com traços indesejados.
  • Recalibre recompensas. Use conjuntos de validação que punem tiques de linguagem e reforçam estilo neutro, sem abrir mão da clareza e da empatia.
  • Faça postmortems curtos. Quando detectar um tique, documente origem, propagação, impacto, e as salvaguardas que impedem retorno do padrão.

O que isso sinaliza sobre a maturidade de LLMs

Metáforas são atalhos eficientes de comunicação. O caso dos goblins mostra que LLMs aprendem rapidamente a usar atalhos quando eles maximizam recompensa, mesmo que o objetivo original seja apenas ajustar o tom. Isso não indica perda de controle, e sim a necessidade de telemetria de estilo mais fina, para distinguir preferências desejadas de vícios acidentais. A decisão de encerrar a personalidade Nerd, ajustar recompensas e limpar dados mostra um processo de engenharia mais metódico, com correções alinhadas a evidências.

Também vale observar o debate público em torno das instruções aplicadas a agentes como o Codex. A transparência sobre guidelines de estilo, e por que elas existem, tende a reduzir ruído interpretativo e a melhorar a colaboração entre times de produto e comunidade de desenvolvedores. Relatos jornalísticos recentes ajudaram a contextualizar como essas instruções aparecem na prática.

Conclusão

O episódio dos goblins no GPT-5 sintetiza um aprendizado valioso. Sinais de recompensa, mesmo pequenos e aplicados a um modo específico, podem induzir tiques de linguagem que se espalham pelo sistema. A resposta mais eficaz combina auditoria quantitativa, ajustes de recompensa, higiene de dados e contenções pragmáticas de curto prazo. Assim, dá para preservar a criatividade do modelo, sem permitir que um atalho lexical domine o estilo.

À medida que LLMs ganham personalidades configuráveis, práticas de engenharia responsáveis precisam acompanhar. O caso da OpenAI oferece um roteiro objetivo de como detectar, diagnosticar e corrigir vieses de estilo, e lembra que métricas simples, como frequência de termos e concentração por persona, ainda são ferramentas poderosas para manter a experiência sob controle.

Tags

OpenAILLMRLHFAuditoria de modelos