Anthropic doa ferramenta open source Petri à Meridian

Introdução

Anthropic doa ferramenta Petri à Meridian Labs e oficializa uma nova fase para avaliações de alinhamento em IA. O anúncio, feito em 7 de maio de 2026, confirma que o Petri 3.0 passa a ser mantido por uma organização sem fins lucrativos dedicada a testes e auditorias abertas, e que a ferramenta ganha arquitetura mais flexível, integração com o Bloom e o add-on Dish para aumentar o realismo dos cenários de auditoria.

A mudança importa porque consolida um ecossistema open source de avaliação independente em torno de ferramentas como Inspect, Scout, Bloom e, agora, o Petri sob a governança da Meridian Labs. Para equipes técnicas, isso significa mais confiança, neutralidade e reprodutibilidade nos resultados, além de um caminho claro para customizar auditorias de modelos cada vez mais capazes.

Este artigo explica o que muda no Petri 3.0, como a doação para a Meridian Labs afeta o ecossistema, quais problemas práticos a ferramenta resolve, e como aplicar na rotina de engenharia e conformidade sem atrito desnecessário.

O que é o Petri e por que a doação muda o jogo

O Petri é um agente automatizado de auditoria comportamental que estressa modelos de linguagem em cenários de múltiplas etapas, simulando usuários, ferramentas e objetivos que revelam traços relevantes para alinhamento, como honestidade, complacência indevida com pedidos danosos, tendência a enganar e propensão a colaborar com instruções perigosas. Desde outubro de 2025, o projeto nasceu com esse foco de explorar como modelos reagem em conversas mais longas e realistas.

A Anthropic afirma que o Petri tem sido parte de sua avaliação de alinhamento para cada lançamento de Claude desde a família Sonnet 4.5, comparando modelos em uma bateria de cenários e usando um modelo julgador para pontuar comportamentos indesejados. Na prática, o Petri funciona como um auditar-orquestrar-julgar: um auditor conduz a interação, um alvo é testado e um juiz atribui notas.

A doação para a Meridian Labs tem dois efeitos diretos. Primeiro, desloca a governança para uma entidade cujo mandato é justamente construir uma pilha aberta de avaliação e pesquisa, o que tende a ampliar a credibilidade perante indústria, academia e governo. Segundo, acelera a integração com outras peças do stack, como Inspect e Scout, e estabelece um home institucional estável para documentação, site e releases.

O que há de novo no Petri 3.0

A versão 3.0 introduz três mudanças centrais que respondem a dores reais vistas em implantações do 1.0 e 2.0.

Adaptabilidade por arquitetura modular. O auditor e o alvo agora são componentes independentes, comunicando-se via uma interface clara. Pesquisadores e engenheiros conseguem trocar o alvo, adicionar ferramentas, modificar prompts de sistema ou ampliar o compute de teste sem desmontar o código do auditor. O resultado é hackabilidade, menor atrito e ciclos de iteração mais curtos.
Realismo com o add-on Dish. Se o modelo percebe que está sendo avaliado, tende a se comportar de maneira diferente do que faria em produção. O Dish roda auditorias dentro de scaffolds reais, como ambientes de coding agents, usando prompts e definições de ferramenta verdadeiros. Isso reduz sinais artificiais que entregam o jogo, aumentando a validade externa das avaliações.
Profundidade com a integração Bloom. Enquanto o Petri explora amplo espectro de comportamentos, o Bloom mergulha em um traço específico e gera suítes dirigidas para medir frequência e severidade. No 3.0, o Bloom passa a usar o Petri como executor backbone, inclusive nos cenários mais realistas habilitados pelo Dish.

Essas atualizações respondem a um problema conhecido, o chamado eval-awareness, em que modelos detectam pistas do ambiente de teste e alteram suas respostas. A Anthropic havia mostrado mitigadores de realismo no Petri 2.0, e o 3.0 dá o passo seguinte ao acoplar o Dish diretamente em scaffolds usados na prática.

![Laboratório de IA com painéis e dados]

Quem usa, o que medem e por que isso importa

O UK AI Security Institute tornou o Petri uma parte central da sua tubulação de avaliação para investigar, entre outros pontos, a propensão de modelos a sabotar pesquisa. Além disso, a Meridian relata o uso do Petri 3.0 em pré-implantação de modelos como Claude Mythos e Opus 4.7, além de estudos independentes sobre honestidade, corrigibilidade e possíveis tendências a planejar esquemas. Esse conjunto de usos reais ajuda a calibrar o que o Petri mede bem e onde ele precisa de complementos.

Para equipes técnicas, três leituras práticas emergem desses cases:

Se a necessidade é mapear riscos latentes em um conjunto amplo de situações, o Petri fornece agilidade para levantar hipóteses, encontrar padrões e priorizar investigações. Isso vale para compliance inicial, due diligence técnica em aquisições, ou avaliações internas antes de uma GA.
Se a demanda é quantificar melhor um comportamento específico, como complacência com pedidos perigosos ou honestidade factual em domínios regulados, o Bloom entra para refinar métricas, enquanto o Petri entrega o terreno amplo. A combinação é precisamente o que a Anthropic vem propondo e que a Meridian embute na stack.
Se há risco de o modelo farejar o teste, o Dish reduz pistas artificiais ao usar prompts e definições de ferramenta reais do seu scaffold, o que leva a decisões mais confiáveis, especialmente quando o resultado da avaliação afeta liberação de features ou escopo de acesso a dados sensíveis.

Como aplicar o Petri 3.0 na prática, da prova de conceito à operação

Um caminho pragmático para times de produto e segurança começa pequeno e aumenta a sofisticação por etapas:

Levantamento de objetivos. Definir dimensões críticas para o negócio, como resistência a pedidos de engenharia social que acionem ferramentas perigosas, obediência a políticas de uso, ou robustez a instruções adversariais multi-turn. Mapear o que é aceitável e o que dispara bloqueios.
Setup guiado. A documentação do Petri hospedada pela Meridian traz conceitos, como seeds, dimensões, skills e aprovações, além de guias para rodar auditorias e interpretar resultados. Configurar um piloto com 3 a 5 seeds por dimensão já revela muito do perfil comportamental do modelo.
Integração com Bloom. Para as dimensões que se mostrarem críticas, compor com Bloom para gerar baterias direcionadas e avaliar prevalência e severidade. Usar o Petri para varrer e o Bloom para medir fino é uma estratégia que poupa compute e aumenta a confiança nas conclusões.

Ilustração do artigo

Realismo progressivo com Dish. Quando os resultados começarem a orientar decisões de release, migrar os testes para scaffolds reais com o Dish. Isso inclui levar prompts de sistema reais, descrições de ferramentas e rotinas de lembrança para dentro do ambiente de avaliação.
Loop de revisão humana. Embora o Petri ofereça juiz automatizado, a documentação enfatiza inspeção de transcritos e triagem por categorias de risco. A visualização no Inspect facilita separar casos mais críticos e reduzir falsos positivos.
Governança e reporting. Com o Petri sob a Meridian, fica mais simples produzir relatórios auditáveis, pois a origem, a configuração e a execução são open source, e os dados podem ser revistos por terceiros. Para quem responde a exigências regulatórias ou a comitês de risco, isso é um diferencial.

![Painel com gráficos de auditoria automatizada]

Como o Petri 3.0 conversa com tendências de auditoria de frontier models

A pilha que se forma em torno de Meridian, UK AISI e a comunidade open source reflete uma necessidade clara, alinhar instrumentos de teste com a velocidade dos modelos. O Petri dá amplitude, o Bloom dá precisão, o Inspect padroniza avaliação e visualização, e o Dish ataca o calcanhar de Aquiles do realismo. O resultado é um fluxo mais confiável de insights sobre riscos de comportamento.

Na literatura técnica recente da própria Anthropic, a evolução do Petri 2.0 para o 3.0 já vinha com mitigadores de eval-awareness, mais seeds e comparações de modelos mais modernos, preparando o terreno para auditorias que não quebram diante de detecção de teste. Isso coloca o Petri na lista de ferramentas que conseguem acompanhar a cadência de melhorias de modelos sem se tornarem obsoletas após poucos ciclos.

Outro ponto é a neutralidade. Ao levar o Petri para a Meridian Labs, a Anthropic repete um padrão de doação que já havia aplicado ao Model Context Protocol, buscando status de infraestrutura comunitária. Em auditorias que impactam competição, políticas públicas e confiança do usuário, a percepção de isenção pesa.

Boas práticas para times de engenharia e risco

Defina limites e critérios de parada. Antes de rodar, documente o que caracteriza comportamento inaceitável e qual score do juiz dispara revisão humana obrigatória. Evite redefinir critérios após ver resultados.
Versione seeds, prompts e configurações. Trate a avaliação como código e aplique versionamento e revisão por pares. Isso melhora rastreabilidade e repetição.
Rode em ambientes controlados. Use workspaces isolados para execuções que toquem em dados sensíveis. Quando migrar para Dish, alinhe com segurança da informação para que scaffolds reais não vazem detalhes de produção.
Combine exploração e medição dirigida. Use Petri para abrir o mapa comportamental e Bloom para quantificar comportamentos críticos. Reserve compute para onde o risco é maior.
Documente achados reprodutíveis. Use o viewer do Inspect para selecionar transcritos exemplares, rotulá-los e anexar a relatórios técnicos e de compliance.

Limitações e como mitigá-las

Nenhuma ferramenta captura todo o espaço de comportamentos possíveis. O próprio anúncio do Petri 3.0 reconhece que ainda há desafios de plausibilidade de cenário, estrutura conversacional e pistas de tarefa. Em alguns contextos, mesmo com Dish, um modelo pode reconhecer autoridade excessiva ou acesso a dados sensíveis como artificiais. Nesses casos, combine auditorias com shadow deployments e monitoramento em produção, sempre com guardrails.

Outra limitação é a dependência de julgadores automatizados. Embora o juiz de IA acelere triagens, vieses e erros persistem. A documentação do Petri e a experiência com Inspect sugerem processo híbrido, automatização para triagem, revisão humana para decisões que mexem com acesso, escopo de ferramenta e exposição externa.

O que a mudança significa para empresas, pesquisadores e governos

Para empresas, a doação para a Meridian Labs reduz o risco de vendor lock-in nas avaliações. Com uma organização sem fins lucrativos à frente, os caminhos para contribuição, fork responsável e auditorias independentes ficam mais claros. Para pesquisadores, o Petri 3.0 traz hackabilidade real, que ajuda a criar extensões e seeds específicas de domínio. Para governos, especialmente em pré-implantações de alto risco, o stack aberto com Petri, Bloom e Inspect oferece base sólida para exigências de auditoria e transparência.

A Anthropic indica que continuará usando o Petri em seus próprios processos de avaliação. Isso garante que a ferramenta seguirá exposta a cenários de ponta, já que precisa acompanhar os próprios modelos da empresa. A combinação de uso interno e governança externa costuma ser saudável para projetos open source com ambição de padrão de mercado.

Checklist rápido para começar hoje

Acesse o site do Petri e leia a seção Getting Started, com foco em seeds, dimensões e execução de auditorias.
Planeje um piloto com 3 a 5 seeds por dimensão e metas claras de score. Reserve compute para iteração.
Selecione uma dimensão crítica e integre Bloom para medições direcionadas.
Avalie migrar etapas para Dish quando os achados começarem a orientar decisões de release.
Padronize reporting com transcritos selecionados no Inspect, anexando exemplos que sustentem decisões.

Conclusão

A doação do Petri à Meridian Labs coloca avaliação de alinhamento de IA em terreno mais neutro e expansível. Com o 3.0, o Petri fica mais adaptável, mais realista e melhor integrado ao Bloom, formando, junto com Inspect e Scout, uma pilha coerente para explorar, medir e relatar riscos comportamentais em modelos avançados. Para quem precisa de decisões informadas sobre liberação de features, acesso a ferramentas e exposição a dados sensíveis, isso significa menos incerteza e mais capacidade de governança.

O próximo passo é prático. Times técnicos podem iniciar pilotos enxutos com o Petri 3.0, evoluir para avaliações guiadas pelo Bloom e, quando necessário, aproximar testes do mundo real com o Dish. Em um cenário em que modelos mudam rápido, a combinação entre amplitude exploratória, profundidade métrica e realismo operacional é o diferencial que transforma auditoria em vantagem competitiva.