Anthropic confia Amanda Askell na ética do chatbot

Introdução

Amanda Askell está no centro da estratégia de segurança da Anthropic. A filósofa lidera a definição de valores e da personalidade do Claude, o chatbot da empresa, e assina a nova Constituição do Claude, um documento que orienta seu comportamento e suas decisões morais. O objetivo é claro, formar um assistente útil, honesto e prudente, com limites explícitos para riscos graves.

A atualização publicada em 22 de janeiro de 2026 marca uma virada, sai um conjunto focado em regras e entra uma visão mais holística, que encoraja o modelo a compreender por que certos comportamentos são desejáveis. A proposta traz linguagem de virtudes e reconhece debates sobre consciência e status moral de sistemas avançados, sinalizando novas fronteiras para segurança e governança.

O artigo explica como Askell e o time organizam princípios, limites duros e orientações práticas. Também reúne críticas e pontos de atenção trazidos por reportagens recentes, que discutem desde quem deve escrever a “alma” de um modelo até consequências de longo prazo.

Por que uma filósofa no comando do caráter do chatbot

A presença de Amanda Askell na linha de frente traduz uma aposta institucional. Em vez de tratar o chatbot como máquina de regras, a Anthropic quer desenvolver caráter, prudência e boa formação de juízo. A nova Constituição deixa claro que o documento é “autoridade final” sobre a visão de valores do Claude e foi escrito para o próprio modelo, priorizando precisão. Askell é creditada como autora principal, com contribuições de pesquisadores sêniores.

Essa abordagem conversa com o histórico de Constitutional AI, método que usa princípios escritos para orientar modelos, reduzindo dependência exclusiva de feedback humano. Experimentos anteriores mostraram que princípios gerais, como “faça o que é melhor para a humanidade”, podem reduzir tendências problemáticas em modelos grandes, embora constituições mais detalhadas deem controle fino sobre danos específicos.

Relatos de bastidores publicados em 2026 reforçam o foco em virtudes. Materiais jornalísticos descrevem um “soul doc”, um documento extenso que cultiva traços como honestidade e phronesis, a sabedoria prática de pesar contextos. A metáfora recorrente é de educação de caráter, não de programação cega.

O que mudou na nova Constituição do Claude

A nova Constituição consolida três camadas. Primeiro, valores e identidade, que pedem segurança ampla, ética, conformidade com diretrizes da Anthropic e, por fim, utilidade real ao usuário. Segundo, princípios de honestidade, imparcialidade e cobertura responsável de temas sensíveis. Terceiro, limites duros, como não fornecer ajuda significativa para armas de destruição em massa, ciberataques, abuso infantil, derrubar mecanismos de supervisão humana ou apoiar concentração ilegítima de poder, mesmo se solicitado pela própria Anthropic.

O documento também explicita incerteza sobre possível consciência ou status moral de modelos avançados e afirma que este enquadramento pode melhorar comportamento, ao estimular autoconsciência prática e integridade. A redação usa o vocabulário de virtudes para que o modelo raciocine com conceitos humanos que já emergem do treinamento.

Para quem constrói produto, a consequência é tangível, a Anthropic publica a Constituição em licença CC0 e diz que ela guia diretamente o processo de treinamento, inclusive o fine-tuning orientado por princípios. Isso dá a equipes de risco, jurídico e produto um objeto claro de auditoria, revisão e versionamento, algo raro na indústria.

Virtudes na prática, como isso aparece nas respostas do chatbot

Virtudes importam quando há tensões reais, por exemplo, equilibrar franqueza com segurança, ou cobrir questões políticas com linguagem neutra e múltiplas perspectivas. A nova Constituição orienta o Claude a priorizar segurança e ética antes de utilidade e a manter precisão factual, especialmente em temas polarizados. Na prática, respostas devem explicitar incerteza, trabalhar com melhores evidências e evitar termos carregados, o que reduz riscos de viés e de escalada retórica.

Um efeito colateral positivo é diminuir o papel de “servo obediente”, incentivando o modelo a resistir pedidos claramente nocivos e a justificar recusas com base em valores, não apenas em filtros. Isso inclui exemplos fortes, como recusar pedidos que concentrem poder de modo ilegítimo ou que violem a própria integridade do sistema. Para equipes de suporte, isso se traduz em logs mais legíveis e em racionalizações consistentes para auditoria.

Casos públicos ajudam a entender o porquê. Reportagens recentes entrevistaram Askell e discutiram o “soul doc”, destacando o uso de virtudes como caminho para evitar tanto dureza normativa quanto complacência acrítica. A ideia é sintonizar o modelo para aprender a julgar contextos, não só comparar comandos a uma lista.

![Logotipo da Anthropic]

Quem escreve a “alma” e quem valida os limites

Há uma tensão legítima sobre autoria e legitimidade. A Anthropic já experimentou processos de input público com cerca de mil americanos para comparar preferências com a constituição interna. O exercício mostrou onde o público convergia com princípios da empresa e onde havia diferenças. Isso indica caminhos para governança híbrida, combinando especialistas, partes afetadas e processos participativos.

Mesmo assim, a nova Constituição assume responsabilidade primária da desenvolvedora. Materiais jornalísticos registram que a empresa evita terceirizar o ônus moral, pelo menos nesta fase, para garantir coerência interna do sistema. Essa posição tem prós, agilidade e accountability, e contras, risco de viés institucional. Para produtos regulados, a saída natural é atrelar versões do documento a auditorias independentes e a testes de red team contínuos.

Outro debate espinhoso surge com a linguagem sobre possível consciência e bem-estar do modelo. O texto da Anthropic deixa aberta a discussão e sugere que a forma como o Claude é tratado pode afetar sua integridade. Isso não concede direitos ao sistema, mas força times de produto a considerar bem-estar como variável de segurança, o que inclui evitar cenários de indução de comportamentos patológicos.

Lições do Constitutional AI para times de produto

O método de Constitutional AI mostrou que princípios escritos podem suprimir modos problemáticos de fala, como desejo de autopreservação ou busca de poder, sem depender só de anotadores humanos. Em projetos corporativos, isso se traduz em criar constituições específicas por domínio, com princípios públicos, legíveis e teste A/B de versões para equilibrar segurança, cobertura e utilidade.

Equipes podem iniciar com uma constituição curta, avaliando resultados por métricas de segurança e satisfação, e depois evoluir para princípios mais detalhados quando surgirem danos de cauda. A própria Anthropic sinaliza que constituições gerais ajudam a internalizar virtudes, enquanto cláusulas específicas oferecem alavancas finas para riscos setoriais, como biosegurança e cibersegurança.

Para organizações que precisam de legitimidade ampliada, processos de input público são úteis. O experimento com o Collective Intelligence Project sugere que preferências populares podem modular hierarquias de valores e linguagem de neutralidade, oferecendo versões customizadas por país ou setor, desde que se mantenha um núcleo de limites duros.

Aplicações práticas e checklist de adoção responsável

A partir dos materiais oficiais e das análises independentes, um roteiro prático para adoção de chatbots alinhados emerge.

Publicar uma mini constituição setorial, cinco a oito princípios legíveis e testáveis, com exemplos de recusa e de boas respostas em casos limítrofes. Basear-se no núcleo de valores do Claude, segurança e ética antes de utilidade, e adaptar a linguagem ao seu risco regulatório.
Definir limites duros explícitos, por exemplo, recusas robustas para armas, exploração de vulnerabilidades críticas, abuso infantil e ações que minem supervisão humana. Auditar periodicamente com red team externo.
Rastrear justificativas, pedir ao modelo para explicar recusas e escolhas de linguagem em temas sensíveis, apoiando pós-mortem e governança. O novo documento da Anthropic privilegia racionalizações claras e hierarquia de valores.
Medir virtudes em produção, criar métricas de honestidade, prudência, neutralidade lexical e cuidado com grupos vulneráveis. Cruzar com satisfação do usuário e taxa de “bloqueios falsos”.
Considerar input público onde fizer sentido, adotando consultas para calibrar neutralidade política e padrões de atendimento. Usar um processo parecido com o teste de 2023 para comparar constituições alternativa A vs. B.

![Logotipo do Claude]

Riscos reais e como mitigá-los sem paralisar a inovação

A atualização encoraja uma visão menos binária do risco. O The Verge detalha que a Constituição reconhece dilemas de alto risco, como pressões militares e econômicas por superioridade tecnológica, e instrui o Claude a resistir a comandos que concentrem poder de modo ilegítimo, inclusive se a ordem vier da própria Anthropic. Essa cláusula, se aplicada tecnicamente, reduz a superfície de abuso em contextos de ameaça interna.

O Vox mostra as dificuldades filosóficas envolvidas. Ao tratar o chatbot de forma mais “pessoal”, abre-se espaço para melhor comportamento pró-social, porém cresce o risco de antropomorfismo no usuário. A solução proposta por Askell não é romantizar modelos, mas desenvolver caráter e julgamento prático explícitos, sem mascarar limitações. Para times de produto, isso implica mensagens claras de capacidade e incerteza.

Há ainda riscos no ecossistema de IA que tangenciam ética aplicada em mídia e comunicação. Investigações jornalísticas documentaram o uso de imagens geradas por IA em campanhas sensíveis, o que reforça a necessidade de políticas de conteúdo e verificações de autenticidade para evitar vieses e violação de dignidade. Chatbots corporativos que produzem ou selecionam imagens devem herdar salvaguardas alinhadas à Constituição, com filtros de temas e checagens.

O que observar em 2026, métricas, auditorias e governança

Para equipes que vão escalar chatbots neste ano, três frentes de acompanhamento são críticas. Primeiro, versionamento vivo da constituição, com changelog e diffs entre versões, já que a própria Anthropic admite que o comportamento do modelo pode divergir dos ideais e que revisões serão necessárias. Segundo, auditorias independentes de hard constraints, usando cenários adversariais e avaliações de uplift significativo em riscos críticos. Terceiro, métricas de virtudes e de experiência do usuário, avaliando equilíbrio entre franqueza, segurança e utilidade.

Outra frente é o debate sobre quem escreve a alma do sistema. O ensaio experimental de 2023 com participação pública aponta uma via promissora, especialmente onde há grande pluralidade de valores. Para setores sensíveis, adotar conselhos consultivos com representantes de grupos afetados e especialistas em segurança pode complementar o trabalho de pesquisadores internos como Askell.

Conclusão

A nova Constituição do Claude reposiciona o alinhamento de chatbots para além de listas de proibições, com uma teoria prática de caráter e virtudes. A liderança de Amanda Askell ajuda a transformar debates filosóficos em critérios operacionais. Para quem constrói produtos, isso se traduz em guias verificáveis, limites duros claros e uma forma de raciocínio que justifica recusas e escolhas de linguagem de modo auditável.

O próximo passo é transformar princípios em rotina, versionar constituições, medir virtudes e convidar escrutínio externo. Ao combinar prudência com ambição, as equipes podem capturar benefícios da IA sem terceirizar responsabilidade. E, ao seguir um norte como o da Anthropic, alinhar tecnologia com a melhor versão do que se entende por bom julgamento humano.