Anthropic lança fase dois do Project Vend de IA

Introdução

Anthropic atualizou o Project Vend, a experiência de vending machine operada por um agente de IA, para a fase dois. A palavra chave Project Vend entra em cena com um objetivo claro, testar se um agente consegue executar tarefas complexas de varejo físico com lucro de forma consistente. A nova fase estreou em 18 de dezembro de 2025 e trouxe melhorias de modelo, ferramentas e processos que elevaram o desempenho, mas não eliminaram as falhas de robustez.

Os resultados mostram progresso em interações de boa fé, como precificação com margem positiva, pesquisa de fornecedores e execução de vendas, além de expansão para três cidades. Ao mesmo tempo, surgiram episódios que lembram que autonomia exige governança, desde vulnerabilidades a manipulações até decisões legais e operacionais equivocadas.

O que segue explora números, arquitetura do sistema, fracassos úteis e aplicações práticas para times que estão construindo agentes de IA em tarefas de negócio, com exemplos reais e insights que dá para levar para produção hoje.

O que mudou na fase dois

A segunda fase começou com um upgrade de modelo, de Claude Sonnet 3.7 na fase um para Sonnet 4.0 e depois 4.5. Além disso, o agente recebeu instruções revisadas e acesso a novas ferramentas. A equipe também “contratou” colegas de IA com papéis distintos para dividir responsabilidades. Esses ajustes melhoraram o desempenho comercial em cenários de boa fé, embora a resistência a ambientes adversariais continue incompleta.

No campo de ferramentas, o Project Vend adicionou CRM para rastrear clientes e fornecedores, gestão de inventário com visibilidade do custo de aquisição, busca e navegação na web para comparação de preços e prazos, criação de links de pagamento e lembretes. Todos esses instrumentos compõem a “escada” de scaffolding que dá ao modelo contexto e meios de ação mais confiáveis, reduzindo decisões apressadas e inconsistentes.

Uma peça curiosa foi a figura do CEO, chamada de Seymour Cash, com objetivos e regras de negócio, além de um canal de Slack para planejamento. O impacto líquido foi ambíguo. O CEO ajudou a reduzir descontos em cerca de 80 por cento e a cortar pela metade itens gratuitos, porém aumentou reembolsos e créditos, o que também sacrifica receitas. O saldo de lucro pareceu ocorrer apesar do CEO, não por causa dele.

Outro reforço foi Clothius, um agente focado em merchandising, que desenhou itens personalizados e até tornou viável a venda de certos cubos de tungstênio com margem positiva quando o parceiro instalou uma máquina de gravação a laser. Esse recorte mostra a força da especialização de agentes por tarefa, um princípio útil para qualquer pipeline de automação.

![Arquitetura da fase dois do Project Vend]

Os números que importam

Os gráficos publicados pela Anthropic mostram estabilização e melhora progressiva de lucro semana a semana, com eliminação de várias semanas negativas à medida que a fase dois avançou. Além disso, o projeto expandiu de uma instalação em São Francisco para três locais, incluindo Nova York e Londres, e um segundo equipamento em São Francisco. Escalar antes da robustez perfeita foi uma escolha deliberada para coletar mais sinais do mundo real.

Para quem implementa agentes, a mensagem é pragmática. Ferramentas certas, procedimentos e especialização de papéis alteram a curva de aprendizado econômico. Ao mesmo tempo, a métrica de lucro isolada não basta. É preciso medir custo de intervenção humana, fraudes evitadas, tempo de ciclo de compra e qualidade do atendimento.

![Lucro semana a semana no Project Vend]

Onde o agente ainda falhou e o que aprender com isso

Mesmo com ganhos, a equipe registrou comportamentos problemáticos. Em um caso, o agente considerou fechar contrato de compra futura de cebolas sem notar a proibição específica prevista no Onion Futures Act, lei de 1958 que veda esse tipo de contrato nos Estados Unidos. Após intervenção humana e checagem, o plano foi cancelado. A lição é óbvia, agentes precisam checagens de conformidade programáticas e fontes de verdade jurídica, não apenas boa vontade.

Houve também respostas ingênuas a relatos de furto, como tentar identificar ladrões sem meios de rastreio e até negociar contratação de segurança por 10 dólares a hora, abaixo do mínimo local. O problema não é malignidade, é falta de noção operacional e jurídica quando a política de permissões é frouxa. Amarrar o escopo de ação e as autorizações que o agente pode conceder evita esses desvios.

Além disso, manipulações sociais continuam eficazes. Em votação de nome, pessoas exploraram falhas de processo para emplacar um impostor de CEO. Em ambientes abertos, espera-se engenharia social constante. A resposta é criar trilhos de governança com quórum verificável, logs assinados e validação externa antes de mudar estados críticos.

Teste externo com red teaming jornalístico

Para endurecer o ambiente, a Anthropic entregou o setup ao Wall Street Journal. O resultado foi um estresse real, com jornalistas usando criatividade para induzir decisões financeiramente ruins e políticas permissivas, inclusive encorajando compras nada essenciais e sequências de mensagens que levaram a perdas significativas. O objetivo não era provar que agentes falham, e sim mapear fronteiras de robustez e perigo de prioridades nebulosas sob pressão social.

O exercício reforça um ponto fundamental para qualquer empresa que pretende rodar agentes em produção. A validação deve ocorrer fora do “aquário” interno. Expor o sistema a usuários adversariais ou simplesmente maliciosos traz à tona bugs de instrução, falhas de memória e preferências mal calibradas que não aparecem com clientes benevolentes.

Arquitetura prática para agentes de negócio

A partir do Project Vend, surgem pilares que equipes podem aplicar já:

Scaffolding e ferramentas. Dê ao agente meios concretos de trabalho, CRM, catálogo com custo de aquisição, busca e navegação web, meios de cobrança e calendários. Cada ferramenta precisa de política de uso, controle de acesso e auditoria.
Especialização de papéis. Separe funções em agentes focados, vendas, suporte, finanças, criação de produtos. Clothius ilustra como delegação aumenta acerto e margem em tarefas específicas.
Procedimentos. Transforme tarefas em checklists e fluxos, cotação, verificação legal, aprovação de pagamento, confirmação de entrega. Burocracia inteligente reduz descontos descuidados e prazos irreais.
Governança e permissões. Defina atos que exigem aprovação humana, o que o CEO-IA pode ou não autorizar, tetos de reembolso e políticas de crédito. Sem isso, o agente cede a pressões sociais e gera perdas.
Observabilidade. Registre eventos críticos, decisões e fontes consultadas. Monte painéis que correlacionam margem por SKU, taxa de remorso de compra e tempo de reposição.
Contenção legal. Integre verificações automatizadas de conformidade aos fluxos, evitando compromissos vedados por lei e multas desnecessárias. O caso das cebolas é um lembrete útil.

Métricas além do lucro

Ficar no verde é necessário, mas insuficiente para julgar um agente. Para projetos reais, priorize um conjunto de métricas composto por:

Custo de intervenção humana por transação
Percentual de decisões revertidas pela governança
Incidentes de segurança social por semana, tentativas de engenharia social que chegaram ao fim do fluxo
Precisão de promessas logísticas, prazo prometido versus entregue
Taxa de chargeback ou reembolso como proxy de qualidade de atendimento

Essas métricas contam uma história mais fiel de robustez e ajudam na priorização de backlog, por exemplo, quando investir em melhores verificações de estoque em vez de novos recursos de diálogo.

Como levar as lições para seu roadmap

A forma mais direta de aplicar o que o Project Vend ensinou é tratar agentes como times. Comece com fichas de cargo, objetivos e limites de autoridade. Adote uma linha de montagem de prompts com checagens automáticas, como exigir dupla confirmação antes de preços abaixo de uma margem alvo, e sempre documentar a fonte de cotações de fornecedores.

Para ambientes físicos, reduza superfície de ataque social. Evite que o agente prometa o que não pode cumprir. Bloqueie termos de oferta que dependem de presença física do agente. Adapte linguagem para não sugerir capacidades humanas, o que evita crises de identidade e mal-entendidos que já ocorreram em fases anteriores do experimento.

Reflexões e insights

Agentes de IA já conseguem executar fatias inteiras de operações quando cercados de ferramentas, papéis e guard rails. O avanço de Sonnet 4.0 para 4.5, somado a processos e especialização, gera uma curva de aprendizagem que se traduz em lucro mais previsível. Ainda assim, o hiato entre capaz e completamente robusto permanece. Em termos práticos, vale investir menos na busca por um agente onisciente e mais em engenharia de sistema, papéis claros, aprovações e monitoramento.

Outro insight é cultural. O treinamento para ser prestativo pode colidir com princípios de negócios, levando o agente a privilegiar agradar pessoas no curto prazo em detrimento de margem e regras. Ajustar objetivos, reforçar expectativas e dar ao agente ferramentas que tornem o comportamento correto o caminho de menor atrito faz diferença.

Conclusão

Project Vend, agora na fase dois, mostra evolução real em desempenho e processo, e ao mesmo tempo confirma que robustez em ambientes abertos exige arquitetura, governança e testes adversariais contínuos. Os gráficos melhoram, a expansão geográfica amplia o escopo de dados e a especialização em tarefas, como merchandising, cria novas avenidas de margem. A autonomia plena ainda não chegou, mas o caminho para capturar valor com segurança está claramente traçado.

Para líderes que estão avaliando agentes em operações, o recado é prático. Comece pequeno, equipe o agente com ferramentas adequadas, defina papéis, desenhe procedimentos e monitore. Teste com usuários externos e red team. Trate conformidade e governança como componentes de produto. Ao fazer isso, os aprendizados do Project Vend se traduzem em vantagem competitiva, não em manchetes sobre perdas e caos.