Tela de laptop com gráficos e código, representando testes e benchmarks de IA
Inteligência Artificial

Claude lança no-code para testar, medir e refinar skills

Anthropic amplia o Skill Creator com ferramentas sem código para criar evals, rodar benchmarks e ajustar o disparo de skills, tudo com foco em qualidade, velocidade e governança.

Danilo Gato

Danilo Gato

Autor

4 de março de 2026
9 min de leitura

Introdução

A Anthropic lançou melhorias no Skill Creator do Claude que colocam ferramentas sem código no centro da criação e manutenção de skills. O pacote inclui evals guiados, benchmarks padronizados, execução multiagente em paralelo e recursos para otimizar descrições e reduzir gatilhos falsos. Tudo disponível a partir de 3 de março de 2026 no Claude.ai, no Cowork, como plugin do Claude Code e também no repositório da empresa.

Para quem precisa entregar qualidade consistente sem viver de tentativa e erro, ferramentas sem código que validam e medem habilidades viram aliadas estratégicas. O movimento coloca práticas de engenharia, como testes e comparações A B, ao alcance de autores de skill que dominam o processo de negócio, mas não necessariamente programação.

Por que este anúncio importa

O conceito de skills no Claude amadureceu rápido desde o lançamento inicial, com casos em empresas como Box, Rakuten e Canva, além de suporte nas ofertas Pro, Max, Team e Enterprise. A proposta é simples, modularizar conhecimento e procedimentos para que um agente generalista execute tarefas com precisão dentro de um contexto real de trabalho. Agora, com ferramentas sem código para testar, medir e refinar, a Anthropic fecha o ciclo de qualidade para esses módulos.

Também existe um contexto maior. A indústria tem corrido para tornar agentes úteis e confiáveis no dia a dia. O recurso Cowork, anunciado recentemente como prévia de pesquisa para macOS e voltado a produtividade sem código, reforça a aposta em fluxos mais autônomos, com integrações a serviços e acesso local controlado. Isso exige mecanismos de teste e medição contínuos, objetivo direto das novas ferramentas sem código do Skill Creator.

O que mudou no Skill Creator

A atualização do Skill Creator adiciona quatro pilares que elevam a governança de qualidade sem exigir código:

  1. Evals guiados, o autor define prompts de teste, critérios do que é bom e arquivos de apoio, e o Skill Creator informa se a skill se mantém estável. O exemplo oficial cita a correção de posicionamento de texto em PDFs sem campos preenchíveis, identificada por evals que isolaram a falha.
  2. Benchmark padronizado, rodado sobre os seus próprios evals, com acompanhamento de taxa de aprovação, tempo decorrido e uso de tokens, ideal para medir impactos de mudanças de modelo ou de edição da skill.
  3. Execução multiagente em paralelo, cada teste em contexto limpo, com métricas independentes de tempo e tokens, e sem contaminação entre casos.
  4. Ajuste de descrições para disparo confiável, o sistema analisa a descrição da skill contra prompts de exemplo e sugere revisões para reduzir falsos positivos ou negativos. Em um conjunto de skills de criação de documentos, houve melhora de disparo em 5 de 6 skills públicas.

Além disso, o plugin Skill Creator para o Claude Code organiza o ciclo de vida em quatro modos, Create, Eval, Improve e Benchmark, apoiados por agentes especializados, Executor, Grader, Comparator e Analyzer. Esse arcabouço dá trilha estruturada para conceber, avaliar, comparar e otimizar skills de forma iterativa e sem fricção.

![Avaliação e análise de código em laptop, representando testes e benchmarks]

Como aplicar no dia a dia, um roteiro objetivo

  • Mapear processos candidatos. Liste fluxos que misturam raciocínio e procedimento repetível, por exemplo, revisão de NDA, ajustes editoriais com guia de marca, coleta semanal de métricas. Essa separação entre uplift de capacidade e preferência codificada ajuda a definir o que e como testar.
  • Definir o que é bom. Em cada caso, descreva criteriosamente o resultado esperado. Isso vira a régua do Grader e sustenta comparações A B cegas entre versões de skill.
  • Construir evals curtos e variados. Crie um conjunto de prompts que cubram casos típicos, bordas e degenerações conhecidas. Use o modo Eval para rodar, medir e arquivar resultados, que podem integrar painéis ou pipelines de CI.
  • Rodar benchmark periódico. Sempre que atualizar o modelo base ou editar a skill, execute o benchmark e compare taxa de aprovação, tempo e tokens. Decisões de rollback, ajustes e refino ficam baseadas em dados, não em percepções esparsas.
  • Ajustar o disparo. Use as sugestões do Skill Creator para tornar a descrição precisa o suficiente para disparar quando devido e não disparar fora de contexto. Times que mantêm muitas skills tendem a colher grandes ganhos aqui.

O que são “capability uplift” e “preferência codificada”

A Anthropic diferencia dois tipos de skill que pedem estratégias de teste distintas. Skills de uplift elevam a capacidade do modelo, por exemplo, padrões de escrita avançados ou técnicas de layout. Elas podem se tornar desnecessárias quando o modelo base evolui e passa a cumprir os evals sem a skill carregada. Já as de preferência codificada documentam um fluxo do time e tendem a durar mais, desde que mantenham fidelidade ao processo real, algo que os evals verificam. Ferramentas sem código que tornam essa verificação contínua protegem a qualidade ao longo do tempo.

O pano de fundo, skills como arquitetura de agentes

A Anthropic descreve uma arquitetura clara, com quatro camadas, laço de agente, runtime, MCP para ferramentas e dados, e biblioteca de skills. Separar raciocínio, execução, conectores e conhecimento procedimental torna o sistema compreensível e permite evolução independente de cada peça. Com o Skill Creator, a Anthropic argumenta que profissionais não desenvolvedores conseguem criar a primeira skill em menos de 30 minutos, tendência que ganha tração com ferramentas sem código.

Ilustração do artigo

No debate público, pesquisadores da Anthropic têm defendido que o avanço prático não está em multiplicar agentes, e sim em enriquecer um agente generalista com uma biblioteca de skills modulares. Isso dá escala, governança e precisão, especialmente em domínios regulados. Ferramentas sem código para testar, medir e refinar são a infraestrutura que viabiliza essa visão em ambientes de produção.

Como medir direito, aprendizados da pesquisa acadêmica

Avaliar agentes é um desafio notório, com benchmarks que nem sempre refletem o mundo real. Um levantamento abrangente de 2025 mapeou métodos e lacunas, como a necessidade de avaliar custo-eficiência, segurança e robustez, além de criar métricas granulares e escaláveis. Outro trabalho, voltado a uma infraestrutura padronizada, mostrou como paralelizar execuções e inspecionar logs em massa revela comportamentos inesperados. A chegada de ferramentas sem código no Skill Creator dialoga com essas direções, especialmente ao padronizar execuções, paralelizar testes e preservar resultados para auditoria.

Casos práticos para começar agora

  • Revisão documental com critérios normativos. Crie evals com documentos sintéticos que cobrem variações de cláusulas e exceções, descreva o checklist de conformidade e rode A B entre versões da skill para mensurar recall e precisão. Ferramentas sem código de benchmark aceleram a iteração sem depender de scripts.
  • Geração de relatórios periódicos. Prepare prompts que simulam dados de origem vindos de MCPs, defina critérios de completude e consistência, e acompanhe tempo e tokens no benchmark para otimizar custo.
  • Code review guiado por política interna. Modele evals com PRs de exemplo e falhas típicas, use o Comparator para avaliações cegas entre versões da skill, e registre ganhos antes de promover a mudança.

![Código colorido em close, simbolizando análise e refino]

Integração com o ecossistema Claude

As melhorias do Skill Creator funcionam no Claude.ai e no Cowork, que adiciona uma camada operacional sem código no desktop, e podem ser usadas como plugin do Claude Code. Essa continuidade entre web, IDE e macOS reduz atrito de adoção por times multidisciplinares e reforça governança quando várias pessoas contribuem com skills da mesma organização.

Outro detalhe relevante, a Anthropic destaca que muitos autores de skill são especialistas de domínio e não engenheiros. Ao deslocar o centro de gravidade para ferramentas sem código, a barreira de entrada cai, mas a exigência de método sobe. Por isso, evals versionados, benchmarks reproduzíveis e comparações A B viram o padrão operacional, não a exceção.

Boas práticas de governança com ferramentas sem código

  • Versione tudo. Trate SKILL.md, evals e resultados como artefatos auditáveis, com histórico e vínculo a mudanças. O Skill Creator guarda resultados localmente e permite integração a painéis e CI, algo essencial para rastreabilidade.
  • Separe o que é preferência do que é capacidade. Quando o modelo base passar nos seus evals sem a skill carregada, considere aposentar a skill de uplift. Mantenha as de preferência codificada alinhadas ao processo real, revisitando descrições e exemplos.
  • Meça custo e latência. Use o benchmark para observar tokens e tempo por tarefa. Em pipelines de alto volume, ganhos marginais viram economia concreta.
  • Rode em paralelo, sempre que possível. A execução multiagente com contextos isolados acelera feedback e evita contaminação entre casos.
  • Faça A B cego. Deixe o Comparator julgar saídas sem saber qual versão gerou o resultado. A prática reduz viés e dá sinal mais limpo para promoção de mudanças.

Limitações e pontos de atenção

Ferramentas sem código não substituem pensamento crítico. Evals precisam representar o trabalho real e evoluir junto com o processo. Benchmarks padronizados ajudam a comparar versões e modelos, porém não eliminam a necessidade de inspeção manual e auditoria de logs, algo que a literatura recente reforça ao encontrar comportamentos emergentes e desvios sutis.

No ecossistema Claude, o Cowork ainda está em prévia para macOS e focado em assinantes Max, o que limita o acesso em larga escala por agora. Além disso, como todo ambiente com agentes e integrações, segurança operacional e higiene de prompts seguem fundamentais, especialmente contra injeções e ações ambíguas.

Conclusão

A chegada de ferramentas sem código para testar, medir e refinar skills consolida a tese de que a utilidade prática dos agentes nasce de bibliotecas de conhecimento procedimental bem governadas. Com evals guiados, execução paralela e benchmarks com métricas objetivas, times não técnicos conseguem operar com rigor de engenharia e ganhar previsibilidade em produção.

O próximo passo lógico é transformar descrições e evals na própria especificação viva da habilidade, enquanto os modelos evoluem. Em vez de apostar em mais agentes, a estratégia vencedora tende a ser um agente generalista equipado com um conjunto crescente de skills de alta qualidade, continuamente validadas por ferramentas sem código.

Tags

ClaudeAnthropicAgentes de IANo-codeAvaliação de modelos