Claude lança no-code para testar, medir e refinar skills
Anthropic amplia o Skill Creator com ferramentas sem código para criar evals, rodar benchmarks e ajustar o disparo de skills, tudo com foco em qualidade, velocidade e governança.
Danilo Gato
Autor
Introdução
A Anthropic lançou melhorias no Skill Creator do Claude que colocam ferramentas sem código no centro da criação e manutenção de skills. O pacote inclui evals guiados, benchmarks padronizados, execução multiagente em paralelo e recursos para otimizar descrições e reduzir gatilhos falsos. Tudo disponível a partir de 3 de março de 2026 no Claude.ai, no Cowork, como plugin do Claude Code e também no repositório da empresa.
Para quem precisa entregar qualidade consistente sem viver de tentativa e erro, ferramentas sem código que validam e medem habilidades viram aliadas estratégicas. O movimento coloca práticas de engenharia, como testes e comparações A B, ao alcance de autores de skill que dominam o processo de negócio, mas não necessariamente programação.
Por que este anúncio importa
O conceito de skills no Claude amadureceu rápido desde o lançamento inicial, com casos em empresas como Box, Rakuten e Canva, além de suporte nas ofertas Pro, Max, Team e Enterprise. A proposta é simples, modularizar conhecimento e procedimentos para que um agente generalista execute tarefas com precisão dentro de um contexto real de trabalho. Agora, com ferramentas sem código para testar, medir e refinar, a Anthropic fecha o ciclo de qualidade para esses módulos.
Também existe um contexto maior. A indústria tem corrido para tornar agentes úteis e confiáveis no dia a dia. O recurso Cowork, anunciado recentemente como prévia de pesquisa para macOS e voltado a produtividade sem código, reforça a aposta em fluxos mais autônomos, com integrações a serviços e acesso local controlado. Isso exige mecanismos de teste e medição contínuos, objetivo direto das novas ferramentas sem código do Skill Creator.
O que mudou no Skill Creator
A atualização do Skill Creator adiciona quatro pilares que elevam a governança de qualidade sem exigir código:
- Evals guiados, o autor define prompts de teste, critérios do que é bom e arquivos de apoio, e o Skill Creator informa se a skill se mantém estável. O exemplo oficial cita a correção de posicionamento de texto em PDFs sem campos preenchíveis, identificada por evals que isolaram a falha.
- Benchmark padronizado, rodado sobre os seus próprios evals, com acompanhamento de taxa de aprovação, tempo decorrido e uso de tokens, ideal para medir impactos de mudanças de modelo ou de edição da skill.
- Execução multiagente em paralelo, cada teste em contexto limpo, com métricas independentes de tempo e tokens, e sem contaminação entre casos.
- Ajuste de descrições para disparo confiável, o sistema analisa a descrição da skill contra prompts de exemplo e sugere revisões para reduzir falsos positivos ou negativos. Em um conjunto de skills de criação de documentos, houve melhora de disparo em 5 de 6 skills públicas.
Além disso, o plugin Skill Creator para o Claude Code organiza o ciclo de vida em quatro modos, Create, Eval, Improve e Benchmark, apoiados por agentes especializados, Executor, Grader, Comparator e Analyzer. Esse arcabouço dá trilha estruturada para conceber, avaliar, comparar e otimizar skills de forma iterativa e sem fricção.
![Avaliação e análise de código em laptop, representando testes e benchmarks]
Como aplicar no dia a dia, um roteiro objetivo
- Mapear processos candidatos. Liste fluxos que misturam raciocínio e procedimento repetível, por exemplo, revisão de NDA, ajustes editoriais com guia de marca, coleta semanal de métricas. Essa separação entre uplift de capacidade e preferência codificada ajuda a definir o que e como testar.
- Definir o que é bom. Em cada caso, descreva criteriosamente o resultado esperado. Isso vira a régua do Grader e sustenta comparações A B cegas entre versões de skill.
- Construir evals curtos e variados. Crie um conjunto de prompts que cubram casos típicos, bordas e degenerações conhecidas. Use o modo Eval para rodar, medir e arquivar resultados, que podem integrar painéis ou pipelines de CI.
- Rodar benchmark periódico. Sempre que atualizar o modelo base ou editar a skill, execute o benchmark e compare taxa de aprovação, tempo e tokens. Decisões de rollback, ajustes e refino ficam baseadas em dados, não em percepções esparsas.
- Ajustar o disparo. Use as sugestões do Skill Creator para tornar a descrição precisa o suficiente para disparar quando devido e não disparar fora de contexto. Times que mantêm muitas skills tendem a colher grandes ganhos aqui.
O que são “capability uplift” e “preferência codificada”
A Anthropic diferencia dois tipos de skill que pedem estratégias de teste distintas. Skills de uplift elevam a capacidade do modelo, por exemplo, padrões de escrita avançados ou técnicas de layout. Elas podem se tornar desnecessárias quando o modelo base evolui e passa a cumprir os evals sem a skill carregada. Já as de preferência codificada documentam um fluxo do time e tendem a durar mais, desde que mantenham fidelidade ao processo real, algo que os evals verificam. Ferramentas sem código que tornam essa verificação contínua protegem a qualidade ao longo do tempo.
O pano de fundo, skills como arquitetura de agentes
A Anthropic descreve uma arquitetura clara, com quatro camadas, laço de agente, runtime, MCP para ferramentas e dados, e biblioteca de skills. Separar raciocínio, execução, conectores e conhecimento procedimental torna o sistema compreensível e permite evolução independente de cada peça. Com o Skill Creator, a Anthropic argumenta que profissionais não desenvolvedores conseguem criar a primeira skill em menos de 30 minutos, tendência que ganha tração com ferramentas sem código.

No debate público, pesquisadores da Anthropic têm defendido que o avanço prático não está em multiplicar agentes, e sim em enriquecer um agente generalista com uma biblioteca de skills modulares. Isso dá escala, governança e precisão, especialmente em domínios regulados. Ferramentas sem código para testar, medir e refinar são a infraestrutura que viabiliza essa visão em ambientes de produção.
Como medir direito, aprendizados da pesquisa acadêmica
Avaliar agentes é um desafio notório, com benchmarks que nem sempre refletem o mundo real. Um levantamento abrangente de 2025 mapeou métodos e lacunas, como a necessidade de avaliar custo-eficiência, segurança e robustez, além de criar métricas granulares e escaláveis. Outro trabalho, voltado a uma infraestrutura padronizada, mostrou como paralelizar execuções e inspecionar logs em massa revela comportamentos inesperados. A chegada de ferramentas sem código no Skill Creator dialoga com essas direções, especialmente ao padronizar execuções, paralelizar testes e preservar resultados para auditoria.
Casos práticos para começar agora
- Revisão documental com critérios normativos. Crie evals com documentos sintéticos que cobrem variações de cláusulas e exceções, descreva o checklist de conformidade e rode A B entre versões da skill para mensurar recall e precisão. Ferramentas sem código de benchmark aceleram a iteração sem depender de scripts.
- Geração de relatórios periódicos. Prepare prompts que simulam dados de origem vindos de MCPs, defina critérios de completude e consistência, e acompanhe tempo e tokens no benchmark para otimizar custo.
- Code review guiado por política interna. Modele evals com PRs de exemplo e falhas típicas, use o Comparator para avaliações cegas entre versões da skill, e registre ganhos antes de promover a mudança.
![Código colorido em close, simbolizando análise e refino]
Integração com o ecossistema Claude
As melhorias do Skill Creator funcionam no Claude.ai e no Cowork, que adiciona uma camada operacional sem código no desktop, e podem ser usadas como plugin do Claude Code. Essa continuidade entre web, IDE e macOS reduz atrito de adoção por times multidisciplinares e reforça governança quando várias pessoas contribuem com skills da mesma organização.
Outro detalhe relevante, a Anthropic destaca que muitos autores de skill são especialistas de domínio e não engenheiros. Ao deslocar o centro de gravidade para ferramentas sem código, a barreira de entrada cai, mas a exigência de método sobe. Por isso, evals versionados, benchmarks reproduzíveis e comparações A B viram o padrão operacional, não a exceção.
Boas práticas de governança com ferramentas sem código
- Versione tudo. Trate SKILL.md, evals e resultados como artefatos auditáveis, com histórico e vínculo a mudanças. O Skill Creator guarda resultados localmente e permite integração a painéis e CI, algo essencial para rastreabilidade.
- Separe o que é preferência do que é capacidade. Quando o modelo base passar nos seus evals sem a skill carregada, considere aposentar a skill de uplift. Mantenha as de preferência codificada alinhadas ao processo real, revisitando descrições e exemplos.
- Meça custo e latência. Use o benchmark para observar tokens e tempo por tarefa. Em pipelines de alto volume, ganhos marginais viram economia concreta.
- Rode em paralelo, sempre que possível. A execução multiagente com contextos isolados acelera feedback e evita contaminação entre casos.
- Faça A B cego. Deixe o Comparator julgar saídas sem saber qual versão gerou o resultado. A prática reduz viés e dá sinal mais limpo para promoção de mudanças.
Limitações e pontos de atenção
Ferramentas sem código não substituem pensamento crítico. Evals precisam representar o trabalho real e evoluir junto com o processo. Benchmarks padronizados ajudam a comparar versões e modelos, porém não eliminam a necessidade de inspeção manual e auditoria de logs, algo que a literatura recente reforça ao encontrar comportamentos emergentes e desvios sutis.
No ecossistema Claude, o Cowork ainda está em prévia para macOS e focado em assinantes Max, o que limita o acesso em larga escala por agora. Além disso, como todo ambiente com agentes e integrações, segurança operacional e higiene de prompts seguem fundamentais, especialmente contra injeções e ações ambíguas.
Conclusão
A chegada de ferramentas sem código para testar, medir e refinar skills consolida a tese de que a utilidade prática dos agentes nasce de bibliotecas de conhecimento procedimental bem governadas. Com evals guiados, execução paralela e benchmarks com métricas objetivas, times não técnicos conseguem operar com rigor de engenharia e ganhar previsibilidade em produção.
O próximo passo lógico é transformar descrições e evals na própria especificação viva da habilidade, enquanto os modelos evoluem. Em vez de apostar em mais agentes, a estratégia vencedora tende a ser um agente generalista equipado com um conjunto crescente de skills de alta qualidade, continuamente validadas por ferramentas sem código.
