GitHub Copilot CLI combina modelos para segunda opinião
Rubber Duck chega como revisor cruzado no GitHub Copilot CLI, usando um segundo modelo para criticar planos e código nos momentos certos, elevando a qualidade sem travar o fluxo
Danilo Gato
Autor
Introdução
GitHub Copilot CLI Rubber Duck é o novo recurso que adiciona uma segunda opinião com um modelo de outra família para revisar planos e alterações nos momentos que mais importam. No anúncio oficial de 6 de abril de 2026, a equipe descreve como a combinação entre modelos melhora resultados especialmente em tarefas complexas e de longa duração, com disponibilidade imediata no modo experimental.
A proposta é simples e poderosa. Em vez de pedir que o mesmo modelo avalie o próprio trabalho, o GitHub Copilot CLI chama o Rubber Duck como revisor cruzado. Se o orquestrador é um modelo Claude, o Rubber Duck roda com GPT‑5.4, o que reduz vieses e amplia a chance de capturar armadilhas arquiteturais e bugs sutis antes que elas cheguem ao seu repositório.
O que muda com um revisor cruzado no terminal
Rubber Duck atua como crítico objetivo. O agente secundário lê o plano ou a implementação e devolve uma lista curta de preocupações de alto valor, como suposições arriscadas, pontos cegos e casos de borda. A ativação acontece de duas formas. O Copilot pode chamar automaticamente o revisor em três checkpoints, depois do planejamento, após implementações complexas e depois de escrever testes, antes de executá‑los. Também é possível solicitar a crítica sob demanda a qualquer momento.
Essa mecânica encaixa com a natureza do terminal. No CLI, a cadência de build, test e commit é rápida, e pequenas decisões se acumulam. Um segundo olhar externo funciona como aquela conversa franca de revisão técnica que, feita na hora certa, evita retrabalho e garante foco no que realmente quebra em produção. Além do ganho de qualidade, a experiência preserva o ritmo, já que o Rubber Duck é invocado de forma parcimoniosa, priorizando momentos de alto sinal, sem poluir o fluxo com interrupções.
![Interface do Copilot CLI mostrando a tela de boas‑vindas]
Dados, benchmarks e quando o Rubber Duck mais ajuda
Resultados internos no benchmark SWE‑Bench Pro, um conjunto de tarefas reais e difíceis extraídas de repositórios open source, mostram que combinar famílias de modelos fecha 74,7 por cento do gap entre Claude Sonnet e Claude Opus quando o Sonnet atua com o Rubber Duck rodando GPT‑5.4. O ganho cresce à medida que o problema fica mais desafiador, com cenários que envolvem três ou mais arquivos e cadeias de setenta passos ou mais. Nesses casos, a dupla Sonnet mais Rubber Duck supera o baseline em 3,8 por cento, chegando a 4,8 por cento nas tarefas mais difíceis.
Os exemplos citados pelo time deixam claro o tipo de falha que o revisor cruzado enxerga melhor. Um plano de scheduler que iniciava e finalizava sem executar nenhum job, um loop que sobrescrevia silenciosamente a mesma chave de dicionário em toda iteração, além de um conflito entre arquivos, em que três módulos liam de uma chave Redis que a nova versão parou de gravar. É o tipo de bug sorrateiro que passa no code review apressado e dói quando encontra tráfego real.
Uma leitura de mercado ajuda a contextualizar por que esse padrão tende a se consolidar. Desde 2024, o Copilot assumiu postura multi‑modelo em superfícies como Copilot Chat, abrindo espaço para orquestração entre famílias e escolha de modelos por tarefa. O revisor cruzado no CLI é a consequência natural dessa direção, colocando diversidade de modelos a favor do acerto técnico.
Como começar com o GitHub Copilot CLI Rubber Duck
A funcionalidade está disponível em modo experimental no GitHub Copilot CLI. A instalação do CLI segue o fluxo padrão via extensão do GitHub CLI, e o Rubber Duck aparece quando um modelo Claude é selecionado como orquestrador e existe acesso habilitado ao GPT‑5.4. A ativação e o controle ficam no próprio chat do terminal com o comando de barra, usando o atalho de modo experimental.
Passo a passo prático, começando pelo zero, no ambiente do seu repositório local.
- Instalar a extensão Copilot no GitHub CLI. Consulte o guia do próprio GitHub sobre o Copilot CLI e melhores práticas de uso no terminal, inclusive para cenários multi‑repositório.
- Habilitar o modo experimental com o comando de barra. Isso libera o Rubber Duck e demais recursos em teste.
- No seletor de modelos, escolher um Claude para orquestrar. O Copilot chamará o Rubber Duck com GPT‑5.4 nos checkpoints relevantes ou sob demanda quando solicitado.
- Se a equipe usa ganchos e políticas, avalie os hooks do Copilot CLI para registrar prompts, limitar ferramentas e manter conformidade de segurança. Isso reduz surpresas quando o agente executa comandos em pipelines.
Boas práticas para tirar proveito do revisor cruzado
- Planejar antes de construir. O maior retorno acontece logo após o plano inicial. Peça ao GitHub Copilot CLI Rubber Duck para criticar o esboço de arquitetura e o plano de passos. Isso evita erro composto no final.
- Concentrar a crítica onde o risco é alto. Grandes refatorações, mudanças em contrato público de API e trechos com efeitos colaterais amplos são candidatos óbvios para uma segunda opinião. O próprio anúncio destaca esses pontos como casos com melhor custo‑benefício.
- Isolar ferramentas perigosas com hooks. Defina listas de ferramentas permitidas e bloqueadas, registre execuções e proteja segredos no ambiente do time.
- Alternar modelos por tarefa. Times que já exploram fluxos multi‑modelo em outras superfícies do Copilot colhem ganhos por especialidade, algo que a imprensa registrou como tendência desde 2024.
Segurança, limites e como calibrar expectativas
Diversidade de modelos reduz vieses, mas não elimina falhas. Estudos acadêmicos continuam apontando riscos objetivos, como geração de trechos com fraquezas conhecidas, abrangendo dezenas de categorias CWE. A presença de um revisor cruzado ajuda a capturar parte disso, porém políticas de segurança, testes e revisão humana continuam essenciais.
No uso diário, times relataram aprendizados importantes sobre o comportamento do Copilot CLI e sobre o valor de ter agentes que planejam, executam ferramentas e editam arquivos com autonomia supervisionada. A própria documentação oficial enfatiza controle por hooks e práticas que mantêm a execução previsível e em conformidade. Esses mecanismos são complementares ao GitHub Copilot CLI Rubber Duck, não substitutos para processos maduros de engenharia.
O que já dá para fazer hoje no seu repositório
- Revisar planos de migração. Use o GitHub Copilot CLI Rubber Duck após o planejamento para checar dependências, etapas concorrentes e efeitos em jobs e workers. O caso do scheduler que iniciava e parava sem rodar nada ilustra exatamente esse tipo de armadilha.
- Proteger o funil de dados. Antes de executar testes, peça uma crítica sobre cobertura e asserts para identificar lacunas. Um segundo olhar pega loops que derrubam chaves ou silenciam erros, como o exemplo do dict que perdia categorias de busca.
- Caçar conflitos cruzados. Quando a mudança envolve múltiplos arquivos, peça que o revisor confira contratos implícitos, como chaves Redis e funções utilitárias. O Rubber Duck foi desenhado para esse tipo de conflito.
![Ilustração do Rubber Duck, revisor cruzado no Copilot CLI]
Integração com tendências mais amplas do Copilot
O Copilot vem ampliando o leque de agentes e modelos no ecossistema, o que se reflete em novidades recentes, por exemplo, a presença de múltiplos agentes e a possibilidade de trabalhar com diferentes famílias de modelos em contextos variados do produto. Esse pano de fundo favorece a ideia de usar diversidade de modelos para obter uma segunda opinião cada vez mais útil.
Ao mesmo tempo, a empresa segue aposentando modelos antigos e priorizando versões mais rápidas e competentes. Para o usuário, isso significa que o combo orquestrador mais revisor tende a evoluir rapidamente, com ajustes de disponibilidade conforme novos modelos entram e outros saem. A estratégia visa manter qualidade e latência estáveis sem obrigar o time a reconfigurar tudo a cada mudança.
Reflexões e insights práticos
- Segunda opinião que chega no timing certo vale mais do que um relatório gigante depois do fato. O GitHub Copilot CLI Rubber Duck acerta no tempo, imediatamente após o planejamento, após a implementação complexa, antes de rodar testes. Esse encadeamento corta o custo do erro na origem.
- Multi‑modelo não é modismo, é engenharia de risco. Modelos diferentes têm pontos cegos diferentes. Cruzar famílias mitiga viés de treinamento e faz aparecer bug que o primeiro modelo não enxerga. Os dados do SWE‑Bench Pro e os exemplos práticos sustentam essa leitura.
- Políticas e automação são o airbag do agente. Hooks, limites de ferramentas e logging dão previsibilidade quando o agente mexe em código e scripts. Para organizações com compliance, isso deixa o Copilot mais auditável.
Conclusão
GitHub Copilot CLI Rubber Duck leva a revisão técnica para dentro do fluxo do terminal, onde cada decisão pesa no build que vai para a integração. Com uma segunda opinião baseada em modelo de outra família, a ferramenta captura problemas que o orquestrador poderia ignorar, elevando qualidade com baixo atrito e dados que comprovam ganho real em cenários complexos.
O caminho adiante aponta para mais diversidade de modelos e para acordos claros de operação, segurança e responsabilidade. Times que combinam o revisor cruzado com políticas de hooks, testes sólidos e revisão humana tendem a colher o melhor dos dois mundos, produtividade de agentes e confiabilidade de engenharia, com o GitHub Copilot CLI Rubber Duck como aliado nas decisões que mais importam.
