GitHub Copilot CLI combina modelos para 2ª opinião

Introdução

GitHub Copilot CLI Rubber Duck é o novo recurso que adiciona uma segunda opinião com um modelo de outra família para revisar planos e alterações nos momentos que mais importam. No anúncio oficial de 6 de abril de 2026, a equipe descreve como a combinação entre modelos melhora resultados especialmente em tarefas complexas e de longa duração, com disponibilidade imediata no modo experimental.

A proposta é simples e poderosa. Em vez de pedir que o mesmo modelo avalie o próprio trabalho, o GitHub Copilot CLI chama o Rubber Duck como revisor cruzado. Se o orquestrador é um modelo Claude, o Rubber Duck roda com GPT‑5.4, o que reduz vieses e amplia a chance de capturar armadilhas arquiteturais e bugs sutis antes que elas cheguem ao seu repositório.

O que muda com um revisor cruzado no terminal

Rubber Duck atua como crítico objetivo. O agente secundário lê o plano ou a implementação e devolve uma lista curta de preocupações de alto valor, como suposições arriscadas, pontos cegos e casos de borda. A ativação acontece de duas formas. O Copilot pode chamar automaticamente o revisor em três checkpoints, depois do planejamento, após implementações complexas e depois de escrever testes, antes de executá‑los. Também é possível solicitar a crítica sob demanda a qualquer momento.

Essa mecânica encaixa com a natureza do terminal. No CLI, a cadência de build, test e commit é rápida, e pequenas decisões se acumulam. Um segundo olhar externo funciona como aquela conversa franca de revisão técnica que, feita na hora certa, evita retrabalho e garante foco no que realmente quebra em produção. Além do ganho de qualidade, a experiência preserva o ritmo, já que o Rubber Duck é invocado de forma parcimoniosa, priorizando momentos de alto sinal, sem poluir o fluxo com interrupções.

![Interface do Copilot CLI mostrando a tela de boas‑vindas]

Dados, benchmarks e quando o Rubber Duck mais ajuda

Resultados internos no benchmark SWE‑Bench Pro, um conjunto de tarefas reais e difíceis extraídas de repositórios open source, mostram que combinar famílias de modelos fecha 74,7 por cento do gap entre Claude Sonnet e Claude Opus quando o Sonnet atua com o Rubber Duck rodando GPT‑5.4. O ganho cresce à medida que o problema fica mais desafiador, com cenários que envolvem três ou mais arquivos e cadeias de setenta passos ou mais. Nesses casos, a dupla Sonnet mais Rubber Duck supera o baseline em 3,8 por cento, chegando a 4,8 por cento nas tarefas mais difíceis.

Os exemplos citados pelo time deixam claro o tipo de falha que o revisor cruzado enxerga melhor. Um plano de scheduler que iniciava e finalizava sem executar nenhum job, um loop que sobrescrevia silenciosamente a mesma chave de dicionário em toda iteração, além de um conflito entre arquivos, em que três módulos liam de uma chave Redis que a nova versão parou de gravar. É o tipo de bug sorrateiro que passa no code review apressado e dói quando encontra tráfego real.

Uma leitura de mercado ajuda a contextualizar por que esse padrão tende a se consolidar. Desde 2024, o Copilot assumiu postura multi‑modelo em superfícies como Copilot Chat, abrindo espaço para orquestração entre famílias e escolha de modelos por tarefa. O revisor cruzado no CLI é a consequência natural dessa direção, colocando diversidade de modelos a favor do acerto técnico.

Como começar com o GitHub Copilot CLI Rubber Duck

A funcionalidade está disponível em modo experimental no GitHub Copilot CLI. A instalação do CLI segue o fluxo padrão via extensão do GitHub CLI, e o Rubber Duck aparece quando um modelo Claude é selecionado como orquestrador e existe acesso habilitado ao GPT‑5.4. A ativação e o controle ficam no próprio chat do terminal com o comando de barra, usando o atalho de modo experimental.

Passo a passo prático, começando pelo zero, no ambiente do seu repositório local.

Instalar a extensão Copilot no GitHub CLI. Consulte o guia do próprio GitHub sobre o Copilot CLI e melhores práticas de uso no terminal, inclusive para cenários multi‑repositório.
Habilitar o modo experimental com o comando de barra. Isso libera o Rubber Duck e demais recursos em teste.
No seletor de modelos, escolher um Claude para orquestrar. O Copilot chamará o Rubber Duck com GPT‑5.4 nos checkpoints relevantes ou sob demanda quando solicitado.
Se a equipe usa ganchos e políticas, avalie os hooks do Copilot CLI para registrar prompts, limitar ferramentas e manter conformidade de segurança. Isso reduz surpresas quando o agente executa comandos em pipelines.

Boas práticas para tirar proveito do revisor cruzado

Planejar antes de construir. O maior retorno acontece logo após o plano inicial. Peça ao GitHub Copilot CLI Rubber Duck para criticar o esboço de arquitetura e o plano de passos. Isso evita erro composto no final.
Concentrar a crítica onde o risco é alto. Grandes refatorações, mudanças em contrato público de API e trechos com efeitos colaterais amplos são candidatos óbvios para uma segunda opinião. O próprio anúncio destaca esses pontos como casos com melhor custo‑benefício.
Isolar ferramentas perigosas com hooks. Defina listas de ferramentas permitidas e bloqueadas, registre execuções e proteja segredos no ambiente do time.
Alternar modelos por tarefa. Times que já exploram fluxos multi‑modelo em outras superfícies do Copilot colhem ganhos por especialidade, algo que a imprensa registrou como tendência desde 2024.

Segurança, limites e como calibrar expectativas

Diversidade de modelos reduz vieses, mas não elimina falhas. Estudos acadêmicos continuam apontando riscos objetivos, como geração de trechos com fraquezas conhecidas, abrangendo dezenas de categorias CWE. A presença de um revisor cruzado ajuda a capturar parte disso, porém políticas de segurança, testes e revisão humana continuam essenciais.

No uso diário, times relataram aprendizados importantes sobre o comportamento do Copilot CLI e sobre o valor de ter agentes que planejam, executam ferramentas e editam arquivos com autonomia supervisionada. A própria documentação oficial enfatiza controle por hooks e práticas que mantêm a execução previsível e em conformidade. Esses mecanismos são complementares ao GitHub Copilot CLI Rubber Duck, não substitutos para processos maduros de engenharia.

O que já dá para fazer hoje no seu repositório

Revisar planos de migração. Use o GitHub Copilot CLI Rubber Duck após o planejamento para checar dependências, etapas concorrentes e efeitos em jobs e workers. O caso do scheduler que iniciava e parava sem rodar nada ilustra exatamente esse tipo de armadilha.
Proteger o funil de dados. Antes de executar testes, peça uma crítica sobre cobertura e asserts para identificar lacunas. Um segundo olhar pega loops que derrubam chaves ou silenciam erros, como o exemplo do dict que perdia categorias de busca.
Caçar conflitos cruzados. Quando a mudança envolve múltiplos arquivos, peça que o revisor confira contratos implícitos, como chaves Redis e funções utilitárias. O Rubber Duck foi desenhado para esse tipo de conflito.

![Ilustração do Rubber Duck, revisor cruzado no Copilot CLI]

Integração com tendências mais amplas do Copilot

O Copilot vem ampliando o leque de agentes e modelos no ecossistema, o que se reflete em novidades recentes, por exemplo, a presença de múltiplos agentes e a possibilidade de trabalhar com diferentes famílias de modelos em contextos variados do produto. Esse pano de fundo favorece a ideia de usar diversidade de modelos para obter uma segunda opinião cada vez mais útil.

Ao mesmo tempo, a empresa segue aposentando modelos antigos e priorizando versões mais rápidas e competentes. Para o usuário, isso significa que o combo orquestrador mais revisor tende a evoluir rapidamente, com ajustes de disponibilidade conforme novos modelos entram e outros saem. A estratégia visa manter qualidade e latência estáveis sem obrigar o time a reconfigurar tudo a cada mudança.

Reflexões e insights práticos

Segunda opinião que chega no timing certo vale mais do que um relatório gigante depois do fato. O GitHub Copilot CLI Rubber Duck acerta no tempo, imediatamente após o planejamento, após a implementação complexa, antes de rodar testes. Esse encadeamento corta o custo do erro na origem.
Multi‑modelo não é modismo, é engenharia de risco. Modelos diferentes têm pontos cegos diferentes. Cruzar famílias mitiga viés de treinamento e faz aparecer bug que o primeiro modelo não enxerga. Os dados do SWE‑Bench Pro e os exemplos práticos sustentam essa leitura.
Políticas e automação são o airbag do agente. Hooks, limites de ferramentas e logging dão previsibilidade quando o agente mexe em código e scripts. Para organizações com compliance, isso deixa o Copilot mais auditável.

Conclusão

GitHub Copilot CLI Rubber Duck leva a revisão técnica para dentro do fluxo do terminal, onde cada decisão pesa no build que vai para a integração. Com uma segunda opinião baseada em modelo de outra família, a ferramenta captura problemas que o orquestrador poderia ignorar, elevando qualidade com baixo atrito e dados que comprovam ganho real em cenários complexos.

O caminho adiante aponta para mais diversidade de modelos e para acordos claros de operação, segurança e responsabilidade. Times que combinam o revisor cruzado com políticas de hooks, testes sólidos e revisão humana tendem a colher o melhor dos dois mundos, produtividade de agentes e confiabilidade de engenharia, com o GitHub Copilot CLI Rubber Duck como aliado nas decisões que mais importam.