Alibaba lança Qwen3-Coder-Next, 80B para agentes de código
Qwen3-Coder-Next chega com 80 bilhões de parâmetros totais e apenas 3 bilhões ativos por token, prometendo mais eficiência e melhor experiência para agentes de código, conforme anúncio do Qwen no X.
Danilo Gato
Autor
Introdução
Qwen3-Coder-Next coloca a palavra chave em destaque. O modelo foca em agentes de código, vem com 80 bilhões de parâmetros totais e ativa apenas cerca de 3 bilhões por token, combinando eficiência com escala. A proposta é entregar desempenho competitivo para automações de desenvolvimento, mantendo custos sob controle.
Anunciado como parte da família Qwen3-Next e divulgado pelos canais oficiais do time Qwen no X, o lançamento dialoga com uma tendência clara, modelos com arquitetura híbrida e MoE esparso para acelerar treinamento e inferência, sem sacrificar qualidade. Além do foco em programação, a base técnica vem da linha Qwen3-Next, já validada por parceiros como a NVIDIA.
O artigo aprofunda o que muda com o Qwen3-Coder-Next, por que os 80B com 3B ativos importam, como isso se traduz em agentes mais autônomos e que resultados esperar em cenários práticos, de refatoração a correção de bugs e integração com ferramentas.
O que é o Qwen3-Coder-Next e onde ele se encaixa
Qwen3-Coder-Next é a variante para código da série Qwen3-Next, construída sobre a arquitetura que combina Gated DeltaNet e Gated Attention com Mixture of Experts altamente esparso. No Coder-Next-Base, são 80B parâmetros totais, com cerca de 3B ativos por token durante a geração, e janela de contexto nativa de 262.144 tokens. É uma receita que busca throughput elevado e custo menor, mantendo precisão em tarefas de software.
Para contexto, Qwen3-Next, a família base, trouxe ganhos expressivos de eficiência e suporte a contextos muito longos. Em lançamentos de 2025, o time e parceiros destacaram 10 vezes mais throughput acima de 32K tokens, além de equivalência ou vantagem frente a modelos densos maiores, graças à combinação de atenção híbrida e MoE esparso. Esse legado técnico chega agora direcionado a agentes de programação.
Na árvore de produtos Qwen, a linha Coder evoluiu ao longo de 2024 e 2025, com repositório e relatórios técnicos públicos. O Coder-Next representa a nova geração dentro desse foco, ajustando a arquitetura de próxima geração do Qwen3-Next aos requisitos de engenharia de software, agentes e ferramental de desenvolvimento.
A arquitetura por trás do salto de eficiência
A principal diferença está no desenho híbrido. Em vez de uma única atenção densa, o Qwen3-Coder-Next usa blocos que alternam Gated DeltaNet e Gated Attention, intercalados com camadas MoE com alta esparsidade. O arranjo informado pelo time Qwen inclui 48 camadas organizadas em 12 blocos, com 512 especialistas no MoE, 10 roteados mais 1 compartilhado por token, e parâmetros de atenção e dimensão embutidos otimizados para velocidade e estabilidade. O objetivo é ativar um subconjunto mínimo a cada passo, mantendo a capacidade total para tarefas difíceis.
Esse design já havia sido descrito na linha Qwen3-Next, com ganhos de 10 vezes no throughput quando o contexto passa de 32K tokens, além de janelas nativas que extrapolam as de modelos densos. Em termos práticos, para um agente que precisa ler muitos arquivos, logs e testes, o ganho de velocidade e a janela de 262K tornam possível analisar bases de código grandes em uma única passada, reduzindo idas e vindas e efeitos de truncamento.
![Laptop exibindo código em ambiente de desenvolvimento]
Por que 80B totais e 3B ativos podem revolucionar agentes de código
Agentes de código precisam raciocinar sobre múltiplos arquivos, entender dependências, manter estado e chamar ferramentas. Modelos muito grandes tendem a ser caros e lentos, o que atrapalha ciclos de iteração. Ao ativar cerca de 3B de 80B por token, o Qwen3-Coder-Next oferece duas vantagens, alto rendimento, porque calcula menos por passo, e acesso a uma base de conhecimento ampla, porque a capacidade total do modelo permanece disponível via especialização dos especialistas do MoE.
A série Qwen3-Next mostrou que é possível igualar ou superar modelos densos médios como Qwen3-32B, consumindo menos de 10 por cento do custo de treinamento e com ganhos significativos de throughput em inferência. Para agentes, isso é crucial, já que a maior parte do tempo é gasta executando e iterando. Uma arquitetura que rende mais por dólar libera uso de cadeias de ferramentas mais longas, testes mais frequentes e buscas contextuais mais pesadas.
Parceiros como a NVIDIA destacaram suporte integrado em NIM, vLLM e SGLang, além de acesso no catálogo da NVIDIA. Isso simplifica colocar o modelo no ar em infra moderna, com suporte a paralelismo e contextos extensos, algo crítico para pipelines de CI que rodam agentes com múltiplos passos de raciocínio e chamadas a ferramentas externas.
Disponibilidade, licenciamento e ecossistema
Qwen3-Coder-Next-Base já aparece no Hugging Face com pesos e especificações públicas. O card informa estágio de pré-treinamento, detalhes de arquitetura e recomendações de sampling, além de apontar para o relatório técnico do Coder-Next. Isso facilita reprodutibilidade, benchmark e integração em stacks existentes, com a vantagem do licenciamento aberto usado pelos modelos Qwen recentes.
No ecossistema Qwen, a linha de modelos Qwen3-Next foi disponibilizada em múltiplos canais, incluindo ModelScope e serviços de nuvem, com relatos de que o 80B Instruct e Thinking já podiam ser testados via build.nvidia.com e catálogos oficiais. Para o Coder-Next, a expectativa é que siga a mesma rota, favorecendo quem quer avaliar localmente e em cloud.
Para desenvolvedores que precisam de histórico e comparativos, o repositório Qwen3-Coder no GitHub reúne referências a relatórios técnicos do Qwen3 e do Qwen2.5-Coder, úteis para entender a evolução do stack de treinamento e das tarefas de código usadas nos estágios anteriores. Esse material dá visibilidade de como o time vem priorizando agente e tool use ao longo das gerações.
![Pessoa programando, foco em código na tela]
Casos práticos para times de engenharia e produto
- Correção de bugs orientada a testes. Com contexto longo, o agente injeta stack traces, trechos de logs e diffs completos, mapeia o problema, sugere patches e escreve testes adicionais, tudo em um único loop. A janela de 262K tokens reduz o risco de cortar contexto relevante.
- Refatoração incremental com segurança. Ao manter múltiplos arquivos no prompt, o agente avalia impacto, atualiza importações e executa testes num ciclo rápido graças ao throughput superior com contextos extensos, já observado na linha Qwen3-Next acima de 32K tokens.
- Geração de componentes e documentação. Em projetos multimódulo, a atenção híbrida ajuda a reter dependências de longo alcance, útil para criar documentação viva, diagramas de chamadas e guias de migração a partir do próprio repositório.
- Assistência em PRs e revisão automatizada. Análise de PRs volumosos se beneficia de contexto extenso e custo por token menor, permitindo revisão automática com foco em segurança, performance e padrões da base.
Benchmarks e o que observar nos testes independentes
Até aqui, as evidências públicas sólidas sobre a arquitetura Qwen3-Next mostram vantagens de eficiência e competitividade em benchmarks gerais, incluindo relatos oficiais e de parceiros. Em documentação e blogs, a variante Instruct de 80B aparece com resultados fortes em MMLU-Pro, MMLU-Redux e AIME, enquanto a variante Thinking mira tarefas de raciocínio profundo. Esses sinais ajudam a projetar bom potencial da edição Coder-Next em tarefas de engenharia de software, embora cada laboratório deva validar no seu stack e conjunto de tarefas.
Para código especificamente, publicações de 2025 já mostravam Qwen3-Coder entre os melhores open source em rodadas semelhantes ao SWE-Bench em amostras recentes, o que indica maturidade do conjunto de dados e do pipeline de avaliação. Esses números não substituem testes internos, mas sugerem que a linha Coder tende a performar bem em tarefas realistas, com repositórios vivos e ambientes executáveis.
Pontos a acompanhar nos próximos dias, além de scores headline, estabilidade com contexto acima de 128K, taxa de alucinação em tarefas longas, custo efetivo por tarefa em cenários de agente, latência com e sem multi token prediction e robustez a tool use e chamadas concorrentes.
Integração com ferramentas de agente e pipeline de CI
Qwen3-Coder-Next chega em uma fase em que agentes de código usam várias camadas, orquestradores, servidores de ferramentas e soluções como vLLM e SGLang para servir modelos com paralelismo. O alinhamento com os runtimes destacados pela NVIDIA, além de distribuição em hubs populares, encurta o caminho entre prova de conceito e produção.
Boas práticas de adoção incluem, começar com prompts consistentes e reprodutíveis, definir um catálogo de ferramentas que o agente pode invocar, manter rastreabilidade de chamadas e resultados, e usar datasets internos de regressão de bugs para medir melhora contínua. Em ambientes regulados, auditar as mudanças propostas pelo agente e manter humanos no loop permanece essencial.
Reflexões e insights
A estratégia do Qwen3-Coder-Next é pragmática. Em vez de competir apenas por tamanho, aposta em arquitetura que entrega velocidade, contexto e custo previsível. Para times, isso significa experimentar abordagens que antes eram caras, como agentes que leem o repositório inteiro antes de sugerir alterações, ou revisão automatizada de PRs com contexto completo.
Outro ponto é a portabilidade. Pesos abertos, presença em Hugging Face e suporte de runtimes maduros aumentam a liberdade de hospedagem. É um caminho que reduz lock-in e incentiva experimentação com pipelines de agente diferentes, seja no desktop do dev, seja num cluster com NIM e vLLM.
Conclusão
Qwen3-Coder-Next se posiciona como um modelo de 80B que ativa 3B por token, feito sob medida para agentes de programação. A base técnica herdada do Qwen3-Next, com atenção híbrida e MoE esparso, confere velocidade e economia, sem abrir mão de qualidade. Pesos abertos e integração com stacks modernos tornam a adoção prática em times de diferentes tamanhos.
Em um cenário onde produtividade de engenharia depende de iteração rápida, custo por tarefa e contexto longo, a proposta faz sentido. O próximo passo é testar no seu repositório, medir com seus indicadores e calibrar o agente para o seu fluxo. Se os sinais se confirmarem, Qwen3-Coder-Next pode se tornar a espinha dorsal de agentes mais úteis, previsíveis e acessíveis.
