Sede da Alibaba em Hangzhou, vista frontal do campus corporativo
Inteligência Artificial

Alibaba Qwen lança Qwen3.5 Small Model, 0,8B a 9B

Série compacta do Qwen3.5 chega com 0,8B a 9B de parâmetros, foco em custo e velocidade, e promete levar IA multimodal e agentic para edge, mobile e GPUs acessíveis.

Danilo Gato

Danilo Gato

Autor

2 de março de 2026
8 min de leitura

Introdução

Qwen3.5 Small Model Series é o novo movimento da Alibaba Qwen no jogo dos modelos compactos, agora com tamanhos de 0,8B, 2B, 4B e 9B. A novidade circulou nesta segunda feira, 2 de março de 2026, em comunidades de desenvolvedores com referências diretas aos pacotes GGUF e guias de execução, apontando inclusive requisitos de hardware modestos para o 9B e execução em telefone para os menores tamanhos.

A importância é clara. Depois do lançamento do Qwen3.5 397B A17B em fevereiro, com 1M de contexto via API e 17B de parâmetros ativos, e da chegada da linha Medium dias depois, a estratégia da Alibaba ficou explícita, cobrir do topo ao edge com uma família única. As coberturas de imprensa detalham a eficiência do 397B, o salto para 201 idiomas e as vantagens de custo, enquanto a linha Medium mostrou ganhos específicos contra modelos ocidentais equivalentes.

O artigo mergulha em quatro pontos, o que muda com a série Small, a arquitetura híbrida e por que ela sustenta velocidade e qualidade, onde cada tamanho se encaixa na prática, e como colocar em produção com custo previsível hoje.

O que muda com a série Small

A série Qwen3.5 Small coloca quatro checkpoints leves na mesa, 0,8B, 2B, 4B e 9B, todos com entradas multimodais por design na família 3.5 e com ganhos de eficiência herdados do 397B e dos Medium. Comunidades técnicas destacaram que 0,8B, 2B e 4B rodam em telefone, e que o 9B opera com 6 GB de RAM em implementações locais com quantização GGUF, além de notas sobre ativação de raciocínio quando necessário. Esses relatos vieram com links diretos para coleções no Hugging Face e guias de inferência.

Esse lançamento fecha o arco iniciado em meados de fevereiro com o Qwen3.5 397B A17B, que uniu MoE com Gated Delta Networks e liberou contexto de 1M na oferta em nuvem. Reportagens independentes registraram 201 idiomas e ganhos de throughput marcantes. O movimento seguinte, a linha Medium, incluiu 35B A3B, 122B A10B e 27B denso, com casos em que o 35B superou o antigo 235B, algo relevante para quem olha custo por capacidade.

![Sede da Alibaba em Hangzhou]

Arquitetura híbrida e por que isso importa

O Qwen3.5 combina Mixture of Experts com blocos de atenção linear do tipo Gated Delta Networks em uma razão aproximada de 3 para 1, desenho que reduz custo de inferência sem abrir mão de profundidade de raciocínio em tarefas duras. No topo da pilha, o 397B ativa apenas 17B por token, o que explica latências competitivas frente a denso 200B, e serve de base conceitual para os modelos Small. Essa engenharia, registrada em análises técnicas recentes, é a ponte para rodar mais com menos.

No plano prático, essa arquitetura habilita dois modos, pensar e não pensar, comutáveis conforme a tarefa. O modo de pensar amplia raciocínio passo a passo, útil em código, matemática e fluxos agentic. O não pensar foca latência e custo, ótimo para chat, backoffice ou triagem. A documentação e a cobertura de imprensa destacam essa chave, e os anúncios corporativos de Qwen3 e Qwen3.5 alinham o mesmo princípio de projeto.

Tamanhos e encaixes de uso, do edge à GPU de 12 GB

  • 0,8B e 2B, rascunho rápido, edge e mobile. Desenvolvedores reportaram execução em telefone para 0,8B, 2B e 4B, com notas sobre desativação padrão de raciocínio nos Small e como ativá lo conforme a necessidade. Bom para assistentes on device, triagem de documentos curtos, prompts de voz e automações simples.
  • 4B, agente leve multimodal. Discussões de campo sugerem que o 4B já cruza um limiar de utilidade em agentes simples, inclusive com tool use básico, mantendo consumo baixo. É a faixa certa para aplicações embarcadas, bots corporativos e copilotos de produtividade.
  • 9B, ponto doce para local dev. Há relatos de desempenho sólido em tarefas estruturadas e de execução confortável em placas de 12 GB com quantização, algo que desenvolvedores locais valorizam para testes rápidos e pipelines CICD. Também apareceram relatos de ajustes finos necessários em tool calling e cache KV, esperados em drop recente.

Para quem precisa de comparação, a própria linha Medium publicada dias atrás mostrou que 35B A3B, com só 3B ativos por token, rivaliza e até supera o antigo 235B em benchmarks. Isso reforça a tese, arquitetura e dados importam tanto quanto tamanho. Esses números foram descritos por veículos como VentureBeat e The Decoder, além de resumos técnicos independentes.

![Sala de servidores, The National Archives, UK]

Benchmarks e custo, onde os Small se apoiam

Os Small chegam na esteira de métricas fortes do 397B e dos Medium. Reportagens e blogs técnicos listam ganhos em tarefas de instrução, visão matemática, parsing de documentos e multilíngue, com custos reduzidos por token e melhor throughput em janelas extensas. Em especial, análises da série 3.5 apontam desempenho competitivo contra modelos ocidentais de mesma faixa e melhor custo em usos intensivos, o que abre espaço para adoção corporativa.

Há também o contexto de preço e disponibilidade nas APIs da Alibaba Cloud. A página oficial de Model Studio descreve camadas como Qwen Plus e Qwen Flash com janela de 1M e precificação por degraus de volume, o que ajuda a planejar picos. Embora a série Small foque self hosting e local dev, integrar com a nuvem da Alibaba pode ser caminho natural para workloads sazonais.

Como testar hoje, caminhos práticos

  • GGUF e runtimes locais. O drop dos Small veio acompanhado por coleções GGUF e guias de inferência e fine tuning pela equipe Unsloth, com relatos de execução do 9B em 6 GB de RAM e dos menores em smartphone. É a via rápida para experimentar em notebooks e estações com placas modestas.
  • Hugging Face e Transformers. A documentação do Transformers já traz suporte ao Qwen3.5, com adição oficial em fevereiro. Para produção, vale consolidar pipelines com vLLM e checar suporte de atenção linear e modos de raciocínio.
  • Model Studio. Para quem quer começar por API, a tabela de modelos e preços do Model Studio apresenta as variantes comerciais e open source com janelas amplas, inclusive cache de contexto, o que reduz custo em sessões longas.

Boas práticas imediatas, validar se o raciocínio está ativo conforme a tarefa, calibrar temperatura e top p com base no perfil do Small escolhido, medir token throughput por quantização e tamanho de contexto, e testar tool calling com e sem reprocessamento agressivo de histórico, algo observado por usuários em clientes agentic.

Onde os Small brilham e onde não brilham ainda

  • Brilham em, prototipagem rápida, agentes de baixa a média complexidade, RAG enxuto, classificação multimodal e assistentes on device. Nesses cenários, o equilíbrio entre latência, custo e qualidade sobe muito.
  • Limites, tarefas de competição matemática extrema, long context reasoning comparável a topos fechados, e coding profundo com ambientes muito grandes. Mesmo assim, a linha 3.5 tem registros públicos de competitividade ampla, então o Small certo pode resolver boa parte do backlog de times de produto.

Estratégia da Alibaba, um funil do topo ao edge

A sequência de fevereiro para cá cria um funil coerente, 397B A17B como referência técnica, Medium como novo custo benefício competitivo, e Small para capilaridade massiva. A imprensa lista ganhos de idiomas, eficiência e janelas enormes, enquanto comunidades trazem a realidade do teclado, comandos de execução, flags e problemas encontrados nas primeiras 24 horas. Juntas, essas camadas permitem adotar Qwen3.5 de acordo com estágio, orçamento e SLO do seu produto.

Checklist de adoção em 7 passos

  1. Mapear tarefas por latência e custo, se precisa de raciocínio contínuo, prefira 9B e ative o modo pensar. Caso contrário, 2B ou 4B podem entregar mais QPS por dólar.
  2. Definir janelas, se a aplicação exige janelas de 100K+, valide quantização, KV cache e limites do runtime escolhido.
  3. Padronizar formatos, alinhar tokenizadores, mensagens e tool schemas entre ambientes local e nuvem.
  4. Medir custo real, usar pricing de Model Studio como teto elástico para picos.
  5. Ensaiar tool calling, testar se o cliente reprocessa contexto a cada chamada, e corrigir para evitar latência.
  6. Afinar segurança, revisar prompts e filtros antes de ativar instrução de raciocínio em produção.
  7. Criar trilha de upgrade, planejar saltos 4B para 9B, e 9B para 27B ou 35B quando a complexidade subir.

Conclusão

Qwen3.5 Small Model Series amplia o raio de impacto do ecossistema Qwen. Com 0,8B a 9B, a Alibaba coloca IA multimodal e agentic ao alcance de dispositivos simples, ao mesmo tempo em que conserva a coerência de arquitetura que já apareceu no 397B e nos Medium. Para equipes de produto, isso significa margem para experimentar mais, gastar menos e iterar mais rápido.

O melhor caminho é começar pequeno e medido. Escolher o tamanho certo para a tarefa, ativar raciocínio quando fizer sentido, e usar a nuvem como amortecedor de pico. Com a combinação de GGUF, Transformers e Model Studio, a adoção prática fica direta, e a discussão sai do hype e entra no quadro de custos e SLAs.

Tags

Modelos de linguagemOpen sourceEdge AI