Qwen 3.5 e 3.6: A Alibaba e a Ambição de Cobrir Todos os Casos de Uso

A estratégia da Alibaba com a série Qwen é diferente das demais fabricantes. Enquanto Meta lança três modelos, DeepSeek lança dois e Mistral lança um, a Alibaba em 2026 cobre simultaneamente dispositivos móveis com menos de 1 bilhão de parâmetros e servidores de datacenter com 397 bilhões — tudo na mesma família, com a mesma arquitetura base, sob licença Apache 2.0.

O Qwen 3.5: Uma Família Completa

O Qwen 3.5 foi lançado em março de 2026 com uma proposta incomum: oito tamanhos de modelo em uma única versão. Os modelos pequenos — 0,8B, 2B, 4B e 9B — foram lançados no mesmo ciclo que o flagship 397B-A17B (397 bilhões de parâmetros totais, 17 bilhões ativos via MoE).

A lógica é de plataforma: uma empresa que adota Qwen 3.5 pode usar o modelo de 9B para inferência local no edge, o de 27B ou 35B para servidores on-premises de médio porte, e o 397B via API para tarefas de alta complexidade — tudo com a mesma família de modelos, comportamentos consistentes e fine-tuning portável entre tamanhos.

Arquitetura Híbrida

O diferencial técnico do Qwen 3.5 é a combinação de arquiteturas: Gated Delta Networks (atenção linear) integradas a um sistema MoE esparso. A atenção linear reduz o crescimento quadrático do custo computacional com o aumento do contexto — crítico para modelos que suportam até 1 milhão de tokens.

Todos os modelos da família são nativamente multimodais, processando texto, imagens e vídeo via fusão precoce de tokens multimodais — o equivalente técnico de ter sido treinado com todas as modalidades desde o início, não de ter recebido visão como módulo adicional. Suporte a 201 idiomas e dialetos.

Benchmarks

O modelo 9B marca 70,1 no MMMU-Pro (benchmark de raciocínio visual), 22,5% acima do GPT-5-Nano no mesmo benchmark. O flagship 397B-A17B compete com modelos fechados de fronteira em raciocínio e tarefas agênticas.

O Qwen 3.6: Foco em Código e Agentes

Em abril de 2026, a Alibaba lançou o Qwen 3.6, especificamente o modelo 3.6-35B-A3B (35 bilhões totais, 3 bilhões ativos por inferência). É um modelo projetado para coding e tarefas agênticas, não para uso geral.

Os resultados do 3.6-35B-A3B no Terminal-Bench 2.0 chegam a 51,5, e no SWE-Bench Verified a 73,4 — dentro da faixa competitiva de modelos de coding muito maiores. Lançado sob Apache 2.0, roda com conforto em hardware de consumo com uma única GPU de memória adequada.

O Qwen 3.6-Plus, versão maior da família, tem contexto padrão de 1 milhão de tokens e benchmarks agênticos comparáveis ao Claude Opus 4.5. O custo via API é US$ 0,38 por milhão de tokens de entrada — para comparação, o Gemini 3.1 Pro custa US$ 2,00 no mesmo benchmark. A diferença de custo é de 5x para desempenho similar em muitas tarefas.

O Que Torna a Alibaba Diferente

Há dois aspectos que distinguem a estratégia Qwen das demais.

O primeiro é a escala de suporte de idiomas. 201 idiomas é mais que qualquer outro modelo de fronteira. Para aplicações em mercados asiáticos, do Oriente Médio e da África, onde o suporte a idiomas locais de outros modelos é superficial, os modelos Qwen têm vantagem prática.

O segundo é a consistência da família. A maioria dos concorrentes lança modelos com arquiteturas distintas para cada segmento de mercado — um modelo para edge, outro para cloud, outro para coding. A Alibaba mantém uma família coerente com comportamento e treinamento consistentes, o que simplifica o workflow de quem precisa de múltiplos tamanhos para diferentes deployment targets.

O Contexto Estratégico

Como o DeepSeek, a Alibaba opera sob restrições de exportação americanas de hardware avançado. A eficiência arquitetural do Qwen 3.5 e 3.6 — especialmente na combinação de atenção linear com MoE para contextos longos — é em parte resposta a essas restrições.

O resultado: modelos que são competitivos com o estado da arte usando menos compute por inferência. Para quem opera esses modelos em produção, isso se traduz em custo menor e throughput maior por GPU disponível.

A Apache 2.0 em toda a família remove barreiras legais para adoção empresarial. Com o Llama 4 restrito na Europa e o DeepSeek MIT, os modelos Qwen 3.5/3.6 se tornam uma das opções mais juridicamente simples para uso global sem restrições regionais.

Posição no Ecossistema

Em maio de 2026, a série Qwen ocupa um espaço específico: não é o melhor modelo em nenhum benchmark único, mas é uma das poucas opções que oferece toda a faixa de tamanhos, multimodalidade nativa, suporte extenso a idiomas e licença verdadeiramente aberta em uma única família. Para quem precisa de cobertura ampla com uma plataforma unificada, é a escolha de menor fricção disponível.