Aller au contenu

Qwen 3.6 27B — dense 262K contexte, DeltaNet, Apache 2.0

Resume

Qwen 3.6 27B est un modele dense (pas MoE) de 27 milliards de parametres, open-weight sous Apache 2.0. Architecture hybride : 16 blocs de 3 couches Gated DeltaNet (linear attention) + 1 couche Gated Attention classique. Contexte natif 262K tokens, extensible a 1M via YaRN. Modes thinking/non-thinking. Vision + texte. Quantise Q4 = ~16 GB VRAM. Disponible en GGUF via Unsloth.

Specs cles : - 64 layers, hidden dim 5120, FFN intermediate 17408 - DeltaNet : 48 heads (V) + 16 heads (QK), head dim 128 - Attention classique : 24 Q heads + 4 KV heads, head dim 256 - Multi-Token Prediction (MTP) training - 340K+ downloads le premier mois

Analyse critique

Le tweet de @joaomviso ("Opus 4.5 pour $60/mois") est du marketing pur — un 27B dense ne rivalise pas avec un frontier model sur le raisonnement complexe, les benchmarks HF ne soutiennent pas cette comparaison. Mais le modele lui-meme est un vrai signal.

Ce qui est interessant :

Architecture DeltaNet : l'attention lineaire consomme moins de VRAM sur les longs contextes que l'attention quadratique classique. 3 couches DeltaNet pour 1 couche attention — le modele fait l'essentiel en linear et reserve l'attention "chere" pour les passages qui en ont besoin. C'est une tendance architecturale a suivre (Mamba, RWKV, maintenant DeltaNet chez Qwen).

27B dense vs MoE : contrairement a Qwen3.5 35B-a3b (MoE 35B total, 3B actifs), ce 27B active TOUS ses parametres a chaque token. En theorie, plus capable en raisonnement a VRAM equivalente.

262K contexte natif : pas besoin de YaRN pour la majorite des cas d'usage. C'est le double du contexte standard des modeles ouverts comparables.

Ce qui manque : pas de benchmarks head-to-head contre Llama 3.3 70B ou Qwen3.5 dans le README. Les claims de performance reposent sur le tweet viral, pas sur des mesures reproducibles.

Pertinence ProbatioVault

Candidat serieux pour le IA-Server (2x RTX 5090, 64 GB VRAM totale) :

  • Q4 a 16 GB : tient sur une seule RTX 5090 (32 GB), libere la seconde pour d'autres taches
  • vs Qwen3.5 35B-a3b (actuellement deploye) : le 27B dense devrait surpasser le MoE 3B-actif en raisonnement, a VRAM comparable
  • 262K contexte : suffisant pour les reviews de gate (specs + plan + contracts ~25K tokens max)
  • Mode thinking : exploitable pour les confrontations de gate ou les reviews adversariales

Action concrete : tester en shadow mode sur une gate 3 ou 5, comparer avec Qwen3.5 35B-a3b sur les memes inputs. Si le delta est positif, remplacer dans config/agents/.