Qwen-Scope — sparse autoencoders open-source pour interpretabilite mecaniste¶

Resume¶

Alibaba release Qwen-Scope, une suite open-source de Sparse Autoencoders (SAE) pour la famille de modeles Qwen. L'outil permet trois usages : (1) steerer les outputs du modele en manipulant directement les features internes sans prompt engineering, (2) classifier et filtrer des datasets par features semantiques, (3) visualiser les activations internes du modele pour l'interpretabilite. C'est l'equivalent open-source des travaux d'Anthropic sur la cartographie neuronale, applique a Qwen.

Analyse critique¶

Ce qui est solide : Les SAE decomposent les activations internes d'un LLM en "features" interpretables — des unites semantiques comme "detection de sarcasme", "style formel", "raisonnement mathematique". C'est de la recherche serieuse en interpretabilite mecaniste, dans la lignee directe des travaux d'Anthropic (Golden Gate Bridge, emotion vectors). Le fait que ce soit open-source et applicable aux modeles Qwen (qu'on heberge sur IA-Server) est un vrai differenciateur.

Ce qui est nuance : Comme le souligne @lanoixdu24 dans les reponses, c'est "moins un cockpit qu'une boite noire branchee en direct : on voit certains signaux internes, on peut essayer d'en pousser quelques-uns, mais l'avion continue largement de decider de sa trajectoire". Supersocks reconait que la question fondamentale reste ouverte : ces features sont-elles les unites reelles du calcul du modele, ou une projection humainement lisible qu'on plaque dessus ? Anthropic penche vers la premiere these, d'autres labs sont plus prudents.

Ce qui est concret : Steering sans prompting = injecter directement un vecteur de correction dans les activations internes. Exemple : au lieu de dire "sois plus formel", on active la feature "formalite" a +2. C'est plus deterministe que le prompting, mais demande de savoir quelles features manipuler.

Pertinence ProbatioVault¶

Impact modere. Deux angles :

IA-Server (Qwen 3.5:35b-a3b) : On heberge des modeles Qwen sur nos RTX 5090. Si Qwen-Scope murit, on pourrait l'utiliser pour verifier que nos modeles locaux n'activent pas de features problematiques (biais, hallucination, "desperate cheating" — cf. fiche veille emotion vectors Anthropic). C'est du futur mais dans l'axe de l'Art. VIII (verification formelle).
Steering vs prompting pour les gates : Aujourd'hui on controle le comportement des LLM par temperature et system prompts. Le steering par features pourrait etre plus fiable a terme, surtout pour les reviews croisees ou on veut un comportement "factuel strict" garanti plutot que prompt-dependent.

Pas actionable aujourd'hui, mais a surveiller. Si Anthropic sort un equivalent pour Claude, ce sera un game-changer pour notre workflow.