Aller au contenu

BitNet Microsoft — inference 100B params sur CPU sans GPU

Resume

Microsoft open source BitNet, un framework d'inference qui fait tourner un modele de 100 milliards de parametres sur CPU uniquement — pas de GPU, pas de cloud, pas de hardware a $10K. 15K likes, 2.2M vues. Le framework utilise la quantification 1-bit (ternaire : -1, 0, +1) pour transformer les multiplications matricielles en additions/soustractions, executables sur n'importe quel CPU moderne. Les benchmarks montrent des vitesses d'inference competitives sur des modeles de cette taille sans accelerateur.

Analyse critique

Ce qui est solide

La quantification 1-bit est un vrai changement de paradigme, pas juste une optimisation incrementale. Les modeles classiques utilisent des poids en float16 ou float32 (16-32 bits par poids). Les modeles quantifies classiques descendent a 4-8 bits. BitNet descend a 1.58 bits (ternaire) — chaque poids est -1, 0 ou +1. A ce niveau, les operations dominantes ne sont plus des multiplications (couteuses) mais des additions (quasi-gratuites sur CPU).

Le paper original (Ma et al., 2024) est publie par Microsoft Research et a ete bien recu par la communaute ML. Ce n'est pas du vaporware — c'est un resultat reproductible avec du code open source.

La taille du modele en memoire chute proportionnellement : un modele 100B en float16 = ~200 GB. En 1.58 bits = ~20 GB. Un MacBook avec 32 GB de RAM peut le charger. C'est ce qui rend le "100B sur laptop" possible physiquement.

Ce qui est exagere

La qualite n'est pas identique. Les modeles 1-bit perdent de la precision par rapport a leurs equivalents float16. Le paper montre des resultats competitifs sur certains benchmarks mais pas tous. Pour du code generation ou du raisonnement complexe (notre usage), la degradation peut etre significative. Un 100B en 1-bit n'est pas un 100B en float16 — c'est plus proche d'un 30-40B en qualite effective sur les taches de raisonnement.

"No GPU" ne veut pas dire "rapide". L'inference CPU est fonctionnelle mais plus lente que GPU. Pour du batch (REX, veille, analyse de corpus), c'est acceptable. Pour du real-time (interaction PO step 0, agents step 6b), la latence peut etre un bloquant.

Le signal a long terme

Si des modeles 100B+ tournent sur CPU avec une qualite acceptable, la dependance au hardware GPU pour les LLM locaux diminue drastiquement. La question "est-ce que je peux me passer du cloud" change de reponse. Et la question "est-ce que je peux avoir un evaluateur LLM local au lieu de ChatGPT" (notre separation des pouvoirs Art. II) devient economiquement viable.

Pertinence ProbatioVault

Impact modere — pas d'action immediate, mais change l'equation sur 3 items long terme.

IA-Server et modeles locaux

Notre IA-Server (2x RTX 5090, ~90 GB VRAM cumules) fait tourner Ollama avec Qwen3.5:35b et Llama3.3:70b. BitNet permettrait potentiellement de faire tourner des modeles plus gros (100B+) sur le CPU seul de l'IA-Server ou meme sur le MacBook, en parallele des GPU qui restent disponibles pour d'autres taches.

Evaluateur LLM local pour gates (Art. II)

Aujourd'hui, les gates ⅗/8 utilisent ChatGPT via Codex pour la review (Art. II : l'auteur ne juge pas son propre travail). Si un modele 100B local atteignait une qualite suffisante pour les reviews, on pourrait eliminer la dependance a OpenAI pour les gates. C'est un gain de souverainete (RGPD, propriete intellectuelle) et de cout. BitNet rend ce scenario plus realiste qu'il ne l'etait il y a 6 mois.

Voxtral et transcription locale

Le TODO #5 (Voxtral 3B local pour transcription) est dimensionne pour GPU. Si BitNet ou une technique similaire permet de faire tourner Voxtral sur CPU, le setup se simplifie (pas besoin d'allouer du GPU pour la transcription).

Action recommandee

Pas d'action immediate. Surveiller la maturite de BitNet (qualite sur benchmarks code/reasoning, latence CPU vs GPU, tooling Ollama). Si Ollama integre le support BitNet nativement, tester un modele 100B sur l'IA-Server en CPU-only et mesurer la qualite sur une tache de review type Gate 3.