LEANN — Compression d'embeddings 97% pour RAG local¶

Resume¶

LEANN (10.6K stars, MIT, papier MLsys2026) est une base de donnees vectorielle qui compresse 201 GB d'embeddings en 6 GB (ratio 97%) sans perte de precision mesurable. Technique : recomputation selective guidee par graphe (HNSW/DiskANN) avec pruning preservant les noeuds hautement connectes. Au lieu de stocker tous les embeddings, LEANN les recalcule a la demande pendant la traversee du graphe de proximite. Supporte 60M chunks textuels sur un laptop standard. Stack : Python 3.9+, compatible Ollama/Anthropic/OpenAI, support MCP natif, modeles d'embeddings locaux (Qwen3-Embedding, nomic-embed-text). Support ColQwen pour recherche visuelle sur PDFs.

Analyse critique¶

L'approche est elegante : au lieu de compresser les vecteurs (quantization classique type TurboQuant), on compresse le graphe de navigation et on recalcule les embeddings a la volee. C'est un changement de paradigme — on echange du CPU contre du stockage. 97% de compression sur 60M chunks sans perte mesurable est un resultat fort, publie a MLsys2026.

Le cout CPU de la recomputation a la requete n'est pas detaille dans le tweet. Sur un laptop, la latence peut etre significative pour des requetes complexes ou des corpus tres grands. Le papier devrait donner les vrais chiffres de latence vs stockage.

Le support MCP natif et la compatibilite Ollama montrent une integration moderne dans l'ecosysteme agents. 10.6K stars en peu de temps indiquent un interet reel de la communaute, pas juste du buzz.

Pertinence ProbatioVault¶

Le pipeline d'embeddings ProbatioVault (learnings, specs, plans, contracts) utilise FAISS avec des fichiers numpy (learnings-embeddings.npy, 359 learnings indexes). Le corpus est petit, la compression n'est pas un besoin immediat. Mais si on voulait creer un index semantique unifie couvrant les ~100 fiches veille + 359 learnings + specs + plans dans un seul index vectoriel local, LEANN pourrait etre pertinent. Le support MCP permettrait une integration directe avec Claude Code. A surveiller pour une eventuelle consolidation des index de recherche semantique.