Aller au contenu

PageIndex : RAG vectorless par tree search LLM

Resume

PageIndex est un framework open-source (MIT) qui remplace le RAG classique (chunking + embeddings + vector DB) par une navigation hierarchique raisonnee. Phase 1 : le PDF est transforme en arbre semantique (titres, pages, resumes, relations hierarchiques) — une table des matieres enrichie. Phase 2 : le LLM raisonne pour traverser l'arbre et localiser les sections pertinentes, inspire du tree search d'AlphaGo. Le systeme Mafin 2.5, base sur PageIndex, atteint 98.7% d'accuracy sur FinanceBench (QA documents financiers), depassant les approches vectorielles. Self-hostable, multi-provider via LiteLLM.

Analyse critique

Le probleme est reel : similarity ≠ relevance. Sur des documents longs structures (rapports financiers, textes juridiques), le chunking detruit la hierarchie — un chunk de 512 tokens ne sait pas qu'il appartient a la section 4.2.1 d'un rapport annuel. L'approche tree search est elegante et le benchmark FinanceBench est un standard reconnu, pas un claim en l'air.

Limites : le cout LLM est cache. Chaque retrieval invoque le LLM pour raisonner a travers l'arbre — significativement plus cher qu'une requete FAISS a 0$. L'approche est pertinente pour les documents longs structures, pas pour un corpus heterogene de milliers de documents courts ou FAISS + BM25 hybride reste plus adapte et moins cher.

Le tweet source (@ErickSky, 1K likes) est du growth hacking hispanophone classique ("RAG es el pasado", "esto es el FUTURO"). Le framework est serieux, la promotion ne l'est pas.

Pertinence ProbatioVault

Impact faible. Notre corpus de gouvernance (~360 learnings, ~160 specs) est modeste et bien servi par FAISS + BM25 hybride. Le tree search LLM serait overkill et plus couteux. En revanche, PageIndex serait pertinent pour indexer les documents juridiques longs et structures (eIDAS, NF Z42-013, RGPD) si ce besoin emerge — a garder en reserve.