Memoire agent long terme — le Markdown ne suffit pas, mais le graph seul non plus¶

Resume¶

Deux sources complementaires sur le meme sujet : la memoire long terme des agents IA.

AYi (thread viral, 694K vues) pose le diagnostic : "90% des memoires d'agents IA sont fausses". Empiler des fichiers Markdown ne constitue pas une memoire — au bout de deux semaines, le systeme s'effondre (repetitions, pollution de contexte, incapacite a repondre aux questions causales). Test propose : "Demandez a votre agent quelle proposition vous avez rejetee il y a 3 semaines, et pourquoi". Solution preconisee : knowledge graph + embeddings + traversal.

Hindsight (Vectorize, #1 sur BEAM a 10M tokens) propose une reponse technique : extraction de faits + "observations" (synthese de haut niveau), retrieval vectoriel optimise pour le tres grand volume. Score 64.1% a 10M tokens (+58% vs deuxieme). Local-first, pas d'API key.

Analyse critique¶

Ce qui est juste :

L'observation d'AYi est exacte et vecue : nos index FAISS (MemPalace, veille, clarifications) retrouvent de l'information mais ne raisonnent pas dessus. Les questions causales ("pourquoi cette decision ?") ne passent pas par la memoire semantique mais par le referentiel structure (registres D-xxx, git log).
La deduplication est un vrai probleme : les memes sujets reviennent dans N fichiers, l'index vectoriel retourne N fois la meme info.
Le benchmark BEAM est pertinent : les fenetres 1M+ tokens rendent les benchmarks classiques obsoletes. L'ecart de Hindsight (+58%) est significatif.

Ce qui est simplifie :

"Passer au graph" n'est pas magique. Un KG mal alimente est aussi inutile qu'un dossier Markdown mal organise. Le vrai enjeu est la structuration a l'entree.
Hindsight est benchmark maison (Vectorize a concu BEAM et score #1 dessus). Juge et partie.
Pas d'integration MCP native pour Hindsight (contrairement a MemPalace). Pas de knowledge graph non plus — uniquement retrieval vectoriel + observations.

Pertinence ProbatioVault¶

Impact fort — valide notre architecture a 3 couches.

Notre approche repond deja au test d'AYi : 1. Memoire semantique (FAISS, MemPalace) = brique de retrieval, pas de pilotage 2. Structuration a l'entree (debrief → D-xxx/A-xxx/RSK-xxx, clarifications PO, learnings.jsonl) = referentiel structure 3. Couches de raisonnement (checks, moteur temporel, verification formelle, decroissance des learnings via lifecycle B4) = intelligence au-dessus du stockage

Ce que ces sources confirment : la valeur n'est pas dans le backend de stockage (Markdown vs graph vs vectoriel) mais dans les couches de structuration et de raisonnement. ProbatioVault accumule ~4.5M tokens de documentation — pile dans la zone ou le context stuffing ne suffit plus et ou un retrieval selectif intelligent a de la valeur.