OpenSpace : auto-evolution de skills pour agents IA avec reduction 46% tokens¶

Resume¶

L'auto-amelioration de skills est un pattern emergent en mars 2026. Trois approches independantes convergent : OpenSpace (academique, Hong Kong University), Ole Lehmann (praticien, methode autoresearch appliquee aux skills Claude Code), et AutoAgent/NeoSigma (systemes auto-harness, cf. fiche dediee). Le principe commun : definir des criteres mesurables, laisser un agent iterer sur le skill, garder les ameliorations, reverter les regressions.

OpenSpace — Plateforme d'evolution autonome de skills pour agents IA (Claude Code, Codex, OpenClaw, etc.). Trois mecanismes : auto-evolution (les skills s'ameliorent par capture de patterns gagnants et correction de defaillances, jusqu'a 13 iterations par skill), intelligence collective (ameliorations partagees entre agents via cloud), efficacite tokens (reduction de 46% en Phase 2 par reutilisation de solutions eprouvees). Benchmark GDPVal sur 220 taches reelles : 4.2x revenus vs baseline, 72.8% de capture de valeur, 70.8% qualite vs 40.8% meilleur concurrent. 165 skills generes automatiquement. Python 3.12+, MCP, MIT.

Analyse critique¶

Ce qui est solide : - Le benchmark GDPVal est impressionnant : 220 taches professionnelles reelles (comptabilite, conformite, ingenierie, medias, strategie), pas du HumanEval. 4.2x revenue vs baseline avec le meme LLM (Qwen 3.5-Plus) — le gain vient du systeme, pas du modele. - La reduction de 46% de tokens en Phase 2 est un argument economique concret. Sur un workflow comme ProbatioVault (17 agents par story), ca representerait une economie significative. - 165 skills auto-generes dont 44 pour I/O fichiers, 29 pour recuperation d'execution, 26 pour generation documentaire — la distribution est coherente avec les taches reelles. - Le suivi d'evolution (jusqu'a 13 iterations par skill, graphes de lignage, comparaisons de diffs) est bien pense. On voit l'historique de chaque amelioration.

Ce qui est a nuancer : - "Intelligence collective via cloud" — les skills sont partages sur open-space.cloud. Ca implique d'envoyer ses patterns d'usage a un tiers. Pour un contexte reglemente (ProbatioVault, donnees juridiques), c'est inacceptable. - L'auto-evolution sans validation peut amplifier les mauvais patterns (meme probleme que Hermes Agent). Si un skill apprend un raccourci qui fonctionne 90% du temps mais viole un invariant de securite, il sera renforce au lieu d'etre corrige. - Le projet vient de HKUDS (Hong Kong University) — c'est de la recherche academique avec un bon packaging, pas un produit maintenu par une equipe dediee.

Comparaison directe avec l'ecosysteme :

Dimension	OpenSpace	Hermes Agent	ProbatioVault
Auto-evolution skills	Oui (13 iterations)	Oui (procedurale)	Non (learnings manuels + retrospective)
Validation des skills	Aucune	Aucune	Gates PMO + scoring deterministe
Partage inter-agents	Cloud collectif	Non	Non
Reduction tokens	-46%	Non mesure	Isolation de contexte (proxy)
Benchmark	GDPVal (220 taches)	Non	metrics.jsonl (29 stories mesurees)

Mise a jour 2026-04-08 : @CamilleRoux partage OpenSpace en francais (https://x.com/camilleroux/status/2041033189930528936, 15K vues). Confirme que l'outil est integre via MCP a Claude Code. Les metriques sont confirmees : -46% tokens, 4.2x performance sur taches professionnelles.

Pertinence ProbatioVault¶

Impact modere. Trois enseignements :

1. Auto-generation de skills a partir des corrections de gate — le workflow ProbatioVault produit deja les donnees necessaires : chaque gate identifie des ecarts, chaque REX documente les learnings. Aujourd'hui ces learnings sont injectes manuellement dans les prompts (step 0, /gov-learnings-inject). OpenSpace montre qu'on pourrait automatiser la boucle : ecart de gate → nouveau skill → injection automatique dans les prompts agents → verification que le skill ameliore le score a la gate suivante.

2. Reduction de tokens par reutilisation — -46% est un chiffre a garder en tete. Le workflow consomme beaucoup de tokens en step 6b (17 agents × prompt complet). Si les agents reutilisaient des patterns resolus au lieu de raisonner de zero, l'economie serait substantielle. A croiser avec code-review-graph (-8.2x) et le prompt caching deja en place.

3. Mode local obligatoire — le cloud collectif est un showstopper pour ProbatioVault. Mais OpenSpace supporte SQLite local et MCP standard. Une instance locale sans le partage cloud serait utilisable. A evaluer si le gain de tokens justifie l'integration.

Data point : Ole Lehmann — autoresearch applique aux skills (05/04)¶

Ole Lehmann (@itsolelehmann, relaye par @Hesamation) publie une methode concrete pour auto-ameliorer des skills Claude Code, inspiree de l'autoresearch de Karpathy. Resultat : un skill de landing page copy passe de 56% → 92% de pass rate en 4 rounds, sans intervention humaine.

La methode en 3 etapes : 1. Definir une checklist de criteres oui/non (pas de scoring vague 1-10). Chaque critere teste un aspect specifique de la sortie. 2. Boucle automatique : l'agent modifie le skill, execute N fois, score chaque sortie contre la checklist. Si le score monte → garde. Si le score baisse → revert. 3. Iterer : 4 rounds suffisent pour des gains significatifs sur des skills simples.

Ce que ca ajoute par rapport a OpenSpace : - Accessibilite : pas de plateforme a installer, juste un skill Claude Code qui ameliore d'autres skills. Zero infrastructure. - Checklist oui/non > scoring continu : plus robuste, moins de variance inter-evaluations. Meme principe que nos gates PMO (seuils binaires GO/NON_CONFORME plutot que notes subjectives). - Limitation : ne fonctionne que sur des skills dont la sortie est evaluable programmatiquement. Les skills proceduraux (workflows multi-etapes) sont plus difficiles a scorer automatiquement.

Convergence avec ProbatioVault : notre /gov-compounder fait deja la moitie du chemin — il extrait les learnings et les injecte dans les prompts. L'etape manquante : automatiser l'iteration (modifier le prompt du skill, re-tester, mesurer). La checklist oui/non d'Ole Lehmann est exactement le format de nos criteres d'acceptation dans les specs.