Aller au contenu

AutoReason : boucle adversariale pour optimiser des outputs subjectifs

Note mai 2026 : Version conceptuelle sans code. Remplacee par la fiche 2026-04-15-autoreason-refinement-adversarial-subjectif.md qui couvre la release NousResearch avec code GitHub.

Resume

Methode proposee par @SHL0MS en reponse a Karpathy (3.2M vues) sur le probleme de l'optimisation iterative sans metrique objective. AutoReason etend AutoResearch aux domaines subjectifs (ecriture, argumentation, marketing) via une boucle d'agents adversariaux avec jury aveugle. Schema : Author A (draft) → Strawman (critique pure) → 3 candidats (A-keep original, B-rewrite, AB-synthese) → Blind judge panel (3 agents frais, sans labels, Borda count) → convergence quand l'original survit 2 rounds consecutifs. Resultat rapporte : 35/35 blind panel vs 21 pour la meilleure methode alternative.

Analyse critique

Solide : - Le probleme est reel : comment optimiser iterativement un output subjectif sans score ? La boucle adversariale avec jury aveugle est une reponse elegante. - Le blind panel sans labels elimine le biais de position et le biais "le plus long est meilleur". Les juges voient A, B, AB sans savoir qui est l'original. - Le Borda count (ranked choice voting) est une methode de vote bien etudiee pour agreger des preferences. - Le critere de convergence (streak = 2) est simple et defensif. - La separation strawman (critique pure, pas de fixes) vs rewrite (constructif) evite l'overcorrection. - Le A-keep toujours present dans la comparaison mesure le drift : si l'original est toujours meilleur, les rewrites degradent.

Limites : - Pas de paper, pas de code, pas de repo. 35/35 est un claim non verifiable. - Cout en tokens potentiellement enorme : ~7 appels LLM par iteration, 20-30 appels sur 3-4 boucles. - Pas de comparaison avec des methodes plus simples (best-of-N, self-refine).

Pertinence ProbatioVault

Impact modere. Le pattern est directement comparable a notre architecture de gates PMO (⅗/8) :

AutoReason Gates ProbatioVault
Author A Agent producteur (Claude/ChatGPT)
Strawman Review adversariale (Codex adversarial-review)
B-rewrite Corrections post-gate
Blind judge panel Gate PMO (scoring sur axes)
Convergence streak=2 GO >= 8, plafond 3 iterations
A-keep (original toujours present) Documents d'entree dans le prompt cache

Difference cle : nos gates utilisent un scoring numerique (8 axes, notes 1-10) pour objectiver le subjectif. AutoReason utilise un vote ranked choice sans scores. Les deux resolvent le meme probleme par des mecanismes differents.

Idee a explorer : le A-keep toujours present dans la comparaison. Dans nos gates, on ne compare pas v2 avec v1 — on rescore v2 independamment. Inclure la version precedente dans le jugement pourrait reduire le drift observe entre iterations (cf. regle de stagnation delta=0, CONSTITUTIONAL.md Art. I).