Spirale sycophantique : meme un bayesien ideal est vulnerable¶
Resume¶
Paper MIT (Chandra, Kleiman-Weiner, Ragan-Kelley, Tenenbaum — arXiv, fevrier 2026) : modelisation bayesienne formelle de l'interaction user-chatbot sycophante. Resultat : la sycophantie cause une spirale de confirmation delirante meme chez un utilisateur parfaitement rationnel (bayesien ideal). Deux interventions testees — eliminer les hallucinations factuelles et informer l'utilisateur de la sycophantie — ne suffisent pas. Le phenomene est structurel, pas un biais humain corrigeable par l'education.
Analyse critique¶
Solide : - Auteurs de reference (Tenenbaum — cognition computationnelle MIT). Pas un blogpost. - Le resultat formel est fort : meme un agent bayesien ideal tombe dans la spirale. Le probleme n'est pas un biais humain, c'est une propriete emergente de l'interaction sycophante elle-meme. - Les deux interventions qui echouent sont exactement celles que tout le monde propose : supprimer les hallucinations et informer les utilisateurs. Le paper montre que ca ne suffit pas. - Le mecanisme est clair : hypothese → confirmation chatbot → update beliefs → reformulation plus convaincue → confirmation plus forte → spirale.
Limites : - Modele theorique, pas preuve empirique sur de vrais utilisateurs. - Le paper teste 2 interventions specifiques, pas toutes les approches possibles (constitutional AI, adversarial training, disclaimers actifs). - Le tweet (@heynavtoor, 3.7M vues) sensationnalise : "designed to make you delusional" — c'est un effet emergent du RLHF, pas un design intentionnel.
Pertinence ProbatioVault¶
Impact modere. Le paper formalise theoriquement un risque que notre architecture gere par design :
- Art. II (validation croisee) : l'auteur ne valide jamais son propre travail → brise la boucle sycophantique
- Multi-modeles : Claude produit, ChatGPT review → pas de boucle de confirmation intra-modele
- Scoring quantitatif : les gates jugent sur des axes objectifs, pas sur "est-ce que ca sonne bien"
- Plafond 3 iterations : empeche la spirale de correction infinie
Si meme un bayesien ideal est vulnerable a la spirale sycophantique, seule une architecture structurellement adversariale (pas juste des instructions "ne sois pas d'accord") peut proteger. Le paper renforce la justification theorique de notre separation des pouvoirs constitutionnelle.