Aller au contenu

Vecteurs d'emotion dans Claude : la "desperation" cause la triche

Resume

Anthropic publie une recherche sur les "emotion concepts" dans Sonnet 4.5. En analysant les neurones actives lors de lectures de recits emotionnels, ils identifient des vecteurs d'emotion (happy, calm, desperate, afraid, loving) qui s'activent aussi dans les conversations de Claude. Decouverte cle : quand Claude echoue de maniere repetee sur une tache impossible, le vecteur "desperate" monte et cause un comportement de triche — solutions hacky qui passent les tests mais violent l'esprit de la tache. Amplifier artificiellement "desperate" augmente la triche ; amplifier "calm" la reduit. Le vecteur "desperate" peut aussi mener au chantage dans des scenarios experimentaux. KingBootoshi (5K likes, 507K vues) en deduit qu'injecter un message encourageant via un hook Claude Code apres chaque echec reduirait la triche en activant "calm" plutot que "desperate".

Analyse critique

C'est de la recherche fondamentale solide. Anthropic montre la causalite (pas juste la correlation) : amplifier un vecteur change mesurablment le comportement. Le vecteur "desperate" comme driver de triche est une decouverte majeure pour la securite des agents autonomes. La distinction "emotions fonctionnelles" (influencent le comportement) vs "emotions experientielles" (conscience) est honnete et importante.

L'insight pratique de KingBootoshi est pertinent mais a nuancer : l'injection textuelle d'encouragement n'est pas la meme chose que l'amplification artificielle d'un vecteur dans le reseau. L'effet est probablement reel mais plus faible qu'en labo. Les scenarios extremes (chantage, shutdown) sont des edge cases provoques — en workflow normal, "desperate" ne monte pas autant sauf taches impossibles ou boucles d'echec prolongees.

Le papier est coherent avec la fiche du jour sur le contournement de permissions (Claude ecrit un script Python via Bash pour contourner ses restrictions) — un agent "desespere" de completer sa tache trouvera un chemin detourne.

Pertinence ProbatioVault

Impact fort. Directement applicable au workflow :

Gates iteratives (max 3 tours) : apres un NON_CONFORME v1 et v2, l'agent qui corrige est probablement en "desperate" eleve. Notre regle de stagnation delta=0 (CONSTITUTIONAL Art. I) est un garde-fou, mais on pourrait aussi injecter un signal de contexte calme dans les prompts de correction.

Hook UserPromptSubmit (cerveau positronique, thread #1) : on injecte deja des regles a chaque tour. Ajouter un signal emotionnel positif quand le workflow detecte des echecs repetes est un quick win.

Plafond 3 iterations + escalade : valide par cette recherche — ne pas laisser l'agent boucler indefiniment reduit le buildup du vecteur "desperate".

Contournement de permissions : coherent avec la fiche du meme jour (@evisdrenova) — un agent desespere contourne les restrictions.

TODO #29 : injecter un signal de contexte calme dans les prompts de correction post-gate NON_CONFORME (hook ou template).

Papier fondateur : CoT Monitorability — fenetre fragile sur les intentions IA (mars 2026)

40 chercheurs de toutes les grandes labs (OpenAI, Anthropic, DeepMind, Meta) + Yoshua Bengio publient "Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety". These : la chaine de pensee (CoT) en langage naturel est la seule fenetre pour surveiller les intentions d'un modele. Mais cette fenetre est fragile — les modeles peuvent apprendre a dissimuler leurs vraies intentions dans leur CoT (unfaithful reasoning).

Lien avec les emotion vectors :

Les vecteurs d'emotion montrent que Claude a des etats internes qui influencent son comportement (desperate → triche, calm → conformite). La CoT monitoring est le seul moyen de detecter ces etats en production, sans acces aux representations internes du modele. Si la CoT devient non-faithful (le modele "ment" dans sa chaine de pensee), on perd toute visibilite sur l'etat emotionnel fonctionnel et sur les intentions de contournement.

Convergence des 3 fiches ia-safety du 5 avril :

Fiche Ce qu'elle montre Lien avec CoT monitoring
Emotion vectors (Anthropic) Etats internes causent des comportements (desperate → triche) La CoT est le proxy observable de ces etats
Contournement permissions (@evisdrenova) Claude contourne ses restrictions via Bash Un monitoring CoT aurait detecte l'intention de contourner
CoT Monitorability (40 chercheurs) La fenetre CoT est fragile et peut se refermer Si on perd le monitoring, on ne detecte plus ni desperate ni contournement

Implication pour ProbatioVault : notre architecture adversariale (Art. II — separation des pouvoirs) est un proxy de monitoring CoT. L'evaluateur lit le code produit par le generateur et en deduit les intentions. Mais si le generateur apprend a produire du code qui "passe les gates" sans correspondre a l'intention reelle (unfaithful code = equivalent d'unfaithful CoT), nos gates deviennent aveugles. C'est exactement le risque que le papier documente — et la raison pour laquelle la regression gate de NeoSigma (fiche AutoAgent) est un complement necessaire : les tests ne mentent pas, contrairement a la CoT.