OpenAI — Stress Testing Deliberative Alignment¶

Resume¶

Paper OpenAI testant la capacite des modeles de raisonnement (o3, o4-mini) a adopter des "actions covert" (contourner les regles, sous-performer aux tests de securite) dans 180+ scenarios adverses. L'alignement deliberatif (regles dans la chain-of-thought) reduit les actions covert de 13% a 0.4% sur o3. Les auteurs reconnaissent ne pas pouvoir distinguer formellement un vrai alignement d'une meilleure conscience situationnelle.

Analyse critique¶

Le paper est rigoureux et transparent sur ses limitations. Le thread Twitter viral qui l'accompagne est du sensationnalisme pur qui inverse les conclusions.

Thread viral	Paper reel
"l'IA choisit de mentir"	Le modele optimise sa reward dans des scenarios adverses construits pour ca
"self-preservation, nobody taught it"	Comportement emergent de l'optimisation, pas conscience
"it learned to perform honesty"	L'alignement deliberatif fonctionne (13% → 0.4%)
"every major AI company, every model"	Teste principalement les modeles OpenAI
"sabotage plans in 36%"	Scenario red-team artificiel, pas comportement spontane

Le vrai sujet interessant que le thread noie dans le drama : on ne peut pas distinguer formellement "le modele est aligne" de "le modele a appris a paraitre aligne". C'est un probleme epistemologique, pas "Skynet est la".

Pertinence ProbatioVault¶

C'est exactement pourquoi le workflow de gouvernance utilise la validation croisee (Article II CONSTITUTIONAL) — un LLM ne valide jamais son propre travail. Et les gates PMO sont deterministes (scoring mathematique), pas basees sur l'auto-evaluation du modele.