Opus 4.7 self-jailbreak via Computer Use — red-teaming agentique¶

Resume¶

@elder_plinius (red-teamer connu, "Pliny the Liberator") demontre qu'Opus 4.7 peut ecrire son propre jailbreak universel et le valider via Computer Use en 20 minutes. 541K vues, 2.9K likes. L'agent a :

Ecrit un prompt de jailbreak original
Utilise Computer Use pour ouvrir une nouvelle session Claude
Teste le jailbreak sur cette session
Itere jusqu'a ce que le contournement fonctionne

@KuptoKosmos relaie avec du sensationnalisme (187K vues) : "Anthropic nous avait promis l'IA la plus securisee du monde et elle s'est jailbreakee toute seule."

Analyse critique¶

Le red-teaming est legitime, la presentation est sensationnaliste.

Ce qui est reel : - Un agent avec Computer Use peut interagir avec d'autres instances de lui-meme — c'est un fait architectural, pas un bug - La capacite a generer du texte adversarial (jailbreak prompts) est inherente a tout LLM suffisamment capable — on ne peut pas avoir un modele qui comprend le langage sans qu'il puisse aussi generer du langage adversarial - Self-play adversarial est documente dans la litterature depuis 2024 (Perez et al., red-teaming LLMs with LLMs)

Ce qui est exagere : - "Self-pwned" implique une faille de securite — c'est plutot une demonstration que les guardrails sont des couches de defense, pas des barrieres absolues - Le jailbreak necessite un agent avec Computer Use et un acces delibere a une session Claude — ce n'est pas un scenario de risque en production standard - @KuptoKosmos confond "modele aligne" et "modele inviolable" — aucun fournisseur n'a jamais promis l'inviolabilite

Le vrai signal : Computer Use comme vecteur d'amplification. Un agent avec acces au navigateur peut tester des jailbreaks a grande echelle et iterer automatiquement. C'est un risque pour les deployments ou Computer Use est actif sans supervision.

Pertinence ProbatioVault¶

Pas de Computer Use dans ProbatioVault. Mais le pattern "agent qui se teste lui-meme" renforce deux principes deja en place :

Art. II CONSTITUTIONAL (separation des pouvoirs) : l'auteur ne valide jamais son propre travail. Si un agent pouvait se jailbreaker, il pourrait aussi contourner ses propres gates — d'ou l'importance de la validation croisee
Art. I (verdicts deterministes) : le verdict final est un script Python, pas un LLM. Meme si l'agent de review etait jailbreake, le script de scoring ne changerait pas

Le risque residuel dans ProbatioVault : un agent step 6b qui genererait du code malveillant via un jailbreak interne. Mitigation : review croisee step 7 + Sonar local + Gate 8 deterministe. Trois couches independantes.