PA Bench — benchmark pour agents IA sur workflows d'assistant personnel¶

Resume¶

PA Bench est un benchmark qui evalue les agents IA "computer-use" sur des taches realistes d'assistant personnel multi-applications (email + calendrier). Modeles testes : Claude Opus 4.6, Gemini 3 Pro/Flash, OpenAI Computer Use. Focus sur les agents qui interagissent directement avec l'interface (clics, navigation). Environnement simule avec repliques d'apps web, evaluation deterministe et verifiable.

Analyse critique¶

Premier benchmark sur des workflows realistes multi-apps, pas juste des coding challenges. Evaluation deterministe et verifiable. Mais scope tres limite (2 apps, scaling vers 3+ annonce), et oriente computer-use (navigation UI) vs API-first — deux paradigmes tres differents. Le vrai benchmark manquant dans l'ecosysteme serait pour les workflows de developpement : code conforme a une spec, tests, invariants.

Pertinence ProbatioVault¶

Impact faible. Le pattern d'evaluation (environnement simule, resultats verifiables) est conceptuellement proche des gates PMO — mais le workflow ProbatioVault evalue la conformite de livrables reels, pas la capacite a naviguer dans une UI. Plus pertinent que PA Bench pour du logiciel en production.