Browser agents et Computer Use : 5 approches du controle navigateur par IA¶
Resume¶
Vague d'outils (mars 2026) pour donner aux agents IA le controle d'un navigateur ou d'une interface graphique :
| Outil | Approche | Methode | Maturite |
|---|---|---|---|
| dev-browser | Navigateur Chromium custom pour agents | CDP natif, pas de hack | Experimental |
| WebMCP | Extension Chrome → MCP server | Accessibility tree du DOM | Fonctionnel |
| browser-use-cli 2.0 | Daemon persistant + CDP | 50ms latence, state management | Production-ready |
| Claude Code Computer Use | Computer Use natif dans Claude Code CLI | Screenshots + clic coordonnees | Beta officielle Anthropic |
| Expect | Tests navigateur agent-driven | Diffs git → scenarios de test | Alpha |
| Ghost OS | Computer Use macOS local | Accessibility tree + auto-learning | Experimental |
Analyse critique¶
Deux philosophies s'affrontent : screenshots (Computer Use, lent, cher en tokens) vs DOM/accessibility tree (WebMCP, browser-use, rapide, cheap). La tendance est clairement au DOM — cf. le retour terrain sur les couts token screenshots (fiche avril).
browser-use-cli 2.0 est le plus mature (daemon persistant, 50ms latence). Le Computer Use officiel d'Anthropic est le plus integre mais le plus lent. Ghost OS est le plus ambitieux (auto-apprentissage des interactions).
Pertinence ProbatioVault¶
Impact modere. Utile pour local-agent-ops (extraction Fizen, navigation bancaire). Le feature flag WEB_BROWSER_TOOL (Playwright) dans Claude Code confirme qu'Anthropic travaille a le nativer.