Aller au contenu

Browser agents et Computer Use : 5 approches du controle navigateur par IA

Resume

Vague d'outils (mars 2026) pour donner aux agents IA le controle d'un navigateur ou d'une interface graphique :

Outil Approche Methode Maturite
dev-browser Navigateur Chromium custom pour agents CDP natif, pas de hack Experimental
WebMCP Extension Chrome → MCP server Accessibility tree du DOM Fonctionnel
browser-use-cli 2.0 Daemon persistant + CDP 50ms latence, state management Production-ready
Claude Code Computer Use Computer Use natif dans Claude Code CLI Screenshots + clic coordonnees Beta officielle Anthropic
Expect Tests navigateur agent-driven Diffs git → scenarios de test Alpha
Ghost OS Computer Use macOS local Accessibility tree + auto-learning Experimental

Analyse critique

Deux philosophies s'affrontent : screenshots (Computer Use, lent, cher en tokens) vs DOM/accessibility tree (WebMCP, browser-use, rapide, cheap). La tendance est clairement au DOM — cf. le retour terrain sur les couts token screenshots (fiche avril).

browser-use-cli 2.0 est le plus mature (daemon persistant, 50ms latence). Le Computer Use officiel d'Anthropic est le plus integre mais le plus lent. Ghost OS est le plus ambitieux (auto-apprentissage des interactions).

Pertinence ProbatioVault

Impact modere. Utile pour local-agent-ops (extraction Fizen, navigation bancaire). Le feature flag WEB_BROWSER_TOOL (Playwright) dans Claude Code confirme qu'Anthropic travaille a le nativer.