Crawlers Claude — 3 bots distincts dans robots.txt (training, live, search)¶
Resume¶
@fabienr34 (SEO technique) alerte sur la mise a jour de la documentation Anthropic concernant les crawlers Claude. Trois bots distincts, chacun avec un role different :
| Bot | Role | Quand il crawle | Bloquer ? |
|---|---|---|---|
| ClaudeBot | Entrainement du modele | Batch, periodique | Oui si on ne veut pas contribuer au training |
| Claude-User | Recuperation en temps reel pendant une conversation | A la demande, quand un user pose une question sur un site | Non — c'est le trafic utile |
| Claude-SearchBot | Indexation pour la recherche Claude | Similaire a GoogleBot | Depende de la strategie SEO |
Distinction critique : bloquer ClaudeBot (training) n'empeche pas Claude-User de recuperer le contenu quand un utilisateur pose une question. Ce sont des User-Agent differents dans le robots.txt.
Exemple robots.txt :
User-agent: ClaudeBot
Disallow: / # Pas de training
User-agent: Claude-User
Allow: / # Les users peuvent acceder
User-agent: Claude-SearchBot
Allow: / # Indexation search OK
Un repondeur mentionne aussi llms.txt comme complement — un fichier specifique pour presenter le site aux LLM (resume + redirection vers un llms-full.txt avec les articles recents).
Analyse critique approfondie¶
Interet reel¶
Faible en isolation, fort en contexte. Le tweet est factuel et correct, mais l'information est dans la doc Anthropic depuis un moment. L'interet reel est dans la prise de conscience que le robots.txt doit maintenant gerer 3 classes d'acces IA separement, en plus des crawlers Google/Bing classiques.
Le vrai enjeu : la frontiere entre "je contribue au training gratuitement" (ClaudeBot) et "mes clients/prospects accedent a mon contenu via un agent" (Claude-User) est nouvelle. C'est une decision business, pas technique. Bloquer ClaudeBot est gratuit. Bloquer Claude-User coupe un canal d'acquisition.
Ce qui manque : aucune mention de la verification d'identite des bots. Comment savoir si un crawler qui se presente comme "Claude-User" est bien Anthropic et pas un scraper qui spoof le User-Agent ? Anthropic documente-t-elle ses plages IP comme Google le fait pour Googlebot ?
Interet dans le contexte ProbatioVault¶
ProbatioVault a deux surfaces web :
| Surface | URL | Contenu | Crawlers pertinents |
|---|---|---|---|
| Site marketing | probatiovault.com | Landing pages, docs publiques, blog | ClaudeBot, Claude-SearchBot, Claude-User |
| App SaaS | app.probatiovault.com | Interface authentifiee, coffre-fort | Aucun (tout derriere auth) |
Actions concretes :
- robots.txt du site marketing : autoriser Claude-User et Claude-SearchBot (visibilite + SEO), bloquer ClaudeBot (training gratuit = non)
- llms.txt : creer un fichier qui presente ProbatioVault de maniere structuree aux LLM (pitch, fonctionnalites, API, use cases). C'est du SEO pour agents — quand quelqu'un demande a Claude "quel outil pour archiver des preuves numeriques ?", le llms.txt aide Claude a bien repondre
- App SaaS : tout est derriere auth, robots.txt existant devrait deja bloquer tout. Verifier
Synergie avec la fiche agent-readiness du meme jour : le scanner de @CamilleRoux verifie exactement ces elements (robots.txt, llms.txt). Les deux fiches se completent.
Redondance avec les briques existantes¶
Pas de redondance directe. ProbatioVault n'a pas encore de strategie formalisee pour les crawlers IA. Le robots.txt actuel du site est probablement un heritier du monde pre-LLM (block/allow pour GoogleBot seulement).
La fiche agent-readiness archivee plus tot couvre le meme territoire mais sous l'angle "est-ce que mon site est pret pour les agents". Cette fiche-ci couvre l'angle specifique "comment configurer robots.txt pour les 3 bots Anthropic".
Difficulte de mise en oeuvre¶
| Action | Effort | Valeur | Priorite |
|---|---|---|---|
| Mettre a jour robots.txt du site avec les 3 bots Claude | 15 min | Moyenne | P2 |
| Creer un llms.txt pour ProbatioVault | 1-2h | Haute (SEO agents) | P1 quand le site sera en production |
| Verifier robots.txt de l'app SaaS | 5 min | Faible (deja derriere auth) | P3 |
| Documenter la strategie crawlers dans ProbatioVault-infra | 30 min | Moyenne | P2 |
Cout total : ~2h de travail, zero complexite technique. C'est de la configuration, pas du dev. A faire quand le site marketing sera pret pour le lancement.