Crawlers Claude — 3 bots distincts dans robots.txt (training, live, search)¶

Resume¶

@fabienr34 (SEO technique) alerte sur la mise a jour de la documentation Anthropic concernant les crawlers Claude. Trois bots distincts, chacun avec un role different :

Bot	Role	Quand il crawle	Bloquer ?
ClaudeBot	Entrainement du modele	Batch, periodique	Oui si on ne veut pas contribuer au training
Claude-User	Recuperation en temps reel pendant une conversation	A la demande, quand un user pose une question sur un site	Non — c'est le trafic utile
Claude-SearchBot	Indexation pour la recherche Claude	Similaire a GoogleBot	Depende de la strategie SEO

Distinction critique : bloquer ClaudeBot (training) n'empeche pas Claude-User de recuperer le contenu quand un utilisateur pose une question. Ce sont des User-Agent differents dans le robots.txt.

Exemple robots.txt :

User-agent: ClaudeBot
Disallow: /           # Pas de training

User-agent: Claude-User
Allow: /              # Les users peuvent acceder

User-agent: Claude-SearchBot
Allow: /              # Indexation search OK

Un repondeur mentionne aussi llms.txt comme complement — un fichier specifique pour presenter le site aux LLM (resume + redirection vers un llms-full.txt avec les articles recents).

Analyse critique approfondie¶

Interet reel¶

Faible en isolation, fort en contexte. Le tweet est factuel et correct, mais l'information est dans la doc Anthropic depuis un moment. L'interet reel est dans la prise de conscience que le robots.txt doit maintenant gerer 3 classes d'acces IA separement, en plus des crawlers Google/Bing classiques.

Le vrai enjeu : la frontiere entre "je contribue au training gratuitement" (ClaudeBot) et "mes clients/prospects accedent a mon contenu via un agent" (Claude-User) est nouvelle. C'est une decision business, pas technique. Bloquer ClaudeBot est gratuit. Bloquer Claude-User coupe un canal d'acquisition.

Ce qui manque : aucune mention de la verification d'identite des bots. Comment savoir si un crawler qui se presente comme "Claude-User" est bien Anthropic et pas un scraper qui spoof le User-Agent ? Anthropic documente-t-elle ses plages IP comme Google le fait pour Googlebot ?

Interet dans le contexte ProbatioVault¶

ProbatioVault a deux surfaces web :

Surface	URL	Contenu	Crawlers pertinents
Site marketing	probatiovault.com	Landing pages, docs publiques, blog	ClaudeBot, Claude-SearchBot, Claude-User
App SaaS	app.probatiovault.com	Interface authentifiee, coffre-fort	Aucun (tout derriere auth)

Actions concretes :

robots.txt du site marketing : autoriser Claude-User et Claude-SearchBot (visibilite + SEO), bloquer ClaudeBot (training gratuit = non)
llms.txt : creer un fichier qui presente ProbatioVault de maniere structuree aux LLM (pitch, fonctionnalites, API, use cases). C'est du SEO pour agents — quand quelqu'un demande a Claude "quel outil pour archiver des preuves numeriques ?", le llms.txt aide Claude a bien repondre
App SaaS : tout est derriere auth, robots.txt existant devrait deja bloquer tout. Verifier

Synergie avec la fiche agent-readiness du meme jour : le scanner de @CamilleRoux verifie exactement ces elements (robots.txt, llms.txt). Les deux fiches se completent.

Redondance avec les briques existantes¶

Pas de redondance directe. ProbatioVault n'a pas encore de strategie formalisee pour les crawlers IA. Le robots.txt actuel du site est probablement un heritier du monde pre-LLM (block/allow pour GoogleBot seulement).

La fiche agent-readiness archivee plus tot couvre le meme territoire mais sous l'angle "est-ce que mon site est pret pour les agents". Cette fiche-ci couvre l'angle specifique "comment configurer robots.txt pour les 3 bots Anthropic".

Difficulte de mise en oeuvre¶

Action	Effort	Valeur	Priorite
Mettre a jour robots.txt du site avec les 3 bots Claude	15 min	Moyenne	P2
Creer un llms.txt pour ProbatioVault	1-2h	Haute (SEO agents)	P1 quand le site sera en production
Verifier robots.txt de l'app SaaS	5 min	Faible (deja derriere auth)	P3
Documenter la strategie crawlers dans ProbatioVault-infra	30 min	Moyenne	P2

Cout total : ~2h de travail, zero complexite technique. C'est de la configuration, pas du dev. A faire quand le site marketing sera pret pour le lancement.