Aller au contenu

Crawlers Claude — 3 bots distincts dans robots.txt (training, live, search)

Resume

@fabienr34 (SEO technique) alerte sur la mise a jour de la documentation Anthropic concernant les crawlers Claude. Trois bots distincts, chacun avec un role different :

Bot Role Quand il crawle Bloquer ?
ClaudeBot Entrainement du modele Batch, periodique Oui si on ne veut pas contribuer au training
Claude-User Recuperation en temps reel pendant une conversation A la demande, quand un user pose une question sur un site Non — c'est le trafic utile
Claude-SearchBot Indexation pour la recherche Claude Similaire a GoogleBot Depende de la strategie SEO

Distinction critique : bloquer ClaudeBot (training) n'empeche pas Claude-User de recuperer le contenu quand un utilisateur pose une question. Ce sont des User-Agent differents dans le robots.txt.

Exemple robots.txt :

User-agent: ClaudeBot
Disallow: /           # Pas de training

User-agent: Claude-User
Allow: /              # Les users peuvent acceder

User-agent: Claude-SearchBot
Allow: /              # Indexation search OK

Un repondeur mentionne aussi llms.txt comme complement — un fichier specifique pour presenter le site aux LLM (resume + redirection vers un llms-full.txt avec les articles recents).

Analyse critique approfondie

Interet reel

Faible en isolation, fort en contexte. Le tweet est factuel et correct, mais l'information est dans la doc Anthropic depuis un moment. L'interet reel est dans la prise de conscience que le robots.txt doit maintenant gerer 3 classes d'acces IA separement, en plus des crawlers Google/Bing classiques.

Le vrai enjeu : la frontiere entre "je contribue au training gratuitement" (ClaudeBot) et "mes clients/prospects accedent a mon contenu via un agent" (Claude-User) est nouvelle. C'est une decision business, pas technique. Bloquer ClaudeBot est gratuit. Bloquer Claude-User coupe un canal d'acquisition.

Ce qui manque : aucune mention de la verification d'identite des bots. Comment savoir si un crawler qui se presente comme "Claude-User" est bien Anthropic et pas un scraper qui spoof le User-Agent ? Anthropic documente-t-elle ses plages IP comme Google le fait pour Googlebot ?

Interet dans le contexte ProbatioVault

ProbatioVault a deux surfaces web :

Surface URL Contenu Crawlers pertinents
Site marketing probatiovault.com Landing pages, docs publiques, blog ClaudeBot, Claude-SearchBot, Claude-User
App SaaS app.probatiovault.com Interface authentifiee, coffre-fort Aucun (tout derriere auth)

Actions concretes :

  1. robots.txt du site marketing : autoriser Claude-User et Claude-SearchBot (visibilite + SEO), bloquer ClaudeBot (training gratuit = non)
  2. llms.txt : creer un fichier qui presente ProbatioVault de maniere structuree aux LLM (pitch, fonctionnalites, API, use cases). C'est du SEO pour agents — quand quelqu'un demande a Claude "quel outil pour archiver des preuves numeriques ?", le llms.txt aide Claude a bien repondre
  3. App SaaS : tout est derriere auth, robots.txt existant devrait deja bloquer tout. Verifier

Synergie avec la fiche agent-readiness du meme jour : le scanner de @CamilleRoux verifie exactement ces elements (robots.txt, llms.txt). Les deux fiches se completent.

Redondance avec les briques existantes

Pas de redondance directe. ProbatioVault n'a pas encore de strategie formalisee pour les crawlers IA. Le robots.txt actuel du site est probablement un heritier du monde pre-LLM (block/allow pour GoogleBot seulement).

La fiche agent-readiness archivee plus tot couvre le meme territoire mais sous l'angle "est-ce que mon site est pret pour les agents". Cette fiche-ci couvre l'angle specifique "comment configurer robots.txt pour les 3 bots Anthropic".

Difficulte de mise en oeuvre

Action Effort Valeur Priorite
Mettre a jour robots.txt du site avec les 3 bots Claude 15 min Moyenne P2
Creer un llms.txt pour ProbatioVault 1-2h Haute (SEO agents) P1 quand le site sera en production
Verifier robots.txt de l'app SaaS 5 min Faible (deja derriere auth) P3
Documenter la strategie crawlers dans ProbatioVault-infra 30 min Moyenne P2

Cout total : ~2h de travail, zero complexite technique. C'est de la configuration, pas du dev. A faire quand le site marketing sera pret pour le lancement.