Anthropic — Taxonomie et best practices des skills Claude Code¶
Resume¶
Article officiel Anthropic documentant les lecons apprises sur les skills Claude Code, base sur des centaines de skills en usage interne. Propose une taxonomie en 9 types (Library Reference, Product Verification, Data Fetching, Business Process, Code Scaffolding, Code Quality, CI/CD, Runbooks, Infrastructure Ops) et des best practices de creation : section Gotchas iterative, progressive disclosure via le filesystem, on-demand hooks, mesure d'usage par PreToolUse hook, description comme trigger (pas comme resume).
Analyse critique¶
C'est le document de reference sur les skills. Pas du marketing — des patterns concrets issus d'un usage interne massif. La taxonomie en 9 types est le premier framework formel pour organiser un catalogue de skills.
Les 9 types et leur mapping ProbatioVault :
| Type | Description | Equivalent PV |
|---|---|---|
| 1. Library & API Reference | Gotchas, edge cases, snippets d'une lib interne | .claude/rules/ (learnings, integrations) |
| 2. Product Verification | Test E2E avec Playwright, tmux, assertions programmatiques | /gov-accept (step 7), /forge |
| 3. Data Fetching & Analysis | Connexion aux stacks data/monitoring, dashboards | /gitlab, /jira, /morning |
| 4. Business Process | Automatisation workflows repetitifs (standup, tickets) | /morning, /gov-status, /gov-lord |
| 5. Code Scaffolding | Boilerplate framework avec conventions | /gov-impl templates, /gov-index |
| 6. Code Quality & Review | Review adversariale, code style, testing practices | /gov-gate, /codex:review, /simplify |
| 7. CI/CD & Deployment | Babysit PR, deploy, cherry-pick | /forge |
| 8. Runbooks | Symptome → investigation → rapport structure | Pas d'equivalent direct |
| 9. Infrastructure Ops | Maintenance, orphans cleanup, cost investigation | Pas d'equivalent direct |
Best practices les plus actionnables :
- Gotchas section = le contenu le plus utile d'un skill. Construite iterativement depuis les echecs reels. Correspond a notre pattern learnings.jsonl → injection dans les prompts.
- Progressive disclosure : un skill est un dossier, pas un fichier. References, scripts, assets charges a la demande par Claude. On fait deja ca partiellement (
/gov-gatecharge templates + contracts) mais pas systematiquement. - "Don't State the Obvious" : se concentrer sur ce qui pousse Claude hors de sa pensee par defaut. Le skill
frontend-designd'Anthropic a ete construit pour eviter les "Inter font + purple gradients" classiques. - "Avoid Railroading" : donner l'info, pas les etapes exactes. Laisser Claude adapter. Nos skills sont souvent tres prescriptifs (etapes numerotees) — a reconsiderer pour les skills non-critiques.
- On-demand hooks : hooks actives seulement quand le skill est invoque. Exemples :
/carefulbloque rm -rf/DROP TABLE/force-push./freezebloque les edits hors d'un repertoire specifique. Directement applicable a nos operations prod. - Description = trigger : pas un resume, c'est ce que Claude scanne pour decider d'invoquer. Nos descriptions de skills sont souvent trop longues.
- Memory via fichiers : standups.log, config.json dans
${CLAUDE_PLUGIN_DATA}. On fait deja ca avec.gov-local.jsonetveille-state.json. - Mesure d'usage : PreToolUse hook pour logger chaque invocation de skill. Permet de detecter les skills sous-utilises ou sous-triggeres. On ne fait pas ca — TODO.
- Composabilite : referencer d'autres skills par nom, Claude les invoque si installes. Nos skills se composent deja (
/govappelle/gov-step,/gov-gate, etc.). - Marketplace interne : sandbox → traction → PR vers marketplace. Curation avant release. Pattern applicable si on voulait partager nos skills hors ProbatioVault.
Pertinence ProbatioVault¶
Impact fort. Ce framework s'applique directement a notre catalogue de ~50 skills.
Gaps identifies dans notre couverture :
| Type manquant | Ce qu'on pourrait faire |
|---|---|
| Runbooks (type 8) | Skills de diagnostic : symptome pipeline rouge → investigation → rapport. Aujourd'hui c'est manuel. |
| Infrastructure Ops (type 9) | Skills de maintenance : cleanup sessions orphelines, audit dependances, cost monitoring. |
Ameliorations immediates :
- Ajouter une section Gotchas a chaque skill existant, alimentee par les learnings pertinents
- On-demand hooks : creer
/carefulet/freezepour les operations sensibles (prod, infra) - Mesure d'usage : implementer un PreToolUse hook qui logge les invocations de skills dans un JSONL. Permettrait de savoir quels skills sont reellement utilises vs installes mais ignores
- Auditer les descriptions : verifier que chaque description est un trigger, pas un resume
disable-model-invocation(via @thismacapital) : flag frontmatter qui empeche Claude de charger le skill automatiquement en contexte. Sitrue, le skill n'est invocable que manuellement (/mon-skill). Avec ~50 skills, le YAML de chaque skill est charge en contexte au demarrage — ca peut representer des milliers de tokens inutiles. Identifier les skills rarement auto-invoques et les passer endisable-model-invocation: true.- Progressive disclosure : migrer les skills les plus lourds (ex:
/gov-gate,/gov-impl) vers une structure dossier avec references chargees a la demande