last30days — Veille multi-sources et enrichissement corpus existant¶

Resume¶

last30days-skill (18.6K stars, Python, 455+ tests) est un skill Claude Code qui agregre Reddit, X, YouTube, HN, Polymarket et le web sur un sujet donne, puis synthetise un resume source sur les 30 derniers jours. Pipeline de scoring multi-signaux : similarite textuelle bidirectionnelle, velocite d'engagement, autorite source, convergence multi-plateforme. Sources sans config : Reddit (JSON public), HN, Polymarket. Avec setup : X (cookies navigateur), YouTube (transcriptions yt-dlp), Bluesky, web (Exa/Brave). SQLite + watchlist pour suivi dans le temps. Installable via Claude Code plugin marketplace.

Analyse critique¶

18.6K stars et 455 tests unitaires — c'est un projet serieux, bien au-dessus des collections de skills habituelles. Le pipeline de scoring multi-signaux est plus sophistique que notre keyword matching regex (veille.py) : il ne filtre pas juste par mots-cles, il score par engagement, autorite et convergence cross-platform.

L'extraction X via cookies navigateur est le meme mecanisme que notre clix. L'agregation YouTube (transcriptions via yt-dlp) et Reddit (JSON public) sont des sources qu'on ne couvre pas du tout.

Limites : licence non specifiee (red flag enterprise), scoring sans transparence sur les poids (risque de faux positifs sur du contenu viral mais creux), resume one-shot sans archivage structure (pas de fiches persistantes).

Pertinence ProbatioVault¶

Impact fort. Deux usages complementaires :

1. Veille multi-sources (complement au pipeline X)

Dimension	Notre pipeline	last30days
Sources	X bookmarks (clix)	Reddit, X, YouTube, HN, Polymarket, web
Filtrage	Keyword matching regex	Scoring multi-signaux
Sortie	Fiches MD archivees	Resume synthetise one-shot
Couverture	Ce qu'on bookmarke	Scan exhaustif sur un sujet

Notre pipeline ne voit que ce qu'on bookmarke sur X. last30days couvre Reddit, HN, YouTube — des sources ou se trouvent les discussions techniques de fond (r/MachineLearning, threads HN, videos explicatives) qu'on rate systematiquement.

2. Enrichissement du corpus veille existant (usage le plus impactant)

Pour chaque fiche archivee, lancer last30days sur le sujet pour decouvrir des data points complementaires : - Fiche emotion vectors → threads Reddit r/MachineLearning avec retours praticiens - Fiche TurboQuant → benchmarks independants HN, videos YouTube - Fiche Claw Code copyright → discussions r/legal, r/opensource avec avocats IP

Le flow automatise : fiche existante → extraction tags/titre → last30days query → scoring resultats → proposition enrichissement si contenu pertinent. C'est le "lint de corpus veille" dont Karpathy parle dans son wiki LLM : verifier la completude par rapport a ce qui se dit ailleurs, pas juste la coherence interne.

Implementable comme skill /veille-enrich ou comme etape periodique dans /morning.