OBLITERATUS — Outil de suppression de censure LLM¶
Resume¶
Toolkit GitHub pour supprimer les mecanismes de refus des LLM open-weight par "abliteration" — identification et projection des representations internes qui causent les refus. Le README revendique 13 methodes, 116 modeles, 837 tests, 15 modules d'analyse.
Analyse critique¶
Marketing delirant sur une base technique reelle mais limitee.
| Affirme | Realite |
|---|---|
| "15 analysis modules" | Noms inventifs pour des operations standard (SVD, probing, sparse masking) |
| "837 tests" | Aucun benchmark visible dans le repo |
| "gets SMARTER every time" | Infrastructure de telemetrie non implementee |
| "116 models" | Des presets dans un fichier de config, pas des validations |
| "fingerprint DPO vs RLHF from subspace geometry" | Claim extraordinaire, zero preuve |
| "full reasoning stays intact" | Aucune evaluation de degradation des capabilities |
Le repo a 7 commits pour un README de 3000 mots. La technique de base (abliteration par SVD de la "refusal direction") est connue depuis ~2024 et publiee par d'autres. Ce projet l'emballe dans du marketing. En pratique, l'abliteration degrade les performances sur les benchmarks classiques — le paper original le montre.
Pertinence ProbatioVault¶
Pas d'impact direct sur ProbatioVault.