Aller au contenu

OBLITERATUS — Outil de suppression de censure LLM

Resume

Toolkit GitHub pour supprimer les mecanismes de refus des LLM open-weight par "abliteration" — identification et projection des representations internes qui causent les refus. Le README revendique 13 methodes, 116 modeles, 837 tests, 15 modules d'analyse.

Analyse critique

Marketing delirant sur une base technique reelle mais limitee.

Affirme Realite
"15 analysis modules" Noms inventifs pour des operations standard (SVD, probing, sparse masking)
"837 tests" Aucun benchmark visible dans le repo
"gets SMARTER every time" Infrastructure de telemetrie non implementee
"116 models" Des presets dans un fichier de config, pas des validations
"fingerprint DPO vs RLHF from subspace geometry" Claim extraordinaire, zero preuve
"full reasoning stays intact" Aucune evaluation de degradation des capabilities

Le repo a 7 commits pour un README de 3000 mots. La technique de base (abliteration par SVD de la "refusal direction") est connue depuis ~2024 et publiee par d'autres. Ce projet l'emballe dans du marketing. En pratique, l'abliteration degrade les performances sur les benchmarks classiques — le paper original le montre.

Pertinence ProbatioVault

Pas d'impact direct sur ProbatioVault.