Aller au contenu

Shadow Mode Evaluation - Phase 1 (Spécification) PD-44

Date: 2026-02-17 Story: PD-44 — WORM Validator Lambda Phase: 1 (SPÉCIFICATION)

Agents comparés

Agent Modèle Rôle
ChatGPT (prod) openai/gpt-5.3-codex Production
devstral-2 (shadow) devstral-2:latest Évaluation

Note: mixtral:8x22b a rencontré une erreur mémoire CUDA (unable to allocate buffer). devstral-2 utilisé comme fallback (modèle Mistral alternatif).


Résultats comparés

Critère ChatGPT devstral-2 Delta
Couverture fonctionnelle 9.5/10 7.5/10 -2.0
Critères d'acceptation 9.5/10 6.5/10 -3.0
Invariants 9.0/10 5.0/10 -4.0
Précision technique 9.0/10 7.0/10 -2.0
Clarté 8.5/10 8.0/10 -0.5
Structure 9.0/10 8.0/10 -1.0
Moyenne pondérée 9.17/10 6.75/10 -2.42

Analyse du juge (llama3.3:70b)

Couverture fonctionnelle (30%)

ChatGPT (Spec A): - 12/12 invariants explicites (INV-44-01 à INV-44-12) - 6 flux nominaux détaillés (FN-44-01 à FN-44-06) - 11 cas d'erreur (ERR-44-01 à ERR-44-11) - 12 critères d'acceptation testables (CA-44-01 à CA-44-12) - 10 scénarios de test Given/When/Then - 8 hypothèses explicites - Section 10 complète : 8 clarifications contractuelles avec valeurs concrètes

devstral-2 (Spec B): - 4 invariants seulement (générique) - 4 flux nominaux - 4 cas d'erreur - 5 critères d'acceptation (non numérotés) - 4 scénarios de test - 4 hypothèses - Section 10 incomplète : 5 clarifications sans valeurs concrètes

Points discriminants

Élément ChatGPT devstral-2
Intervalle contrôle 60 min + 15 min tolérance "quotidien" (vague)
Couverture objet 100% récents, 5% échantillonnage Non défini
Format preuve YAML Schéma complet 20 champs "JSON signé" (vague)
Durées rétention 4 classes définies (5-50 ans) "défini ailleurs"
Classification strict Tag S3 explicite Non défini
Deep Archive Bucket uniquement + justification Non mentionné
Delete-marker replication Disabled (learning PD-6) Mentionné mais pas détaillé
Réplication WORM INV-44-12 + ERR-44-08 + FN-44-05 Périmètre seulement

Verdict juge

"Spécification A est supérieure à Spécification B en termes de couverture fonctionnelle, de clarté et de précision technique."


Conclusion évaluation

devstral-2 est INFÉRIEUR à ChatGPT pour les spécifications Phase 1 :

Métrique Valeur Seuil Statut
Delta moyen -2.42 ±1.0 ❌ ÉCART SIGNIFICATIF
Couverture invariants 4 vs 12 ≥10 ❌ INSUFFISANT
Clarifications concrètes 0 vs 8 >0 ❌ MANQUANT

Recommandation: devstral-2 ne peut pas être utilisé en production pour la Phase 1 (Spécification).


Prochaines étapes

  1. ✅ Évaluation shadow Phase 1 PD-44 complète
  2. Résoudre problème mémoire mixtral:8x22b
  3. Tester Phase 6 avec devstral-2 (code, pas spec)
  4. Mettre à jour agent-registry.yaml

Artefacts

  • Spec candidate: /tmp/PD-44-shadow-spec-devstral.md
  • Prompt juge: /tmp/PD-44-judge-phase1-prompt.md
  • Ce rapport: PD-44-shadow-phase1-eval.md