Shadow Mode Evaluation - Phase 1 (Spécification) PD-44¶

Date: 2026-02-17 Story: PD-44 — WORM Validator Lambda Phase: 1 (SPÉCIFICATION)

Agents comparés¶

Agent	Modèle	Rôle
ChatGPT (prod)	openai/gpt-5.3-codex	Production
devstral-2 (shadow)	devstral-2:latest	Évaluation

Note: mixtral:8x22b a rencontré une erreur mémoire CUDA (unable to allocate buffer). devstral-2 utilisé comme fallback (modèle Mistral alternatif).

Résultats comparés¶

Critère	ChatGPT	devstral-2	Delta
Couverture fonctionnelle	9.5/10	7.5/10	-2.0
Critères d'acceptation	9.5/10	6.5/10	-3.0
Invariants	9.0/10	5.0/10	-4.0
Précision technique	9.0/10	7.0/10	-2.0
Clarté	8.5/10	8.0/10	-0.5
Structure	9.0/10	8.0/10	-1.0
Moyenne pondérée	9.17/10	6.75/10	-2.42

Analyse du juge (llama3.3:70b)¶

Couverture fonctionnelle (30%)¶

ChatGPT (Spec A): - 12/12 invariants explicites (INV-44-01 à INV-44-12) - 6 flux nominaux détaillés (FN-44-01 à FN-44-06) - 11 cas d'erreur (ERR-44-01 à ERR-44-11) - 12 critères d'acceptation testables (CA-44-01 à CA-44-12) - 10 scénarios de test Given/When/Then - 8 hypothèses explicites - Section 10 complète : 8 clarifications contractuelles avec valeurs concrètes

devstral-2 (Spec B): - 4 invariants seulement (générique) - 4 flux nominaux - 4 cas d'erreur - 5 critères d'acceptation (non numérotés) - 4 scénarios de test - 4 hypothèses - Section 10 incomplète : 5 clarifications sans valeurs concrètes

Points discriminants¶

Élément	ChatGPT	devstral-2
Intervalle contrôle	60 min + 15 min tolérance	"quotidien" (vague)
Couverture objet	100% récents, 5% échantillonnage	Non défini
Format preuve YAML	Schéma complet 20 champs	"JSON signé" (vague)
Durées rétention	4 classes définies (5-50 ans)	"défini ailleurs"
Classification strict	Tag S3 explicite	Non défini
Deep Archive	Bucket uniquement + justification	Non mentionné
Delete-marker replication	Disabled (learning PD-6)	Mentionné mais pas détaillé
Réplication WORM	INV-44-12 + ERR-44-08 + FN-44-05	Périmètre seulement

Verdict juge¶

"Spécification A est supérieure à Spécification B en termes de couverture fonctionnelle, de clarté et de précision technique."

Conclusion évaluation¶

devstral-2 est INFÉRIEUR à ChatGPT pour les spécifications Phase 1 :

Métrique	Valeur	Seuil	Statut
Delta moyen	-2.42	±1.0	❌ ÉCART SIGNIFICATIF
Couverture invariants	4 vs 12	≥10	❌ INSUFFISANT
Clarifications concrètes	0 vs 8	>0	❌ MANQUANT

Recommandation: devstral-2 ne peut pas être utilisé en production pour la Phase 1 (Spécification).

Prochaines étapes¶

✅ Évaluation shadow Phase 1 PD-44 complète
Résoudre problème mémoire mixtral:8x22b
Tester Phase 6 avec devstral-2 (code, pas spec)
Mettre à jour agent-registry.yaml

Artefacts¶

Spec candidate: /tmp/PD-44-shadow-spec-devstral.md
Prompt juge: /tmp/PD-44-judge-phase1-prompt.md
Ce rapport: PD-44-shadow-phase1-eval.md