Shadow Mode Evaluation - Phase 1 (Spécification) PD-44¶
Date: 2026-02-17 Story: PD-44 — WORM Validator Lambda Phase: 1 (SPÉCIFICATION)
Agents comparés¶
| Agent | Modèle | Rôle |
|---|---|---|
| ChatGPT (prod) | openai/gpt-5.3-codex | Production |
| devstral-2 (shadow) | devstral-2:latest | Évaluation |
Note: mixtral:8x22b a rencontré une erreur mémoire CUDA (unable to allocate buffer). devstral-2 utilisé comme fallback (modèle Mistral alternatif).
Résultats comparés¶
| Critère | ChatGPT | devstral-2 | Delta |
|---|---|---|---|
| Couverture fonctionnelle | 9.5/10 | 7.5/10 | -2.0 |
| Critères d'acceptation | 9.5/10 | 6.5/10 | -3.0 |
| Invariants | 9.0/10 | 5.0/10 | -4.0 |
| Précision technique | 9.0/10 | 7.0/10 | -2.0 |
| Clarté | 8.5/10 | 8.0/10 | -0.5 |
| Structure | 9.0/10 | 8.0/10 | -1.0 |
| Moyenne pondérée | 9.17/10 | 6.75/10 | -2.42 |
Analyse du juge (llama3.3:70b)¶
Couverture fonctionnelle (30%)¶
ChatGPT (Spec A): - 12/12 invariants explicites (INV-44-01 à INV-44-12) - 6 flux nominaux détaillés (FN-44-01 à FN-44-06) - 11 cas d'erreur (ERR-44-01 à ERR-44-11) - 12 critères d'acceptation testables (CA-44-01 à CA-44-12) - 10 scénarios de test Given/When/Then - 8 hypothèses explicites - Section 10 complète : 8 clarifications contractuelles avec valeurs concrètes
devstral-2 (Spec B): - 4 invariants seulement (générique) - 4 flux nominaux - 4 cas d'erreur - 5 critères d'acceptation (non numérotés) - 4 scénarios de test - 4 hypothèses - Section 10 incomplète : 5 clarifications sans valeurs concrètes
Points discriminants¶
| Élément | ChatGPT | devstral-2 |
|---|---|---|
| Intervalle contrôle | 60 min + 15 min tolérance | "quotidien" (vague) |
| Couverture objet | 100% récents, 5% échantillonnage | Non défini |
| Format preuve YAML | Schéma complet 20 champs | "JSON signé" (vague) |
| Durées rétention | 4 classes définies (5-50 ans) | "défini ailleurs" |
| Classification strict | Tag S3 explicite | Non défini |
| Deep Archive | Bucket uniquement + justification | Non mentionné |
| Delete-marker replication | Disabled (learning PD-6) | Mentionné mais pas détaillé |
| Réplication WORM | INV-44-12 + ERR-44-08 + FN-44-05 | Périmètre seulement |
Verdict juge¶
"Spécification A est supérieure à Spécification B en termes de couverture fonctionnelle, de clarté et de précision technique."
Conclusion évaluation¶
devstral-2 est INFÉRIEUR à ChatGPT pour les spécifications Phase 1 :
| Métrique | Valeur | Seuil | Statut |
|---|---|---|---|
| Delta moyen | -2.42 | ±1.0 | ❌ ÉCART SIGNIFICATIF |
| Couverture invariants | 4 vs 12 | ≥10 | ❌ INSUFFISANT |
| Clarifications concrètes | 0 vs 8 | >0 | ❌ MANQUANT |
Recommandation: devstral-2 ne peut pas être utilisé en production pour la Phase 1 (Spécification).
Prochaines étapes¶
- ✅ Évaluation shadow Phase 1 PD-44 complète
- Résoudre problème mémoire mixtral:8x22b
- Tester Phase 6 avec devstral-2 (code, pas spec)
- Mettre à jour agent-registry.yaml
Artefacts¶
- Spec candidate:
/tmp/PD-44-shadow-spec-devstral.md - Prompt juge:
/tmp/PD-44-judge-phase1-prompt.md - Ce rapport:
PD-44-shadow-phase1-eval.md