Aller au contenu

MarkItDown — Convertisseur universel vers Markdown pour LLM

Resume

MarkItDown est un utilitaire Python de Microsoft qui convertit des fichiers binaires (PDF, Word, Excel, PowerPoint, HTML, images avec OCR, audio) en Markdown structure pour alimenter des LLM. Installation modulaire (pip install 'markitdown[pdf,docx]'), plugin MCP pour Claude Desktop. 90K+ stars, 302 commits, v0.1.5, Microsoft-backed. Licence MIT.

Analyse critique

Points forts :

  • Couverture large : PDF, DOCX, XLSX, PPTX, HTML, images (EXIF + OCR), audio, CSV, JSON, XML, ZIP, EPub — quasi exhaustif pour les formats "opaques"
  • Installation modulaire : pas de bloat, on installe uniquement les extracteurs necessaires
  • 90K stars, Microsoft : projet perenne, pas un side-project qui disparait
  • Plugin MCP : integration directe avec Claude Desktop
  • Architecture propre : flux binaires (plus de fichiers temporaires depuis v0.1.0), systeme de plugins tiers

Points de vigilance :

  • API encore en stabilisation : la v0.1.0 a casse la compatibilite ascendante (deps optionnelles, API modifiee)
  • OCR et transcription audio : delegues a des services externes (Azure Document Intelligence, OpenAI) — pas local par defaut
  • Pas de haute fidelite : preserve la structure, pas le rendu visuel — c'est voulu mais a garder en tete

Pertinence ProbatioVault

Trois cas d'usage concrets :

  1. Workflow de gouvernance (etape 0) : convertir les docs clients (PDF contrats, Word specs) en markdown avant injection dans les prompts LLM pour l'expression de besoin
  2. Normes reglementaires : convertir NF Z42-013, ISO 14641, eIDAS depuis PDF vers markdown indexable dans la base documentaire
  3. Pipeline Voxtral : MarkItDown gere deja la transcription audio (via API externe), complementaire au deploiement local Voxtral prevu sur l'IA-Server

Ne gere pas YAML ni JSONL — mais ce n'est pas son role. C'est un convertisseur de formats binaires vers du texte structure.