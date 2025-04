MarkItDown è uno strumento open source sviluppato da Microsoft e progettato per convertire diversi formati di file e documenti in Markdown. Scritto in linguaggio Python, offre una soluzione efficiente per trasformare documenti complessi in testo Markdown strutturato. Facilita così l'integrazione con piattaforme come per esempio CMS e servizi per il blogging.

I formati di file supportati da MarkItDown

MarkItDown supporta la conversione di diversi formati di file tra cui:

Documenti PDF: estrae testo e immagini mantenendo la struttura originale del documento.

Presentazioni PowerPoint ( .pptx ): converte diapositive in sezioni Markdown preservando titoli e contenuti.

): converte diapositive in sezioni Markdown preservando titoli e contenuti. Documenti Word ( .docx ): trasforma il contenuto in Markdown, mantenendo formattazioni come grassetto, corsivo e liste di elementi.

): trasforma il contenuto in Markdown, mantenendo formattazioni come grassetto, corsivo e liste di elementi. Fogli di calcolo Excel ( .xlsx ): converte tabelle e dati in formato tabellare Markdown.

): converte tabelle e dati in formato tabellare Markdown. Immagini: utilizza metadati EXIF e OCR per estrarre del testo dalle immagini.

Audio: supporta la trascrizione automatica del parlato in testo.

HTML: gestisce la conversione di pagine web.

Sono poi supportati altri formati tra cui CSV, JSON e XML.

Un'architettura basata sui plugin

Tra le caratteristiche più interessanti di MarkItDown troviamo la sua architettura modulare basata su plugin che consente agli sviluppatori di terze parti di estendere facilmente le funzionalità di base del progetto. Questa particolare impostazione permette l'integrazione di nuovi convertitori così come la personalizzazione in caso di esigenze specifiche.

Un altro aspetto da segnalare riguarda l'alto livello di integrazione con gli LLM (Large Language Model). MarkItDown supporta infatti l'interazione con i modelli generativi, come GPT-4o, per offrire performance ancora più avanzate nella comprensione e nella conversione dei contenuti. È possibile ad esempio inviare immagini contenute nei documenti ad un LLM per ottenere descrizioni dettagliate o convertire grafici in tabelle Markdown.

Installazione e utilizzo

Per installare MarkItDown con tutte le funzionalità disponibili è possibile utilizzare il seguente comando:

pip install 'markitdown[all]'

L'utilizzo di base dello strumento per convertire un file è altrettanto semplice:

from markitdown import MarkItDown md = MarkItDown() result = md.convert("percorso/al/file") print(result.markdown)