
Docling: parser documentale open-source di IBM per l'AI generativa
Trasforma PDF, fogli Excel, presentazioni e scansioni in testo strutturato pronto per RAG e agenti AI, tutto in locale.
Cos'è Docling
Docling è un toolkit open-source per l'elaborazione documentale sviluppato originariamente da IBM Research e successivamente donato alla Linux Foundation AI & Data nel 2024. Rilasciato sotto licenza MIT, si propone come ponte tra i documenti aziendali tradizionali e le applicazioni di intelligenza artificiale generativa. L'obiettivo è ambizioso ma chiaro: trasformare file non strutturati o semi-strutturati — PDF, Word, Excel, PowerPoint, email, immagini, audio — in dati leggibili, navigabili e pronti per essere indicizzati, ricercati o passati a modelli di linguaggio.
A differenza di molti parser che si limitano a estrarre il testo grezzo, Docling cerca di comprendere il documento. Riconosce la gerarchia dei titoli, l'ordine di lettura corretto, le tabelle, le formule matematiche, i blocchi di codice, le immagini, le didascalie e perfino i grafici. Il risultato non è un semplice copia-e-incolla, ma una rappresentazione intermedia chiamata DoclingDocument, che può essere esportata in Markdown, HTML, JSON o altri formati ottimizzati per pipeline di Retrieval-Augmented Generation e agenti AI.
A cosa serve
Docling risolve uno dei problemi più noiosi e costosi dell'AI aziendale: preparare i documenti interni perché un modello possa usarli davvero. Nelle PMI, nelle agenzie e negli studi professionali italiani, la conoscenza è spesso intrappolata in fatture PDF, contratti Word, preventivi Excel, presentazioni PowerPoint, verbali scansionati o email archiviate. Copiare il testo a mano non è scalabile; affidarsi a servizi cloud può creare problemi di riservatezza, costi ricorrenti e dipendenza da fornitori esteri.
Docling serve a:
- Costruire knowledge base intelligenti: indicizzare manuali, regolamenti, documenti tecnici e FAQ per chatbot o motori di ricerca semantica.
- Alimentare sistemi RAG: produrre chunk di testo coerenti, con metadati di layout e struttura, per migliorare la precisione delle risposte dei LLM.
- Automatizzare l'estrazione dati: trasformare tabelle da bilanci, fatture o report in dati strutturati utilizzabili in database o fogli di calcolo.
- Processare documenti sensibili in locale: nessun file lascia l'infrastruttura, cosa fondamentale per GDPR, segreto professionale e dati sanitari o finanziari.
- Digitalizzare archivi cartacei: grazie all'OCR integrato, anche scansioni e fotografie diventano testo ricercabile.
Per esempio, uno studio commercialista può usare Docling per estrarre in automatico tabelle da bilanci XBRL; un'agenzia può indicizzare brief e report creativi; un'azienda manifatturiera può caricare manuali di manutenzione in un assistente interno.
Come funziona
Docling si installa come libreria Python con pip install docling oppure si avvia come servizio API tramite . È disponibile anche una CLI per conversioni puntuali. L'architettura è modulare: il documento viene prima analizzato da modelli specializzati, poi rappresentato in un formato unico e infine esportato nel formato desiderato.