
ColPali: retriever visivo per documenti basato su PaliGemma-3B
Modello open source che indicizza pagine di documenti come immagini e le recupera rispondendo a domande in linguaggio naturale.
Cos'è ColPali
ColPali è un modello di intelligenza artificiale multimodale progettato per il recupero efficiente di documenti a partire dalle loro caratteristiche visive. Il nome unisce due elementi tecnici: "Col", che rimanda all'architettura ColBERT di ricerca informazione, e "Pali", dal modello PaliGemma-3B sviluppato da Google. A differenza dei sistemi tradizionali di information retrieval su documenti, ColPali non richiede l'estrazione preventiva del testo tramite OCR né la ricostruzione strutturale del layout: prende in input direttamente l'immagine della pagina e la confronta con la query dell'utente.
Il modello è stato proposto nel paper ColPali: Efficient Document Retrieval with Vision Language Models, pubblicato su arXiv con identificativo 2407.01449, dagli autori Manuel Faysse, Hugues Sibille, Tony Wu, Bilel Omrani, Gautier Viaud, Céline Hudelot e Pierre Colombo. Il progetto di ricerca e sviluppo è condotto da Vidore, team specializzato in retrieval visivo e spin-off di Illuin Technology, azienda francese attiva nel campo dell'elaborazione del linguaggio naturale e della computer vision.
A cosa serve
ColPali serve a trovare la pagina o il frammento di documento più rilevante dato una domanda in linguaggio naturale. L'applicazione tipica è il document retrieval all'interno di archivi digitali composti da PDF, presentazioni, report, fatture, contratti, manuali tecnici e pagine scansionate. Invece di convertire ogni pagina in testo puro e poi indicizzarla, ColPali lavora sull'immagine della pagina nel suo insieme, catturando contemporaneamente testo, formattazione, tabelle, grafici, loghi e disposizione spaziale degli elementi.
Questo approccio è particolarmente utile quando il significato di una pagina dipende non solo dalle parole scritte, ma anche da come sono disposte. Un esempio classico è una tabella finanziaria: la posizione di una cifra all'interno di righe e colonne è informativa tanto quanto il numero stesso. Analogamente, slide, brochure tecniche e certificati contengono informazioni distribuite su più blocchi visivi che un semplice flusso di testo perderebbe. ColPali permette di interrogare questi documenti con domande libere, come "qual è il fatturato del terzo trimestre?" o "in quale università lavora James V. Fiorca?", e di recuperare le pagine pertinenti.
Come funziona
L'architettura di ColPali si appoggia a PaliGemma-3B, un Vision Language Model che combina un encoder visivo SigLIP con un piccolo language model Gemma-2B. A partire da questo backbone, gli autori hanno sviluppato una versione bimodale che genera rappresentazioni dense sia per il testo della query sia per le patch visive della pagina. Il cuore innovativo è l'adozione di una strategia di late interaction simile a ColBERT: ogni token della query e ogni patch dell'immagine vengono proiettati in uno spazio latente condiviso, e il punteggio di rilevanza si ottiene massimizzando le similarità tra i singoli vettori.