
PaliGemma 2 (Google): modello vision-language open
Famiglia di modelli multimodali di Google che uniscono comprensione visiva e linguaggio per task specializzati e fine-tuning.
Cos'è PaliGemma 2
PaliGemma 2 è una famiglia di modelli di intelligenza artificiale vision-language sviluppata da Google DeepMind. Appartiene alla famiglia Gemma, la linea di modelli aperti di Google, e rappresenta l'evoluzione del precedente PaliGemma. A differenza dei large language model (LLM) puramente testuali, PaliGemma 2 è progettato per ricevere in input contemporaneamente immagini e testo e produrre output testuali coerenti con il contenuto visivo fornito.
Il modello è disponibile in tre taglie principali: 3 miliardi, 10 miliardi e 28 miliardi di parametri. Ciascuna taglia combina un encoder visivo di tipo SigLIP-So400m con un backbone linguistico derivato da Gemma 2, rispettivamente nelle varianti 2B, 9B e 27B. Le versioni sono inoltre addestrate a diverse risoluzioni, tipicamente 224, 448 e 896 pixel, in modo da offrire un compromesso scalabile tra qualità visiva, velocità di elaborazione e consumo di memoria. La variante più piccola è adatta a prototipi ed edge deployment, mentre quella più grande massimizza la capacità di comprensione su task complessi.
A cosa serve
PaliGemma 2 nasce per task specializzati di comprensione visiva e linguaggio. Non è concepito come un chatbot multimodale generalista a più turni: funziona al meglio come modello base da sottoporre a fine-tuning su compiti specifici. Le sue applicazioni principali includono la didascalia automatica di immagini e brevi video, la risposta a domande visive (VQA), l'estrazione e la lettura di testo da immagini (OCR), la segmentazione semantica e il grounding di oggetti, nonché task scientifici e medici che richiedono l'interpretazione di diagrammi, grafici o immagini tecniche.
Grazie alla capacità di lavorare a risoluzioni elevate, PaliGemma 2 è particolarmente indicato per l'analisi di documenti, l'ispezione industriale, la descrizione di prodotti in e-commerce e la generazione di annotazioni strutturate a partire da immagini. Può essere usato, ad esempio, per estrarre informazioni da fatture o schede tecniche, per generare automaticamente testi alternativi per l'accessibilità, o per costruire motori di ricerca semantica basati sul contenuto visivo.
Google mette a disposizione tre tipologie di checkpoint. I modelli PT (pre-trained) sono quelli generici da adattare con fine-tuning su un dominio specifico. I modelli FT (fine-tuned) sono versioni specializzate su dataset di ricerca. I modelli Mix, infine, sono ottimizzati su una miscela di task e sono pensati per essere utilizzati quasi subito su casi d'uso comuni, riducendo il lavoro di addestramento personalizzato.