PaliGemma 2 (Google): guida al modello vision-language

PaliGemma 2 (Google): modello vision-language open

Famiglia di modelli multimodali di Google che uniscono comprensione visiva e linguaggio per task specializzati e fine-tuning.

5 min di lettura

Cos'è PaliGemma 2

PaliGemma 2 è una famiglia di modelli di intelligenza artificiale vision-language sviluppata da Google DeepMind. Appartiene alla famiglia Gemma, la linea di modelli aperti di Google, e rappresenta l'evoluzione del precedente PaliGemma. A differenza dei large language model (LLM) puramente testuali, PaliGemma 2 è progettato per ricevere in input contemporaneamente immagini e testo e produrre output testuali coerenti con il contenuto visivo fornito.

Il modello è disponibile in tre taglie principali: 3 miliardi, 10 miliardi e 28 miliardi di parametri. Ciascuna taglia combina un encoder visivo di tipo SigLIP-So400m con un backbone linguistico derivato da Gemma 2, rispettivamente nelle varianti 2B, 9B e 27B. Le versioni sono inoltre addestrate a diverse risoluzioni, tipicamente 224, 448 e 896 pixel, in modo da offrire un compromesso scalabile tra qualità visiva, velocità di elaborazione e consumo di memoria. La variante più piccola è adatta a prototipi ed edge deployment, mentre quella più grande massimizza la capacità di comprensione su task complessi.

A cosa serve

PaliGemma 2 nasce per task specializzati di comprensione visiva e linguaggio. Non è concepito come un chatbot multimodale generalista a più turni: funziona al meglio come modello base da sottoporre a fine-tuning su compiti specifici. Le sue applicazioni principali includono la didascalia automatica di immagini e brevi video, la risposta a domande visive (VQA), l'estrazione e la lettura di testo da immagini (OCR), la segmentazione semantica e il grounding di oggetti, nonché task scientifici e medici che richiedono l'interpretazione di diagrammi, grafici o immagini tecniche.

Grazie alla capacità di lavorare a risoluzioni elevate, PaliGemma 2 è particolarmente indicato per l'analisi di documenti, l'ispezione industriale, la descrizione di prodotti in e-commerce e la generazione di annotazioni strutturate a partire da immagini. Può essere usato, ad esempio, per estrarre informazioni da fatture o schede tecniche, per generare automaticamente testi alternativi per l'accessibilità, o per costruire motori di ricerca semantica basati sul contenuto visivo.

Google mette a disposizione tre tipologie di checkpoint. I modelli PT (pre-trained) sono quelli generici da adattare con fine-tuning su un dominio specifico. I modelli FT (fine-tuned) sono versioni specializzate su dataset di ricerca. I modelli Mix, infine, sono ottimizzati su una miscela di task e sono pensati per essere utilizzati quasi subito su casi d'uso comuni, riducendo il lavoro di addestramento personalizzato.

PaliGemma 2 (Google): modello vision-language open

Cos'è PaliGemma 2

A cosa serve

Come funziona

Perché conta per founder, PMI e agenzie italiane

Dove trovarlo e come usarlo

Limiti da considerare