
Llama 3.2 Vision (Meta): modello multimodale open per immagini e testo
Famiglia di modelli multimodali di Meta che legge immagini e testo per rispondere in linguaggio naturale, con varianti da 11 e 90 miliardi di parametri.
Cos'è Llama 3.2 Vision
Llama 3.2 Vision è la famiglia di modelli multimodali rilasciata da Meta che estende i modelli testuali Llama 3.1 con la capacità di ricevere in input sia testo sia immagini e generare output testuali. Annunciata il 25 settembre 2024, la famiglia esiste in due dimensioni principali: 11B (circa 10,6 miliardi di parametri effettivi) e 90B (circa 88,8 miliardi). Entrambe le varianti condividono un contesto massimo di 128.000 token, utilizzano la Grouped-Query Attention (GQA) per rendere l'inferenza più efficiente e sono state addestrate su circa 6 miliardi di coppie immagine-testo. Il knowledge cutoff dei dati di pre-training è dicembre 2023.
A differenza dei modelli testuali puri, Llama 3.2 Vision può descrivere il contenuto di una foto, rispondere a domande su un'immagine, estrarre informazioni da documenti scansionati e collegare regioni visive a descrizioni linguistiche. È rilasciato sotto la Llama 3.2 Community License, una licenza commerciale personalizzata che permette l'uso in ricerca e in produzione, con l'unica clausola rilevante che obbliga le aziende con oltre 700 milioni di utenti attivi mensili a richiedere un'autorizzazione specifica a Meta.
A cosa serve
Il modello è progettato per compiti di image reasoning: non si limita a riconoscere oggetti, ma cerca di ragionare sulle relazioni tra gli elementi visivi e il testo. Gli use case ufficiali includono:
- Visual Question Answering (VQA): rispondere a domande in linguaggio naturale su un'immagine.
- DocVQA: estrarre e comprendere testo e layout da documenti, moduli, mappe o contratti.
- Image Captioning: generare didascalie descrittive e contestuali.
- Image-Text Retrieval: abbinare immagini e descrizioni per motori di ricerca semantici.
- Visual Grounding: individuare in un'immagine le regioni a cui si riferisce una frase.
Per i soli compiti testuali, il modello supporta ufficialmente otto lingue: inglese, tedesco, francese, italiano, portoghese, hindi, spagnolo e thai. Per le applicazioni che combinano immagini e testo, invece, il supporto ufficiale è limitato all'inglese, anche se è possibile addestrare varianti locali su corpus multilingue. Esempi concreti per il mercato italiano includono la classificazione automatica di schede prodotto per l'e-commerce, l'estrazione di dati da fatture e bolle di consegna, la verifica visiva in cantieri o impianti e l'assistenza alla manutenzione basata su foto tecniche.
Come funziona
Llama 3.2 Vision si appoggia all'architettura di Llama 3.1, un transformer autoregressivo ottimizzato. Per gestire le immagini, Meta ha aggiunto un vision adapter composto da strati di cross-attention che collegano un image encoder pre-addestrato al linguaggio di base. Durante l'addestramento dell'adapter, i parametri dell'encoder visivo sono stati aggiornati, mentre quelli del modello linguistico sono rimasti congelati: in questo modo le capacità testuali del modello restano intatte e il modello visivo può essere usato come sostituto quasi diretto dei corrispondenti Llama 3.1 testuali.