
NVLM 1.0 (NVIDIA): VLM open weight da 72 miliardi di parametri
Famiglia di modelli multimodali sviluppata da NVIDIA che unisce comprensione del testo e dell'immagine con prestazioni di fascia frontier.
Cos'è NVLM 1.0
NVLM 1.0 è una famiglia di modelli di linguaggio multimodale (Multimodal Large Language Model, MLLM) sviluppata da NVIDIA e presentata nel settembre 2024. L'obiettivo del progetto è dimostrare che un modello open weight può competere con i sistemi proprietari di punta su compiti che richiedono contemporaneamente comprensione del testo e dell'immagine. NVIDIA ha rilasciato i pesi e il codice di riferimento per la comunità di ricerca, rendendo NVLM 1.0 un punto di riferimento nello sviluppo di modelli visivo-linguistici aperti.
La famiglia comprende tre varianti architetturali, tutte con 72 miliardi di parametri: NVLM-D, con architettura decoder-only; NVLM-X, basata su cross-attention; e NVLM-H, un'architettura ibrida che combina i vantaggi delle due precedenti. La versione più nota e disponibile pubblicamente è NVLM-D-72B, distribuita attraverso Hugging Face.
A cosa serve
NVLM 1.0 è progettato per risolvere compiti di vision-language e testo puro. Può analizzare immagini, leggere testo presente in scene fotografiche o documenti (OCR), interpretare grafici e tabelle, descrivere dettagliatamente il contenuto visivo e rispondere a domande che richiedono ragionamento multimodale. È inoltre in grado di affrontare problemi di matematica visiva, coding da pseudocodice o screenshot, e domande che combinano conoscenza di mondo e percezione visiva.
Rispetto a molti modelli multimodali aperti, NVLM 1.0 mantiene — e in alcuni casi migliora — le prestazioni sul testo puro rispetto al suo backbone linguistico. Questo lo rende adatto a scenari ibridi in cui un'applicazione deve passare senza soluzione di continuità tra conversazioni testuali e analisi di immagini, senza dover gestire due modelli separati.
Come funziona
L'architettura di NVLM 1.0 si appoggia a due componenti principali: un large language model (LLM) testuale e un encoder visivo. Per le varianti da 72 miliardi di parametri, NVIDIA ha utilizzato Qwen2-72B-Instruct come backbone linguistico e InternViT-6B-448px-V1-5 come encoder delle immagini, mantenuto congelato durante l'addestramento.
Il modello riceve in input testo e immagini. Le immagini vengono suddivise dinamicamente in tessere (tile) ad alta risoluzione, fino a un massimo di 6 tessere più un'anteprima globale. Ogni tessera viene elaborata dall'encoder visivo e trasformata in token visivi. Per aiutare il modello a comprendere la struttura spaziale delle tessere, NVIDIA ha introdotto dei tag testuali 1-D, come <tile_1> o <tile_2>, inseriti prima dei token di ciascuna tessera. Questa tecnica, chiamata tile-tagging, migliora significativamente le prestazioni su compiti OCR e ragionamento multimodale.
Le tre varianti differiscono per come elaborano i token visivi:
- NVLM-D (decoder-only): i token visivi vengono proiettati nello spazio embedding del linguaggio attraverso un MLP a due strati e poi elaborati insieme ai token di testo all'interno del decoder. Questa architettura offre un ragionamento multimodale unificato ed eccelle in compiti OCR.