
InternVL 3: modello multimodale open source da Shanghai AI Lab
Una famiglia di modelli visione-linguaggio addestrati nativamente su testo e immagini, competitiva con i sistemi proprietari più avanzati.
Cos'è
InternVL 3 è una famiglia di modelli di intelligenza artificiale multimodale sviluppata da Shanghai AI Lab e rilasciata dal gruppo di ricerca OpenGVLab. Il nome indica la terza generazione della serie InternVL, una linea di large multimodal language model (MLLM) progettata per elaborare contemporaneamente testo e immagini, e più in generale contenuti visivi come grafici, documenti, video e scene 3D.
A differenza di molti sistemi multimodali costruiti a partire da un modello linguistico testuale a cui viene poi aggiunto un modulo visivo, InternVL 3 adotta un paradigma di pre-addestramento multimodale nativo: durante la fase iniziale il modello viene esposto contemporaneamente a corpora di testo puro e a dati multimodali, come coppie immagine-testo, sequenze video-testo e documenti interleaved. Questo approccio unificato mira a ridurre i problemi di allineamento tra modaliità che si osservano nelle pipeline tradizionali, in cui un LLM testuale viene successivamente adattato alla visione.
La serie comprende varianti che vanno da 1 a 78 miliardi di parametri: InternVL3-1B, InternVL3-2B, InternVL3-8B, InternVL3-9B, InternVL3-14B, InternVL3-38B e InternVL3-78B. Ciascuna taglia combina un encoder visivo InternViT (nelle versioni da 300 milioni o 6 miliardi di parametri) con un modello linguistico della famiglia Qwen 2.5 o InternLM 3, collegati da un proiettore MLP. La variante più grande, InternVL3-78B, ha raggiunto 72,2 punti sul benchmark MMMU, posizionandosi ai vertici tra i modelli open source per ragionamento multidisciplinare su contenuti visivi.
A cosa serve
InternVL 3 è pensato per qualsiasi applicazione in cui un sistema AI debba comprendere e ragionare su immagini, documenti, grafici, video o interfacce utente. Le sue capacità coprono diversi ambiti operativi:
- Descrizione e ragionamento visivo: può generare didascalie dettagliate, rispondere a domande su immagini e confrontare contenuti visivi multipli.
- OCR e comprensione documentale: legge testo presente in immagini, scansioni, PDF e infographic, ed è valutato su benchmark come DocVQA, TextVQA, OCRBench e ChartQA.
- Matematica e ragionamento scientifico: interpreta formule, grafici e diagrammi scientifici, con performance competitive su MathVista, MathVision e MathVerse.
- Multi-image e video understanding: gestisce più immagini nella stessa conversazione e analizza sequenze video, utile per applicazioni di sorveglianza, editing assistito o catalogazione di contenuti.
- Agenti e interfacce: il modello è stato addestrato anche su dati relativi a tool usage, operazioni GUI e comprensione di scene 3D, aprendo scenari di automazione di interfacce e assistenti visuali.
In sintesi, InternVL 3 si colloca come alternativa open source a sistemi proprietari multimodali, adatta sia a esperimenti di ricerca che a prototipi industriali.