Qwen2.5-VL: modello vision-language di Alibaba

Qwen2.5-VL (Alibaba): modello vision-language open source

Modello multimodale di Alibaba in grado di leggere immagini, documenti, video e agire come agente visivo.

6 min di lettura

Cos'è Qwen2.5-VL

Qwen2.5-VL è una famiglia di modelli di intelligenza artificiale vision-language (VL) sviluppata dal Qwen Team di Alibaba Cloud. Rappresenta l'evoluzione della linea Qwen-VL e integra un modello linguistico di grandi dimensioni (LLM) con un encoder visivo, consentendo al sistema di ricevere in input contemporaneamente testo, immagini e video e di generare risposte testuali coerenti.

Il modello è stato rilasciato in più varianti di dimensione: 3B, 7B, 32B e 72B di parametri. Le versioni più piccole sono pensate per essere eseguite localmente su workstation o server con GPU consumer, mentre la variante da 72B è orientata a deployment su infrastrutture cloud o enterprise. Le varianti 3B, 7B e 32B sono generalmente disponibili con licenza Apache 2.0, che ne permette l'uso commerciale, la modifica e l'integrazione in prodotti proprietari; la versione 72B è invece distribuita con una licenza specifica di Alibaba, più restrittiva per gli usi commerciali di grandi dimensioni.

A cosa serve

Qwen2.5-VL è nato per risolvere compiti in cui il linguaggio naturale da solo non basta: è necessario "vedere" e interpretare contenuti visivi. Le sue principali applicazioni includono:

OCR e lettura documentale: estrazione di testo da scansioni, fatture, moduli, contratti, screenshot e PDF.
Comprensione di grafici e diagrammi: interpretazione di chart, tabelle, infografiche e layout complessi.
Analisi di immagini: riconoscimento di oggetti, scene, icone, testo sovrapposto e relazioni spaziali.
Comprensione video: capacità di analizzare video lunghi (anche oltre un'ora), individuare eventi specifici e rispondere a domande temporali.
Agenticità visiva: il modello può funzionare come agente capace di interagire con interfacce grafiche (computer use, phone use), individuando elementi sullo schermo e generando coordinate per clic, bounding box o azioni strutturate.
Output strutturato: generazione di JSON con coordinate, attributi e campi estratti, utile per l'automazione di processi documentali.

Queste capacità lo rendono uno strumento versatile per chi deve automatizzare l'elaborazione di contenuti visivi senza affidarsi esclusivamente a servizi API proprietari.

Come funziona

Dal punto di vista architetturale, Qwen2.5-VL combina tre componenti principali:

Vision Transformer (ViT): un encoder visivo che trasforma immagini e frame video in token visivi. È ottimizzato con tecniche come window attention, SwiGLU e RMSNorm per ridurre i costi computazionali e allinearsi meglio alla componente linguistica.

Qwen2.5-VL (Alibaba): modello vision-language open source

Cos'è Qwen2.5-VL

A cosa serve

Come funziona

Perché conta per founder, PMI e agenzie italiane

Dove trovarlo e come usarlo

Limiti da considerare