
Qwen2.5-VL (Alibaba): modello vision-language open source
Modello multimodale di Alibaba in grado di leggere immagini, documenti, video e agire come agente visivo.
Cos'è Qwen2.5-VL
Qwen2.5-VL è una famiglia di modelli di intelligenza artificiale vision-language (VL) sviluppata dal Qwen Team di Alibaba Cloud. Rappresenta l'evoluzione della linea Qwen-VL e integra un modello linguistico di grandi dimensioni (LLM) con un encoder visivo, consentendo al sistema di ricevere in input contemporaneamente testo, immagini e video e di generare risposte testuali coerenti.
Il modello è stato rilasciato in più varianti di dimensione: 3B, 7B, 32B e 72B di parametri. Le versioni più piccole sono pensate per essere eseguite localmente su workstation o server con GPU consumer, mentre la variante da 72B è orientata a deployment su infrastrutture cloud o enterprise. Le varianti 3B, 7B e 32B sono generalmente disponibili con licenza Apache 2.0, che ne permette l'uso commerciale, la modifica e l'integrazione in prodotti proprietari; la versione 72B è invece distribuita con una licenza specifica di Alibaba, più restrittiva per gli usi commerciali di grandi dimensioni.
A cosa serve
Qwen2.5-VL è nato per risolvere compiti in cui il linguaggio naturale da solo non basta: è necessario "vedere" e interpretare contenuti visivi. Le sue principali applicazioni includono:
- OCR e lettura documentale: estrazione di testo da scansioni, fatture, moduli, contratti, screenshot e PDF.
- Comprensione di grafici e diagrammi: interpretazione di chart, tabelle, infografiche e layout complessi.
- Analisi di immagini: riconoscimento di oggetti, scene, icone, testo sovrapposto e relazioni spaziali.
- Comprensione video: capacità di analizzare video lunghi (anche oltre un'ora), individuare eventi specifici e rispondere a domande temporali.
- Agenticità visiva: il modello può funzionare come agente capace di interagire con interfacce grafiche (computer use, phone use), individuando elementi sullo schermo e generando coordinate per clic, bounding box o azioni strutturate.
- Output strutturato: generazione di JSON con coordinate, attributi e campi estratti, utile per l'automazione di processi documentali.
Queste capacità lo rendono uno strumento versatile per chi deve automatizzare l'elaborazione di contenuti visivi senza affidarsi esclusivamente a servizi API proprietari.
Come funziona
Dal punto di vista architetturale, Qwen2.5-VL combina tre componenti principali:
- Vision Transformer (ViT): un encoder visivo che trasforma immagini e frame video in token visivi. È ottimizzato con tecniche come window attention, SwiGLU e RMSNorm per ridurre i costi computazionali e allinearsi meglio alla componente linguistica.