
Pixtral (Mistral AI): modello multimodale per testi e immagini
Famiglia di modelli vision-language di Mistral AI che legge immagini, documenti e testo per ragionamento multimodale su infrastruttura propria o cloud.
Cos'è Pixtral
Pixtral è la famiglia di modelli multimodali sviluppata da Mistral AI, l'azienda francese specializzata in large language model open weight. A differenza dei modelli di sola generazione testuale, Pixtral è un vision-language model (VLM): riceve in input sia testo sia immagini e restituisce risposte testuali che combinano comprensione visiva e ragionamento linguistico. La famiglia include principalmente due varianti: Pixtral 12B, rilasciato con licenza Apache 2.0, e Pixtral Large, la versione più potente basata sull'architettura di Mistral Large 2.
Pixtral 12B è composto da un language model da 12 miliardi di parametri abbinato a un vision encoder da 400 milioni di parametri. Pixtral Large sale a 124 miliardi di parametri totali e offre prestazioni superiori su compiti che richiedono ragionamento multimodale complesso. Entrambi i modelli sono open weight, nel senso che i pesi sono scaricabili e utilizzabili in proprio, anche se le licenze differiscono tra le due versioni.
A cosa serve
Pixtral è progettato per comprendere contemporaneamente immagini naturali e documenti. Nei casi d'uso tipici si trova analisi di grafici, tabelle e figure, estrazione di testo da immagini e PDF scannerizzati, descrizione dettagliata di fotografie, risposte a domande visive e assistenza alla scrittura di codice che parte da screenshot di interfacce. Il modello è inoltre in grado di gestire più immagini all'interno della stessa conversazione, confrontandole o estraendo relazioni tra di esse.
La sua abilità nel leggere documenti lo rende adatto a flussi di optical character recognition avanzato, dove non basta trascrivere il testo ma è necessario interpretarne il significato in contesto. Per esempio, può trasformare una tabella fotografata in dati strutturati, riassumere un report a partire da screenshot di slide o verificare la coerenza tra un'immagine tecnica e la sua didascalia.
Come funziona
L'architettura di Pixtral separa chiaramente la comprensione visiva dal ragionamento linguistico. Il vision encoder trasforma l'immagine in una sequenza di token che il language model può elaborare insieme al testo. Nel caso di Pixtral 12B, il modello impiega un vision encoder con 2D Rotary Positional Embeddings, una tecnica che conserva la posizione spaziale bidimensionale degli elementi nell'immagine, migliorando la capacità di riconoscere layout complessi come quelli di tabelle e form. L'adattatore tra encoder e language model utilizza l'attivazione GELU.
Il language model elabora quindi i token testuali e visivi congiuntamente attraverso un'architettura transformer, generando la risposta in autoregressione. Pixtral Large condivide lo stesso approccio ma si appoggia a un language model di dimensioni maggiori, derivato da Mistral Large 2, con una context window di 128.000 token. Questo consente di analizzare documenti lunghi o conversazioni ricche di immagini senza perdere il filo del contesto.
Sul piano delle prestazioni, Pixtral 12B ha ottenuto un punteggio del 52,5% sul benchmark MMMU, che misura il ragionamento accademico multimodale, posizionandosi al di sopra di diversi modelli di dimensioni maggiori. Pixtral Large raggiunge risultati ancora più elevati su benchmark di vision-language reasoning e mantiene forti capacità testuali in compiti come instruction following, coding e matematica.