
Phi-4 Multimodal (Microsoft): modello 5.6B per testo, immagini, audio
Un piccolo modello multimodale di Microsoft che unifica linguaggio, visione e audio in un'unica architettura efficiente e aperta.
Cos'è Phi-4 Multimodal
Phi-4-multimodal-instruct è un modello fondazionale multimodale sviluppato da Microsoft. Appartiene alla famiglia Phi, una linea di Small Language Models (SLM) progettati per offrire prestazioni elevate mantenendo dimensioni contenute. La variante multimodale si distingue perché unifica in un'unica rete tre modalità di input — testo, immagini e audio — generando output in linguaggio naturale.
Il modello conta 5,6 miliardi di parametri totali. Pur essendo compatto, è stato addestrato su una mole significativa di dati: circa 5 trilioni di token testuali, 2,3 milioni di ore di dati vocali e 1,1 trilione di coppie immagine-testo. Il contesto massimo è di 128.000 token, una finestra ampia che consente di gestire conversazioni lunghe, documenti estesi o contenuti audio di circa 2,8 ore in un'unica richiesta.
Rilasciato sotto licenza MIT, Phi-4-multimodal-instruct può essere utilizzato per scopi commerciali e di ricerca senza i vincoli tipici di altri modelli aperti. Questo lo rende particolarmente interessante per startup, agenzie e piccole-medie imprese che vogliono integrare l'intelligenza artificiale generativa nei propri prodotti senza dipendere esclusivamente da API cloud proprietarie.
Come funziona
L'architettura di Phi-4-multimodal si basa su un decoder Transformer con 32 livelli e Grouped Query Attention (GQA), una tecnica che riduce l'uso di memoria durante l'inferenza mantenendo la qualità delle risposte. Il cuore del modello è lo stesso backbone di Phi-4-mini, a cui vengono affiancati encoder specializzati per la visione e per l'audio.
Per la visione viene impiegato SigLIP-400M, un encoder che converte le immagini in rappresentazioni compatibili con lo spazio semantico del linguaggio. Per l'audio, il modello utilizza un encoder con 3 livelli CNN e 24 blocchi Conformer, che estraggono caratteristiche acustiche ad alta risoluzione. Tali rappresentazioni vengono poi proiettate nello spazio embedding del testo attraverso piccoli percettori a due strati, permettendo al modello di ragionare su immagini e suoni come se fossero sequenze linguistiche.
L'innovazione chiave è l'uso della tecnica Mixture of LoRAs (Low-Rank Adaptations). Invece di riaddestrare l'intero modello per ogni modalità, Microsoft ha addestrato adapter LoRA separati per visione e audio. Ogni adapter attiva solo i pesi necessari quando il modello riceve un determinato tipo di input. Questo approccio minimizza l'interferenza tra le modalità — un problema comune nei modelli multimodali — e consente di specializzare il modello mantenendo la base di linguaggio coerente.
Il tokenizer si avvale di tiktoken con un vocabolario di circa 200.000 token, che supporta 23 lingue in modalità testuale. Per l'audio, il riconoscimento vocale copre 8 lingue: inglese, cinese, tedesco, francese, italiano, giapponese, spagnolo e portoghese.
A cosa serve
Phi-4-multimodal-instruct è progettato per compiti che richiedono la comprensione contemporanea di più tipi di contenuto. Le applicazioni principali includono: