
Molmo (Allen AI): famiglia open di modelli visione-linguaggio
Modelli multimodali open weight di Ai2 che leggono immagini e video e indicano oggetti nel mondo reale.
Cos'è Molmo
Molmo è una famiglia di modelli di intelligenza artificiale multimodale sviluppata dall'Allen Institute for AI (Ai2), un istituto di ricerca no-profit con sede a Seattle. Il nome sta per Multimodal Open Language Model: l'obiettivo è combinare la comprensione del linguaggio naturale con la capacità di analizzare immagini e, nelle versioni più recenti, anche video. A differenza di molti concorrenti proprietari, Molmo è distribuito come open weight e, in molti casi, include anche codice, dati di addestramento e documentazione tecnica aperta.
La famiglia include varianti di diversa dimensione. Le prime versioni comprendono MolmoE-1B (un modello mixture-of-experts con 1 miliardo di parametri attivi su 7 miliardi totali), Molmo-7B-O (basato sul modello linguistico OLMo di Ai2), Molmo-7B-D (basato su Qwen2 7B) e Molmo-72B (basato su Qwen2 72B). Esiste poi Molmo 2, evoluzione con modelli da 4B, 7B e 8B parametri, pensata per il ragionamento visivo, la comprensione video, il pointing e il tracking di oggetti.
A cosa serve
Molmo serve a qualsiasi applicazione in cui un software deve "capire" ciò che mostra un'immagine o un video e rispondere in linguaggio naturale. Gli usi tipici includono: descrizione dettagliata di fotografie, risposta a domande visive (visual question answering), estrazione di testo dalle immagini, conteggio di oggetti, localizzazione di elementi in una scena e supporto a flussi di lavoro che combinano testo e visione.
Una caratteristica distintiva è la capacità di indicare ciò che vede: se gli si chiede dove si trova un oggetto, Molmo può restituire coordinate o punti sull'immagine, non solo una descrizione testuale. Questo lo rende adatto a scenari di grounding visivo, assistenza robotica, accessibilità, automazione di interfacce e sviluppo di agenti AI che interagiscono con il mondo fisico e digitale.
Come funziona
Molmo è un vision-language model (VLM): accetta in input una o più immagini (o fotogrammi video) insieme a un prompt testuale e genera una risposta coerente con entrambi i contenuti. L'architettura combina un encoder visivo con un large language model che produce il testo. Nella prima generazione l'encoder visivo è un CLIP ViT-L/14 addestrato su risoluzione 336 pixel; le versioni successive adottano configurazioni ottimizzate per video e compiti di grounding.
A seconda della variante, il backbone linguistico può essere OLMo, Qwen2, Qwen3 o altri modelli open. MolmoE-1B utilizza un'architettura mixture-of-experts per attivare solo una frazione dei parametri per token, riducendo i requisiti computazionali pur mantenendo buone prestazioni. Le varianti 7B e 72B sfruttano invece backbone densi per massimizzare la qualità del ragionamento.