
Llama 4 Maverick (Meta): modello open multimodale da 400 miliardi
Il modello di punta della famiglia Llama 4, rilasciato con pesi aperti da Meta per ragionamento, codice e comprensione visiva su larga scala.
Cos'è
Llama 4 Maverick è un modello di intelligenza artificiale generativa sviluppato da Meta (Facebook AI Research / Meta AI). Appartiene alla famiglia Llama 4, annunciata nell'aprile 2025, e rappresenta la variante di punta tra i modelli rilasciati con pesi aperti in quella tornata. È progettato per essere un modello general-purpose multimodale, capace di elaborare testo e immagini in ingresso e produrre testo e codice in uscita.
Caratteristiche tecniche
Maverick adotta un'architettura a mistura di esperti (Mixture of Experts, MoE) con 128 esperti e circa 17 miliardi di parametri attivi per ogni forward pass, su un totale di circa 400 miliardi di parametri. Questa scelta architetturale permette di avere una capacità complessiva elevata mantenendo il costo computazionale per token inferiore rispetto a un modello denso di pari dimensioni.
Il modello supporta una finestra di contesto fino a un milione di token, utile per l'analisi di documenti lunghi, codebase estese o conversazioni prolungate. È nativamente multimodale grazie a un meccanismo di early fusion che integra modalità testuali e visive fin dall'addestramento. Supporta 12 lingue, tra cui l'italiano, l'inglese, il francese, il tedesco, lo spagnolo, il portoghese, l'arabo, l'hindi, l'indonesiano, il tagalog, il thai e il vietnamita.
I dati di addestramento sono stati curati da fonti pubbliche, dati con licenza e informazioni derivanti dai prodotti Meta, per un totale stimato di circa 22 trilioni di token. Il knowledge cutoff è fissato ad agosto 2024. Il modello è rilasciato sotto la Llama 4 Community License, che ne consente l'uso commerciale fino a una soglia di 700 milioni di utenti attivi mensili, oltre la quale è necessario contattare Meta per una licenza specifica.
A cosa serve
Llama 4 Maverick è indicato per applicazioni che richiedono ragionamento complesso, generazione e debug di codice, comprensione di immagini e documenti misti testo-immagine, assistenti conversazionali avanzati e agenti AI. Le sue capacità di vision-language lo rendono adatto a task come l'estrazione di informazioni da screenshot, la descrizione di grafici e diagrammi, l'analisi di documenti scansionati e la generazione di risposte coerenti su input misti.
Grazie alla natura open-weight, il modello è particolarmente appetibile per chi deve addestrare versioni specializzate su dati proprietari, mantenere i dati all'interno della propria infrastruttura o integrare l'intelligenza artificiale in prodotti software senza dipendere esclusivamente da API esterne.
Come funziona
Maverick si basa sull'architettura transformer con Mixture of Experts. Ogni token in ingresso viene instradato verso un sottoinsieme di esperti specializzati, anziché attivare l'intera rete. Questo approccio consente di scalare la capacità del modello senza aumentare proporzionalmente i costi di inferenza. La multimodalità nativa è ottenuta tramite early fusion: rappresentazioni visive e testuali vengono allineate a livello di embedding e processate insieme attraverso gli strati del modello, piuttosto che essere gestite da moduli separati.