
Llama 4 Scout (Meta): modello multimodale open a 17B attivi
Modello di linguaggio multimodale di Meta, con architettura MoE, finestra contestuale fino a 10 milioni di token e licenza commerciale permissiva.
Cos'è
Llama 4 Scout è un modello fondazionale di intelligenza artificiale generativa sviluppato da Meta, tra i primi della famiglia Llama a essere nativamente multimodale. La denominazione tecnica è Llama-4-Scout-17B-16E: durante ogni passo di calcolo vengono attivati circa 17 miliardi di parametri, selezionati dinamicamente tra 16 esperti specializzati, per un totale complessivo di 109 miliardi di parametri. Questa architettura a Mixture of Experts (MoE) permette di ottenere capacità di modellazione molto ampie mantenendo però il carico computazionale concentrato su una frazione dei pesi totali. Il risultato è un modello che offre prestazioni elevate pur essendo più compatto ed efficiente rispetto a molti concorrenti di dimensioni simili in termini di parametri totali.
A cosa serve
Scout è progettato per compiti di linguaggio e visione combinati. Può essere usato come assistente conversazionale multilingue, per generare e commentare codice, per descrivere e ragionare sul contenuto di immagini, per rispondere a domande su grafici, tabelle e documenti scansionati, e per produrre didascalie automatiche. La sua caratteristica più distintiva è la finestra contestuale: può elaborare contesti fino a 10 milioni di token, una capacità che lo rende adatto all'analisi di interi libri, a codebase molto estese, a report annuali o a interi archivi normativi in un'unica inferenza. Meta ha testato il modello anche con input multipli, fino a cinque immagini contemporanee, aprendo scenari come il confronto visivo tra prodotti, l'analisi di sequenze di screenshot o la comprensione di documenti multipagina arricchiti da figure.
Come funziona
Llama 4 Scout si basa su un transformer autoregressivo che utilizza l'architettura MoE. In un modello denso classico tutti i parametri partecipano a ogni passo; in Scout, invece, un meccanismo di routing indirizza ogni token verso un sottoinsieme degli esperti disponibili, riducendo il numero di operazioni attive. La multimodalità è ottenuta tramite early fusion: le informazioni visive e testuali vengono integrate fin dalle prime fasi di elaborazione, anziché affidarsi a moduli separati collegati in cascata. Questo rende il modello più coerente su compiti che richiedono di collegare parole e pixel.
Il modello è stato pre-addestrato su circa 40 trilioni di token multimodali, combinando dati pubblici, dati concessi in licenza e informazioni derivanti dai prodotti e servizi Meta. Il knowledge cutoff è ad agosto 2024. Le lingue ufficialmente supportate sono dodici: arabo, inglese, francese, tedesco, hindi, indonesiano, italiano, portoghese, spagnolo, tagalog, thai e vietnamita. Il pre-training, tuttavia, ha coinvolto circa 200 lingue, quindi è possibile adattare ulteriormente il modello tramite fine-tuning per mercati linguistici meno rappresentati.
Sul fronte della sicurezza, Meta ha integrato tecniche di allineamento per ridurre i rifiuti a richieste innocue, migliorare il tono conversazionale e aumentare la steerability tramite system prompt. Sono disponibili anche strumenti di protezione a livello di sistema come Llama Guard, Prompt Guard e Code Shield, pensati per essere abbinati al modello in ambienti di produzione.