
OLMo 2 (Ai2): LLM open source 7B/13B per ricerca e impresa
Famiglia di LLM 7B e 13B completamente aperti, con pesi, dati, codice e ricette di addestramento sotto licenza Apache 2.0.
Cos'è OLMo 2
OLMo 2 è una famiglia di modelli di linguaggio di grandi dimensioni (Large Language Models, LLM) sviluppata dall'Allen Institute for AI (Ai2), un centro di ricerca no-profit statunitense fondato da Paul Allen. È la seconda generazione del progetto OLMo (Open Language Model), pensato per offrire modelli linguistici completamente aperti: non solo i pesi finali, ma anche il codice di addestramento, i dataset, le ricette di post-training e i checkpoint intermedi.
A differenza dei modelli "open weight", che pubblicano solo i pesi senza rivelare dati e metodologie, OLMo 2 rende disponibile l'intero flusso di sviluppo. La famiglia principale annunciata da Ai2 comprende modelli base e istruiti da 7 e 13 miliardi di parametri, con versioni dedicate alla ricerca, al fine-tuning e all'uso conversazionale.
A cosa serve
OLMo 2 è un modello autoregressivo decoder-only: predice il token successivo partendo da un contesto dato, generando così testo coerente. Le varianti base sono adatte a chi vuole addestrare ulteriormente il modello su dati proprietari, fare ricerca sui meccanismi di apprendimento o costruire modelli verticalizzati. Le varianti Instruct, invece, sono state ottimizzate per seguire istruzioni, sostenere dialoghi multi-turn e rispondere in modo utile a richieste complesse.
Gli ambiti di applicazione spaziano dai chatbot aziendali agli assistenti virtuali, dagli strumenti di supporto alla scrittura all'analisi di documenti, dalla classificazione di testi alla generazione di snippet di codice, dall'estrazione di informazioni strutturate alla prototipazione di agenti intelligenti. La licenza permissiva Apache 2.0 consente l'uso commerciale senza royalty, rendendo il modello interessante anche per prodotti e servizi.
Come funziona
L'architettura di OLMo 2 si basa sul classico Transformer decoder-only, ma introduce diverse migliorie per stabilizzare l'addestramento su lunghe run. Ai2 ha adottato RMSNorm al posto della layer norm classica, ha riordinato la normalizzazione come in alcuni modelli recenti, ha introdotto QK-Norm e ha sostituito gli embedding posizionali assoluti con RoPE (Rotary Position Embedding). È stata inoltre applicata la regolarizzazione Z-loss e un'inizializzazione più attenta per preservare la scala di attivazioni e gradienti attraverso gli strati.
Il pre-training avviene in due stadi. Nella prima fase, che copre oltre il 90% del budget computazionale, il modello viene addestrato su OLMo-Mix-1124, una miscela di circa 3,9 trilioni di token provenienti da fonti come DCLM, Dolma, Starcoder e Proof Pile II. Nella seconda fase si usa Dolmino-Mix-1124, una collezione di 843 miliardi di token di qualità superiore, composta da dati web filtrati, contenuti accademici, forum di domande e risposte, dati di istruzione e materiale matematico, sia umano che sintetico.
I modelli 7B e 13B vengono esposti rispettivamente a circa 4T e 5T di token: il 7B per circa un'epoca sul mix di stage 1, il 13B per 1,2 epoche. Per ottenere il checkpoint finale, Ai2 addestra più copie a partire da un checkpoint intermedio, variando l'ordine dei dati, e le combina con una tecnica chiamata . Le versioni Instruct derivano dall'applicazione della ricetta Tülu 3: supervised fine-tuning (SFT), preference tuning con DPO e reinforcement learning con ricompense verificabili (RLVR).