
Llama 3.2 3B (Meta): LLM leggero per edge e dispositivi
Un modello linguistico open-weight da 3,2 miliardi di parametri pensato per chat, riassunti e assistenti che girano anche su hardware modesto.
Cos'è Llama 3.2 3B
Llama 3.2 3B è un large language model (LLM) sviluppato da Meta, appartenente alla famiglia Llama 3.2 annunciata nel settembre 2024. La variante da 3 miliardi di parametri (più precisamente 3,21 miliardi) rappresenta il modello di taglia intermedia della serie, posizionato tra il più piccolo Llama 3.2 1B e i modelli multimodali Llama 3.2 11B Vision e 90B Vision.
A differenza delle versioni Vision, Llama 3.2 3B è un modello testuale: accetta testo in input e produce testo in output, incluso codice. È rilasciato in due versioni principali: una base, pre-addestrata su dati generici, e una versione Instruct, sottoposta a fine-tuning supervisionato e tecniche di allineamento per rispondere a istruzioni e dialogare in modo più utile e sicuro.
A cosa serve
Llama 3.2 3B è pensato per scenari in cui è necessario un buon equilibrio tra qualità dell'output e consumo di risorse. I casi d'uso previsti includono assistenti conversazionali, riassunto di documenti, riscrittura di testi, risposta a domande su knowledge base, prompt rewriting e applicazioni leggere di agent retrieval.
Grazie alle dimensioni contenute, il modello è adatto a essere eseguito in locale su workstation, laptop con GPU consumer e, con opportune tecniche di quantizzazione, anche su dispositivi mobili di fascia alta. Questo lo rende interessante per chi vuole offrire funzionalità generative senza dipendere esclusivamente da API cloud.
La versione Instruct supporta lingue diverse dall'inglese: tra quelle ufficialmente dichiarate da Meta figurano tedesco, francese, italiano, portoghese, hindi, spagnolo e thai. L'italiano è quindi una lingua supportata, anche se le prestazioni migliori si osservano generalmente in inglese.
Come funziona
L'architettura di Llama 3.2 3B è un transformer auto-regressivo ottimizzato, simile a quella dei modelli Llama 3.1 ma ridotta in scala. Utilizza la Grouped-Query Attention (GQA), una tecnica che riduce il carico di memoria durante la generazione mantenendo prestazioni competitive. La lunghezza massima del contesto è di 128.000 token, sia per il modello base che per quello Instruct.
L'addestramento ha coinvolto fino a 9 trilioni di token provenienti da fonti pubblicamente disponibili online, con un cutoff della conoscenza fissato a dicembre 2023. I modelli 1B e 3B sono stati addestrati anche con tecniche di distillazione: i logit prodotti dai modelli più grandi Llama 3.1 8B e 70B sono stati usati come target durante l'addestramento, permettendo ai modelli più piccoli di avvicinarsi alle prestazioni di architetture più grandi.
La versione Instruct è stata ottenuta attraverso un ciclo di Supervised Fine-Tuning (SFT), Rejection Sampling (RS) e Direct Preference Optimization (DPO), utilizzato per allineare il modello alle preferenze umane in termini di utilità e sicurezza.
Sul fronte della quantizzazione, Meta ha rilasciato varianti ottimizzate con SpinQuant e QLoRA, pensate per l'esecuzione su CPU Arm tramite il framework ExecuTorch. Le versioni quantizzate riducono significativamente l'ingombro in memoria e accelerano la generazione, rendendo pratico l'uso on-device.