
Llama 3.2 1B (Meta): LLM leggero per AI on-device
Il modello open weight più compatto della famiglia Llama 3.2, pensato per girare in locale su smartphone, browser e dispositivi edge.
Cos'è Llama 3.2 1B
Llama 3.2 1B è un Large Language Model (LLM) generativo sviluppato da Meta e appartenente alla famiglia Llama 3.2. Con circa 1,23 miliardi di parametri, è il modello testuale più leggero della serie, pensato per girare su dispositivi con risorse limitate come smartphone, tablet, laptop e edge device. È un modello text-in/text-out: riceve in ingresso del testo e restituisce testo in uscita. A differenza delle varianti 11B e 90B Vision, non ha capacità visive native. È disponibile in due versioni: una base, pre-addestrata su un vasto corpus di dati pubblici, e una versione Instruct, ulteriormente allineata per dialogare e seguire istruzioni in linguaggio naturale.
A cosa serve
Grazie alle dimensioni compatte, Llama 3.2 1B è progettato per l'intelligenza artificiale generativa in locale. I casi d'uso tipici includono la riscrittura di prompt, il riassunto di testi, il recupero di informazioni strutturate, le risposte a domande, la classificazione di documenti e l'assistenza scrittura leggera. La versione Instruct supporta anche il tool use in modalità zero-shot, cioè la capacità di invocare funzioni o API definite dallo sviluppatore senza averle viste in fase di addestramento. Inoltre, il modello può essere impiegato come "draft model" nella tecnica dello speculative decoding: genera bozze rapide che vengono poi verificate da un LLM più grande, riducendo la latenza percepita.
Come funziona
L'architettura è un transformer auto-regressivo ottimizzato, analogo a quello di Llama 3.1, con Grouped-Query Attention (GQA) per ridurre l'occupazione di memoria e migliorare la scalabilità dell'inferenza. Il contesto massimo è di 128.000 token, una cifra elevata per un modello di questa taglia. L'addestramento si è svolto su un mix di dati pubblicamente disponibili, fino a circa 9 trilioni di token. Per i modelli 1B e 3B, Meta ha applicato pruning strutturale e knowledge distillation a partire dai modelli teacher Llama 3.1 8B e 70B: i logit dei modelli più grandi sono stati usati come target a livello di token durante il pre-training, permettendo di recuperare prestazioni dopo la riduzione di dimensione. La versione Instruct è stata poi allineata con Supervised Fine-Tuning (SFT), Rejection Sampling e Direct Preference Optimization (DPO).
Perché conta per founder, PMI e agenzie italiane
Per startup, piccole e medie imprese e agenzie italiane, Llama 3.2 1B rappresenta un'opportunità concreta per portare l'AI generativa sui dispositivi dei clienti senza dipendere continuamente da API cloud costose o da connessioni internet stabili. Mantenere l'inferenza in locale significa anche maggiore controllo sui dati: un vantaggio rilevante in un contesto normativo attento alla privacy e alla sovranità delle informazioni. L'italiano è tra le lingue ufficialmente supportate, insieme a inglese, francese, tedesco, spagnolo, portoghese, hindi e thai; questo lo rende immediatamente utilizzabile per applicazioni domestiche, anche se per casi d'uso specifici può essere utile un ulteriore fine-tuning.