
Falcon-Mamba 7B: modello linguistico open source senza attention
Un LLM a 7 miliardi di parametri basato sull'architettura Mamba, addestrato dal Technology Innovation Institute degli Emirati Arabi Uniti.
Cos'è Falcon-Mamba
Falcon-Mamba 7B è un modello di linguaggio di grandi dimensioni (LLM) sviluppato dal Technology Innovation Institute (TII) di Abu Dhabi, ente di ricerca degli Emirati Arabi Uniti noto per la famiglia open source Falcon. Si tratta di un modello causale decoder-only con circa 7 miliardi di parametri, addestrato principalmente in inglese su circa 5.500 miliardi di token provenienti dal dataset RefinedWeb, integrato con dati tecnici, codice, matematica e una piccola parte di dati curati di alta qualità come Fineweb-edu.
La sua caratteristica distintiva è l'architettura: Falcon-Mamba è un modello Mamba puro, ovvero uno State Space Language Model (SSLM). A differenza dei LLM dominanti basati su self-attention, non utilizza cache chiave-valore (KV cache) e non richiede di memorizzare tutti i token precedenti per generare il successivo. Questo lo rende, almeno in teoria, in grado di elaborare sequenze di lunghezza arbitraria senza che i requisiti di memoria crescano linearmente con il contesto. Il modello è rilasciato sotto la TII Falcon-Mamba License 2.0, una licenza permissiva derivata da Apache 2.0 che ne consente l'uso commerciale e di ricerca, con alcune clausole specifiche sull'accettazione di una policy di uso responsabile.
A cosa serve
Falcon-Mamba 7B è progettato per compiti di generazione e comprensione del linguaggio naturale: completamento di testi, riassunto di documenti, risposta a domande, classificazione, estrazione di informazioni e assistenza alla scrittura di codice. Accanto alla versione base esiste anche una variante Instruct, affinata con circa 5 miliardi di token di supervised fine-tuning (SFT) per seguire istruzioni in formato chat e rispondere in modo più controllato.
Grazie alla sua efficienza su sequenze lunghe, è particolarmente adatto a scenari in cui il contesto è ampio: analisi di contratti, log aziendali, documentazione tecnica, assistenza clienti basata su knowledge base estese e ricerca semantica su corpus voluminosi. La possibilità di farlo girare su una singola GPU A10 da 24 GB, anche in versione quantizzata, lo rende interessante per deployment on-premise, edge o ambienti cloud con budget contenuti.
Come funziona
L'architettura Mamba, introdotta originariamente da Gu e Dao, sostituisce la self-attention con modelli di stato spaziale selettivi. In sintesi, invece di calcolare un punteggio di attenzione tra ogni nuovo token e tutti i precedenti, il modello mantiene uno stato ricorrente compatto e lo aggiorna a ogni passo. Durante la generazione (fase di decode) il tempo e la memoria rimangono quindi costanti, indipendentemente dalla lunghezza del contesto.
Nella fase di prefill (elaborazione del prompt iniziale) è possibile adottare una strategia parallela classica oppure una , che consente di processare prompt arbitrariamente lunghi purché suddivisi in blocchi che entrano in memoria. Falcon-Mamba 7B ha 64 layer, dimensione nascosta di 4.096, stato SSM di dimensione 16 e un vocabolario di 65.024 token. Durante l'ultima fase di addestramento la lunghezza di sequenza era di 8.192 token, ma a inferenza l'architettura Mamba non impone un limite teorico alle dipendenze a lungo raggio.