
Aria (Rhymes AI): modello multimodale open source a MoE nativo
Modello multimodale nativo open-source con 25,3 miliardi di parametri totali e circa 3,9 miliardi attivi per token, progettato per linguaggio, visione, documenti, video e coding.
Cos'è Aria
Aria è un modello di intelligenza artificiale multimodale nativo sviluppato da Rhymes AI, una startup di ricerca sull'intelligenza artificiale con un team internazionale. Presentato nell'ottobre 2024 e descritto nel paper accademico arXiv:2410.05993, Aria è rilasciato con licenza Apache 2.0: i pesi del modello, il codice e la documentazione sono liberamente scaricabili, modificabili e utilizzabili anche per scopi commerciali.
Il tratto distintivo di Aria è essere un modello "multimodale nativo". Questo significa che non si tratta di un modello di linguaggio a cui è stata aggiunta in un secondo momento una componente visiva, bensì di un'architettura progettata fin dall'allenamento per integrare testo, immagini e video all'interno di un unico sistema. L'obiettivo è ottenere una comprensione più coerente tra modalità diverse, riducendo i problemi di allineamento che spesso emergono quando moduli specializzati vengono combinati ex post.
Come funziona
Aria si basa su un'architettura Mixture-of-Experts (MoE), una tecnica che suddivide il modello in sottoreti specializzate chiamate "esperti". Per ogni token in ingresso, un meccanismo di routing ne attiva solo una parte, instradando il calcolo verso gli esperti più pertinenti. In numeri concreti, Aria ha 25,3 miliardi di parametri totali, ma attiva circa 3,9 miliardi di parametri per token visivo e 3,5 miliardi per token testuale. Questa sparsità permette di avere un modello molto capace senza dover pagare il costo computazionale di un'architettura "densa" della stessa scala.
Il modello supporta un contesto multimodale fino a 64.000 token, una caratteristica rilevante per l'analisi di documenti lunghi, presentazioni, PDF ricchi di immagini e video estesi. Secondo la scheda tecnica pubblicata su Hugging Face, Aria è in grado di generare una didascalia per un video di 256 frame in circa 10 secondi su hardware adeguato. Per l'inferenza, con precisione bfloat16, il modello può essere caricato su una singola GPU NVIDIA A100 da 80 GB, una configurazione accessibile per data center e laboratori di ricerca ma non per workstation entry-level.
La fase di pre-addestramento descritta nel paper è organizzata in quattro stadi progressivi: sviluppo delle capacità linguistiche, apprendimento multimodale, estensione della finestra di contesto e affinamento sulle istruzioni. Questa scala graduale dovrebbe permettere al modello di acquisire competenze complesse in modo più stabile rispetto a un addestramento monolitico.
A cosa serve
Aria è pensato per compiti che richiedono la comprensione combinata di testo e contenuti visivi. Le applicazioni tipiche includono:
- OCR e estrazione dati da documenti: analisi di fatture, contratti, moduli e PDF con tabelle e grafici.