
ERNIE 4.5 (Baidu): famiglia di modelli multimodali open source
Famiglia MoE multimodale cinese da 0,3 a 424 miliardi di parametri, rilasciata con licenza Apache 2.0.
Cos'è
ERNIE 4.5 è una famiglia di modelli fondazionali multimodali sviluppata da Baidu, l'azienda tecnologica cinese nota per il motore di ricerca omonimo e per il suo ecosistema di intelligenza artificiale. La serie include dieci varianti che coprono modelli linguistici di grandi dimensioni (LLM) e modelli visivo-linguistici (VLM), progettati per comprendere e generare testo, analizzare immagini, ragionare su contenuti visivi e interagire con input multimodali. Il nome ERNIE è l'acronimo di "Enhanced Representation through kNowledge IntEgration", a sottolineare l'attenzione storica di Baidu all'integrazione di conoscenza esplicita nei modelli di linguaggio.
A cosa serve
I modelli ERNIE 4.5 sono pensati per applicazioni enterprise e di ricerca che richiedono comprensione del linguaggio naturale, ragionamento logico-matematico, analisi di documenti, immagini e video, nonché sviluppo di agenti AI multimodali. Le varianti VLM supportano attività come il riconoscimento di oggetti, la comprensione di grafici e diagrammi, il visual grounding, il ragionamento STEM da immagini e la comprensione temporale di contenuti video. Le varianti di ragionamento ("thinking") aggiungono capacità di ragionamento a più passaggi su compiti verificabili, avvicinandosi alle prestazioni di modelli specializzati come OpenAI o1 su benchmark visivi come MathVista, MMMU e VisualPuzzle.
Come funziona
L'architettura di base è a Mixture of Experts (MoE): il modello attiva solo un sottoinsieme di parametri per ogni token, riducendo i costi computazionali pur mantenendo una grande capacità complessiva. Secondo la documentazione ufficiale, la famiglia spazia da un modello denso da 0,3 miliardi di parametri fino al modello più grande con 424 miliardi di parametri totali, di cui 47 miliardi attivi nei modelli MoE principali e 3 miliardi attivi nelle varianti compatte. La chiave dell'efficienza sta nell'attivazione selettiva: invece di usare tutti i parametri per ogni token in input, il router dell'architettura MoE dirige il calcolo verso un numero limitato di esperti specializzati, permettendo di scalare la capacità del modello senza aumentare proporzionalmente il costo di inferenza.
Baidu ha adottato una struttura MoE eterogenea che permette la condivisione di parametri tra le modalità testuali e visive, isolando al contempo alcuni esperti dedicati a ciascuna modalità per evitare che un tipo di dato interferisca con l'altro. Il technical report cita l'uso di routing isolato per modalità, loss di ortogonalità del router, loss di bilanciamento multimodale dei token, parallelismo eterogeneo ibrido, bilanciamento del carico gerarchico, addestramento FP8 a precisione mista e quantizzazione convoluzionale a 4 e 2 bit per l'inferenza. Per il post-training vengono impiegati supervised fine-tuning (SFT), direct preference optimization (DPO) e un metodo proprietario chiamato Unified Preference Optimization (UPO).
L'addestramento e l'inferenza avvengono sul framework PaddlePaddle, sviluppato internamente da Baidu. L'azienda dichiara un Model FLOPs Utilization (MFU) del 47% durante il pre-training del modello linguistico più grande, un indicatore di efficienza computazionale rilevante per chi deve addestrare o eseguire modelli di questa scala.