
GLM 5.2 (Z.ai / Zhipu): modello open-weight 744B con contesto 1M
Flagship MoE di Zhipu AI per coding agentico e task a lungo orizzonte, rilasciato con pesi aperti sotto licenza MIT.
Cos'è GLM 5.2
GLM 5.2 è un large language model (LLM) di fascia frontier sviluppato da Zhipu AI, laboratorio di ricerca sull'intelligenza artificiale con sede a Pechino che opera pubblicamente con il marchio Z.ai. Si colloca nella famiglia GLM (General Language Model) e rappresenta l'evoluzione diretta di GLM 5.1, con un'architettura Mixture-of-Experts (MoE) e pesi rilasciati sotto licenza MIT.
Secondo i dati tecnici diffusi da Zhipu AI, il modello ha circa 744 miliardi di parametri totali, di cui circa 40 miliardi attivi per ogni token. Questa configurazione permette di contenere i costi di inferenza a un livello comparabile a un modello denso da 40 miliardi di parametri, pur sfruttando la capacità rappresentazionale di un sistema molto più grande. Il contesto di input arriva a 1.048.576 token (circa un milione), mentre l'output massimo è di 131.072 token.
A cosa serve
Zhipu AI ha posizionato GLM 5.2 come modello per il coding agentico e i cosiddetti long-horizon tasks: compiti che durano ore o giorni, richiedono migliaia di chiamate a strumenti esterni e comportano pianificazione, esecuzione, verifica e correzione iterativa. Esempi tipici sono la riscrittura di un'intera codebase, la risoluzione di bug complessi, la generazione di repository completi a partire da una specifica, la ricerca automatizzata e la post-training di piccoli modelli specializzati.
Il contesto di un milione di token cambia la natura pratica del modello: intere basi di codice medio-piccole, documentazione API estesa o corpus di ricerca possono essere caricati in un unico prompt senza frammentazione. Questo riduce gli errori dovuti a informazioni perdute durante il recupero selettivo e consente agli agenti di mantenere uno stato di lavoro più coerente.
GLM 5.2 supporta anche il ragionamento strutturato, la generazione con strumenti (tool use), la formattazione JSON e due livelli di sforzo cognitivo: una modalità "High" per compiti standard e una modalità "Max" che alloca più token di ragionamento ai problemi più difficili.
Come funziona
L'architettura si basa su un transformer sparso MoE con alcune ottimizzazioni specifiche. Zhipu AI ha introdotto IndexShare, una tecnica che riutilizza lo stesso indicizzatore ogni quattro layer di sparse attention, riducendo i FLOP per token di circa 2,9 volte quando si lavora a un milione di token. Inoltre, il layer MTP (Multi-Token Prediction) è stato migliorato per lo speculative decoding, aumentando la lunghezza di accettazione delle predizioni fino al 20%. Complessivamente, il modello integra la DeepSeek Sparse Attention (DSA) per gestire efficientemente contesti lunghi.
Il training si articola in pre-training e post-training. Il modello precedente GLM 5 era stato addestrato su 28,5 trilioni di token, rispetto ai 23 trilioni di GLM 4.5. Per il post-training, Zhipu AI ha sviluppato un'infrastruttura di reinforcement learning asincrono chiamata , pensata per rendere più efficienti le iterazioni di affinamento su larga scala. GLM 5.2 è stato inoltre esposto attraverso un endpoint compatibile con le API Anthropic, il che lo rende utilizzabile da strumenti come Claude Code, Cline e altri coding agent esistenti senza modifiche sostanziali.