CogVideoX Zhipu: modello AI open-source per video da testo

CogVideoX (Zhipu/THUDM): modello generativo video open-source

Famiglia di modelli DiT per generare video coerenti da testo o immagini, sviluppata da Tsinghua e Zhipu AI.

5 min di lettura

Cos'è CogVideoX

CogVideoX è una famiglia di modelli generativi di video open source sviluppata da THUDM (Tsinghua University) e Zhipu AI. Rappresenta la controparte aperta del motore video commerciale QingYing. A differenza di molte piattaforme video chiuse, CogVideoX rende disponibili pesi, codice, documentazione tecnica e checkpoint intermedi, permettendo a ricercatori, sviluppatori e aziende di sperimentare la generazione di clip direttamente sul proprio hardware o su infrastrutture cloud scelte autonomamente.

La famiglia include diversi modelli ottimizzati per esigenze diverse: CogVideoX-2B (versione entry-level), CogVideoX-5B (più potente), CogVideoX-5B-I2V (image-to-video) e CogVideoX1.5-5B (evoluzione con risoluzione e frame rate superiori). I checkpoint sono distribuiti principalmente in formato Diffusers, compatibile con l'ecosistema Hugging Face, e in formato SAT per chi vuole lavorare direttamente sull'architettura originale.

A cosa serve

CogVideoX serve a generare brevi clip video a partire da un prompt testuale o da un'immagine. Supporta tre compiti principali: text-to-video (T2V), image-to-video (I2V) e video continuation, ovvero l'estensione di un filmato già esistente. È pensato per prototipazione creativa, contenuti social, storyboard dinamici, materiali promozionali, visualizzazioni di prodotto e ricerca accademica.

La documentazione ufficiale mostra scene complesse generate dal modello: un panda che suona la chitarra in una foresta di bambù, un astronauta che stringe la mano a un extraterrestre su Marte, un cane con occhiali da sole che corre su un terrazzo bagnato. L'obiettivo non è solo produrre pixel in movimento, ma mantenere coerenza temporale, rispetto del prompt e plausibilità fisica nel breve arco di pochi secondi.

Come funziona

CogVideoX è un modello di diffusione latente basato su transformer (DiT, Diffusion Transformer). Il processo è analogo a quello delle immagini stable-diffusion-like, ma esteso al dominio spazio-temporale. Il modello parte da rumore casuale e lo denoisa progressivamente, condizionandosi sul prompt testuale codificato da un text encoder basato su T5.

L'architettura si articola in tre componenti fondamentali:

3D Causal VAE: un autoencoder variazionale che comprime il video lungo gli assi spaziali e temporali. Grazie alle convoluzioni 3D e alla causalità temporale, ogni frame dipende solo dal frame corrente e da quelli precedenti, riducendo artefatti e preservando la fluidità del movimento.
Expert Transformer: un modulo specializzato per fondere in profondità le feature video e testuali. Utilizza adaptive layer normalization per gestire le due modalità e processa il video suddiviso in patch, trattandolo come una sequenza di token.
3D Rotary Position Embeddings (3D-RoPE): codifica le coordinate spaziali e temporali in modo indipendente, accelerando la convergenza durante l'addestramento e migliorando la qualità su sequenze più lunghe.

Modello	Compito	Risoluzione tipica	Durata	Note
CogVideoX-2B	T2V	720 × 480	6 s	Leggero, adatto a GPU consumer e sperimentazione
CogVideoX-5B	T2V	720 × 480	6 s	Maggiore qualità, addestrato in BF16
CogVideoX-5B-I2V	I2V	variabile	6 s	Genera video a partire da un'immagine di sfondo
CogVideoX1.5-5B	T2V	1360 × 768	10 s	16 fps, risoluzione e fluidità superiori

CogVideoX (Zhipu/THUDM): modello generativo video open-source

Cos'è CogVideoX

A cosa serve

Come funziona

Modelli della famiglia

Licenza e accesso

Perché conta per founder, PMI e agenzie in Italia

Dove trovarlo