
CogVideoX (Zhipu/THUDM): modello generativo video open-source
Famiglia di modelli DiT per generare video coerenti da testo o immagini, sviluppata da Tsinghua e Zhipu AI.
Cos'è CogVideoX
CogVideoX è una famiglia di modelli generativi di video open source sviluppata da THUDM (Tsinghua University) e Zhipu AI. Rappresenta la controparte aperta del motore video commerciale QingYing. A differenza di molte piattaforme video chiuse, CogVideoX rende disponibili pesi, codice, documentazione tecnica e checkpoint intermedi, permettendo a ricercatori, sviluppatori e aziende di sperimentare la generazione di clip direttamente sul proprio hardware o su infrastrutture cloud scelte autonomamente.
La famiglia include diversi modelli ottimizzati per esigenze diverse: CogVideoX-2B (versione entry-level), CogVideoX-5B (più potente), CogVideoX-5B-I2V (image-to-video) e CogVideoX1.5-5B (evoluzione con risoluzione e frame rate superiori). I checkpoint sono distribuiti principalmente in formato Diffusers, compatibile con l'ecosistema Hugging Face, e in formato SAT per chi vuole lavorare direttamente sull'architettura originale.
A cosa serve
CogVideoX serve a generare brevi clip video a partire da un prompt testuale o da un'immagine. Supporta tre compiti principali: text-to-video (T2V), image-to-video (I2V) e video continuation, ovvero l'estensione di un filmato già esistente. È pensato per prototipazione creativa, contenuti social, storyboard dinamici, materiali promozionali, visualizzazioni di prodotto e ricerca accademica.
La documentazione ufficiale mostra scene complesse generate dal modello: un panda che suona la chitarra in una foresta di bambù, un astronauta che stringe la mano a un extraterrestre su Marte, un cane con occhiali da sole che corre su un terrazzo bagnato. L'obiettivo non è solo produrre pixel in movimento, ma mantenere coerenza temporale, rispetto del prompt e plausibilità fisica nel breve arco di pochi secondi.
Come funziona
CogVideoX è un modello di diffusione latente basato su transformer (DiT, Diffusion Transformer). Il processo è analogo a quello delle immagini stable-diffusion-like, ma esteso al dominio spazio-temporale. Il modello parte da rumore casuale e lo denoisa progressivamente, condizionandosi sul prompt testuale codificato da un text encoder basato su T5.
L'architettura si articola in tre componenti fondamentali:
- 3D Causal VAE: un autoencoder variazionale che comprime il video lungo gli assi spaziali e temporali. Grazie alle convoluzioni 3D e alla causalità temporale, ogni frame dipende solo dal frame corrente e da quelli precedenti, riducendo artefatti e preservando la fluidità del movimento.
- Expert Transformer: un modulo specializzato per fondere in profondità le feature video e testuali. Utilizza adaptive layer normalization per gestire le due modalità e processa il video suddiviso in patch, trattandolo come una sequenza di token.
- 3D Rotary Position Embeddings (3D-RoPE): codifica le coordinate spaziali e temporali in modo indipendente, accelerando la convergenza durante l'addestramento e migliorando la qualità su sequenze più lunghe.