
Qwen-Image (Alibaba): modello open-source di generazione e editing di immagini
Un foundation model da 20 miliardi di parametri sviluppato da Alibaba Cloud che unisce generazione testo-immagine, rendering accurato di testo multilingue e editing semantico preciso.
Cos'è Qwen-Image
Qwen-Image è un foundation model per la generazione e la manipolazione di immagini sviluppato dal team Tongyi Qianwen di Alibaba Cloud. Appartiene alla famiglia Qwen, nota principalmente per i large language model, e rappresenta l'ingresso di Alibaba nel campo dei modelli di diffusione per la sintesi visiva. La versione principale è un modello denso da 20 miliardi di parametri con architettura MMDiT (Multimodal Diffusion Transformer), rilasciato con licenza Apache 2.0.
A differenza di molti generatori di immagini che faticano a inserire testo leggibile nelle scene, Qwen-Image è progettato per produrre testo in lingue diverse con alta fedeltà tipografica. Il modello è in grado di gestire layout multilinea, paragrafi e dettagli stilistici del carattere, integrando la scritta nella composizione visiva invece di sovrapporla in modo approssimativo. Oltre alla generazione da zero, esiste una variante dedicata all'editing, Qwen-Image-Edit, che estende le stesse capacità alla modifica di immagini esistenti.
A cosa serve
Qwen-Image copre due macro-ambiti: la generazione testo-immagine e l'editing visivo guidato da istruzioni in linguaggio naturale.
Nella generazione, il modello trasforma descrizioni testuali dettagliate in immagini fotorealistiche o stilizzate. È particolarmente efficace quando il prompt richiede la presenza di testo leggibile all'interno dell'immagine, come titoli su poster, insegne di negozi, copertine di libri o interfacce grafiche. Supporta più lingue, con particolare attenzione all'inglese, al cinese, al coreano, al giapponese e, secondo la documentazione della community, anche all'italiano.
Nell'editing, Qwen-Image-Edit permette di modificare un'immagine mantenendo la coerenza semantica e visiva. Le operazioni supportate includono l'aggiunta, la rimozione o la sostituzione di oggetti, il cambio di sfondo, il trasferimento di stile, la manipolazione della posa umana e la modifica diretta di testo già presente. Il modello combina il controllo semantico, affidato a Qwen2.5-VL per comprendere il contenuto dell'immagine, con il controllo dell'aspetto visivo, gestito dall'encoder VAE, in modo da preservare l'identità del soggetto e la qualità dei dettagli.
Come funziona
Qwen-Image si basa su un'architettura MMDiT, una variante di diffusion transformer che processa insieme rappresentazioni testuali e visive. La natura multimodale dell'architettura consente al modello di allineare finemente le istruzioni linguistiche con gli elementi grafici, migliorando il rispetto del prompt e la coerenza tra testo e immagine.
Il modello è stato addestrato con un'ingegneria dei dati estesa, strategie di apprendimento progressivo e un paradigma di training multi-task che include sia la generazione sia l'editing. Questo approccio consente a un unico checkpoint di eccellere in compiti diversi senza richiedere modelli separati per ogni operazione. Per l'editing, Qwen-Image-Edit riceve in input sia l'immagine originale sia l'istruzione testuale: il flusso semantico analizza cosa cambiare, mentre il flusso di apparenza si assicura che i pixel non interessati restino inalterati o che la modifica sia visivamente coerente.