
Stable Diffusion 3.5: modello open text-to-image di Stability AI
Famiglia di modelli generativi open per la sintesi di immagini da testo, rilasciata da Stability AI in tre varianti ottimizzate per qualità, velocità e hardware consumer.
Cos'è
Stable Diffusion 3.5 è una famiglia di modelli generativi per la produzione di immagini a partire da prompt testuali, sviluppata e rilasciata da Stability AI. Rappresenta l'evoluzione della serie Stable Diffusion 3 e si compone di tre varianti principali: Stable Diffusion 3.5 Large, Stable Diffusion 3.5 Large Turbo e Stable Diffusion 3.5 Medium. L'obiettivo del rilascio è offrire modelli altamente personalizzabili, accessibili su hardware di consumo e utilizzabili per la maggior parte degli scenari senza costi di licenza.
La variante Large è il modello base più potente della famiglia, con 8,1 miliardi di parametri e prestazioni orientate all'uso professionale a risoluzioni fino a un megapixel. Large Turbo è una versione distillata del modello Large, progettata per generare immagini di alta qualità con un'aderenza al prompt elevata in soli quattro passaggi di inferenza, riducendo significativamente i tempi di generazione. Medium, con 2,5 miliardi di parametri, è pensato per girare su hardware consumer, bilanciando qualità, facilità di personalizzazione e capacità di generare immagini tra 0,25 e 2 megapixel.
A cosa serve
Stable Diffusion 3.5 serve a chiunque debba produrre immagini sintetiche a partire da descrizioni testuali. Le applicazioni coprono la creazione di artwork digitale, il supporto ai processi di design, lo sviluppo di strumenti creativi ed educativi, la ricerca sui modelli generativi e la prototipazione visiva. Il modello è adatto sia a singoli creativi che a startup, agenzie e team enterprise che necessitano di un motore di generazione integrabile in pipeline proprietarie.
La variante Large è indicata per output ad alta risoluzione e massima fedeltà al prompt, come illustrazioni dettagliate, concept art, materiali editoriali e asset per campagne visive. Large Turbo accelera i flussi dove la velocità è prioritaria, ad esempio nella generazione in tempo reale all'interno di interfacce web o applicazioni creative. Medium rende accessibile il modello a chi dispone di GPU consumer o risorse di calcolo limitate, favorendo sperimentazione, fine-tuning e integrazioni leggere.
Come funziona
Stable Diffusion 3.5 Large si basa sull'architettura MMDiT, ovvero Multimodal Diffusion Transformer. Il modello genera immagini attraverso un processo di diffusione che, partendo da rumore casuale, lo denoizza progressivamente fino a produrre un'immagine coerente con il prompt fornito. A differenza di alcuni approcci precedenti, l'architettura MMDiT gestisce in modo integrato rappresentazioni testuali e visive, migliorando la comprensione di prompt complessi, la resa tipografica e la qualità generale delle immagini.
Il modello utilizza tre text encoder pre-addestrati e fissi: OpenCLIP-ViT/G, CLIP-ViT/L e T5-xxl. I due encoder CLIP operano con una lunghezza di contesto di 77 token, mentre T5-xxl supporta contesti più ampi, configurabili a 77 o 256 token in diverse fasi. Questa combinazione permette di catturare sia la semantica generale del prompt sia descrizioni più ricche e strutturate.