
FLUX.1 (Black Forest Labs): modello text-to-image open-weight
Famiglia di modelli di generazione immagini da testo sviluppata da Black Forest Labs, con varianti open-weight e API enterprise.
Cos'è FLUX.1
FLUX.1 è una famiglia di modelli fondazionali per la generazione di immagini a partire da prompt testuali, sviluppata da Black Forest Labs (BFL), un laboratorio di ricerca sull'intelligenza artificiale con sede in Germania e fondato da ricercatori precedentemente attivi nello sviluppo di modelli generativi open source. Il progetto è stato presentato come alternativa a modelli proprietari come DALL-E, Midjourney e Stable Diffusion, con l'obiettivo di combinare qualità visiva elevata, flessibilità tecnica e disponibilità di pesi aperti per la ricerca e lo sviluppo.
La famiglia comprende tre varianti principali. FLUX.1 [pro] è la versione di punta, accessibile tramite API ufficiale di Black Forest Labs e piattaforme partner, ottimizzata per qualità massima e uso commerciale. FLUX.1 [dev] è una versione open-weight con prestazioni vicine a quelle della versione pro, rilasciata sotto licenza non commerciale per ricerca e sperimentazione. FLUX.1 [schnell] è la variante più veloce, progettata per l'inferenza locale efficiente e rilasciata sotto licenza Apache 2.0, quindi utilizzabile anche in progetti commerciali.
A queste varianti si aggiungono modelli specializzati per il editing avanzato, come FLUX.1 Fill, Depth, Canny, Redux e Kontext, che estendono le capacità della piattaforma oltre la semplice generazione testuale.
Come funziona
FLUX.1 si basa su un'architettura di tipo rectified flow transformer, una forma di modello di diffusione che utilizza il flow matching per apprendere la trasformazione tra rumore casuale e immagine finale. A differenza delle architetture di diffusione tradizionali, il rectified flow riduce il numero di passi necessari per generare un'immagine di alta qualità, migliorando l'efficienza computazionale senza degradare eccessivamente il risultato. Questo approccio consente a FLUX.1 [schnell] di produrre immagini in pochi passi, rendendo il modello adatto anche all'esecuzione su hardware consumer.
Il modello dispone di circa 12 miliardi di parametri e utilizza una combinazione di doppi encoder di testo per interpretare i prompt con maggiore precisione semantica. L'architettura include parallel attention layers e rotary positional embeddings, tecniche che migliorano la capacità del modello di gestire relazioni spaziali complesse e dettagli testuali all'interno dell'immagine. Grazie a questa struttura, FLUX.1 è particolarmente apprezzato per la resa di testo leggibile all'interno delle immagini generate, un punto debole storico di molti modelli text-to-image precedenti.
Le immagini vengono generate tipicamente a risoluzioni fino a circa 1,4 megapixel, con aspect ratio configurabili in base alla piattaforma di deployment. La variante schnell è progettata per funzionare anche su hardware consumer con memoria video limitata, spesso richiedendo circa 12 GB di VRAM per configurazioni standard, rendendo l'inferenza locale accessibile a un pubblico più ampio rispetto a modelli di dimensioni simili.