
F5-TTS: modello open source per sintesi vocale e clonazione zero-shot
Un sistema non autoregressivo di text-to-speech basato su flow matching e Diffusion Transformer, in grado di clonare voci da pochi secondi di audio.
Cos'è F5-TTS
F5-TTS è un sistema di text-to-speech (TTS) completamente non autoregressivo basato su flow matching con Diffusion Transformer (DiT). Il nome completo del progetto, riportato nel paper accademico, è "F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching". È stato proposto da un gruppo di ricerca coordinato sotto lo pseudonimo SWivid, con autori affiliati a Shanghai Jiao Tong University, University of Cambridge e Geely Automobile Research Institute.
Il modello si distingue per la sua architettura semplificata: non usa un modello di durata fonetica, non richiede un allineamento esplicito tra testo e spettrogramma, e non dipende da un text encoder separato. L'input testuale viene trattato come una sequenza di caratteri, riempita con token fittizi fino alla lunghezza dello spettrogramma vocale, e poi elaborata insieme all'audio di riferimento per generare la voce sintetica.
A cosa serve
F5-TTS serve a trasformare testo scritto in voce parlata naturale. La sua caratteristica più rilevante è la clonazione zero-shot: con pochi secondi di audio di riferimento (tipicamente 5-15 secondi) è in grado di riprodurre le caratteristiche timbriche di un parlante e sintetizzare nuove frasi nella stessa voce.
Il modello è addestrato su un corpus multilingue di circa 100.000 ore, denominato Emilia, che contiene parlato spontaneo in diverse lingue. Questo gli consente di gestire la generazione vocale in più lingue, inclusi scenari di code-switching (passaggio spontaneo da una lingua all'altra all'interno della stessa frase). Le applicazioni tipiche includono:
- produzione di audiolibri e podcast;
- assistenti vocali, chatbot e applicazioni di accessibilità;
- voice-over per video, e-learning e formazione aziendale;
- prototipazione rapida di contenuti vocali personalizzati;
- ricerca nel campo della sintesi vocale e del voice cloning.
Come funziona
Il cuore di F5-TTS è il flow matching, una variante delle diffusioni che apprende un percorso ottimale di trasporto tra una distribuzione semplice (rumore gaussiano) e la distribuzione dei dati reali (spettrogrammi vocali). A differenza dei modelli autoregressivi, che generano l'audio un token alla volta, i modelli a flow matching producono l'intero spettrogramma in modo parallelo, risolvendo un'equazione differenziale ordinaria (ODE) al momento dell'inferenza.
L'architettura si compone di tre elementi principali:
-
Diffusion Transformer (DiT): il backbone principale, con blocchi transformer e adaptive layer normalization inizializzata a zero (adaLN-zero). Questa scelta, ispirata ai modelli di generazione di immagini come Stable Diffusion 3, permette di apprendere rappresentazioni stabili e controllabili.