NVIDIA Parakeet: modelli ASR open per speech-to-text

Cos'è NVIDIA Parakeet

Parakeet è una famiglia di modelli di riconoscimento vocale automatico (ASR, Automatic Speech Recognition) sviluppata da NVIDIA all'interno dell'ecosistema NeMo. Il suo obiettivo è convertire audio parlato in testo scritto con alta accuratezza, supportando anche punteggiatura, capitalizzazione e la generazione di timestamp a livello di parola.

Il nome più conosciuto è Parakeet-TDT-0.6B, un modello con circa 600 milioni di parametri che rappresenta il punto di equilibrio tra qualità della trascrizione e velocità di elaborazione. Esistono però più varianti: la versione v2 è ottimizzata per l'inglese, mentre la v3 estende il supporto a circa 25 lingue europee. Accanto a queste, NVIDIA ha rilasciato anche modelli più grandi come Parakeet-RNNT-1.1B, con circa 1,1 miliardi di parametri e architettura Transducer, pensato per scenari multilingue più complessi.

I modelli Parakeet sono distribuiti principalmente tramite Hugging Face e il catalogo NVIDIA NGC, con licenze permissive che ne facilitano l'adozione in progetti commerciali e interni.

Come funziona

L'architettura alla base di Parakeet-TDT è FastConformer, una evoluzione efficiente della famiglia Conformer, molto usata per l'ASR. FastConformer riduce la complessità computazionale dell'attenzione rispetto ai modelli Conformer tradizionali, mantenendo la capacità di catturare dipendenze a lungo raggio nel segnale audio.

La sigla TDT sta per Token-and-Duration Transducer: si tratta di un decoder che, rispetto alle classiche architetture CTC o RNN-T, introduce token espliciti per la durata dei suoni. Questo approccio permette di predire non solo la sequenza di parole, ma anche i relativi intervalli temporali con maggiore precisione, riducendo allo stesso tempo i passi di decodifica necessari. Il risultato è una generazione più rapida e una migliore allineamento tra audio e testo.

La versione v2, in particolare, è descritta come una variante XL di FastConformer con attenzione completa, in grado di processare segmenti audio fino a circa 24 minuti in un'unica passata. La v3 multilingue parte invece da un checkpoint CTC pre-addestrato sul dataset Granary, che comprende oltre 670.000 ore di audio, e viene poi affinata su dati di alta qualità del NeMo ASR Set 3.0.

Cosa sa fare

Parakeet è specializzato nella trascrizione speech-to-text, ma offre funzionalità aggiuntive importanti per chi deve lavorare con contenuti audio:

Trascrizione continua: converte parlato in testo fluido, con buona robustezza a rumore di fondo, accenti e variazioni di velocità.
: il testo in uscita è formattato in modo leggibile, senza bisogno di passaggi di post-elaborazione separati.

NVIDIA Parakeet: famiglia di modelli ASR open

Cos'è NVIDIA Parakeet

Come funziona

Cosa sa fare

Perché conta per founder, PMI e agenzie italiane

Dove trovarlo e come usarlo