
LiveKit Agents: framework open-source per agenti vocali in tempo reale
Un framework Apache 2.0 per costruire partecipanti AI vocali e multimodali dentro stanze WebRTC, con controllo totale sulla pipeline e sul deployment.
Cos'è LiveKit Agents
LiveKit Agents è un framework open-source rilasciato sotto licenza Apache 2.0 che consente di costruire agenti vocali e multimodali in tempo reale. Nasce all'interno dell'ecosistema LiveKit, una piattaforma WebRTC open-source scritta in Go e ampiamente utilizzata per applicazioni audio, video e dati in tempo reale. Il framework espone SDK per Python e Node.js e permette di aggiungere un programma come partecipante programmatico a una stanza LiveKit: l'agente può ascoltare, vedere, parlare e scambiare dati con gli utenti umani attraverso il browser, un'app mobile o una linea telefonica.
A differenza di piattaforme voice-as-a-service completamente gestite, LiveKit Agents offre un livello di orchestrazione in codice. Lo sviluppatore definisce il comportamento dell'agente, sceglie i modelli da utilizzare, configura il rilevamento delle interruzioni e decide dove far girare l'infrastruttura. L'obiettivo è fornire un ponte robusto tra modelli di intelligenza artificiale e il mondo del real-time communication, gestendo la complessità del trasporto audio WebRTC, dello stato della stanza e della sincronizzazione tra parlato e risposta.
A cosa serve
LiveKit Agents si colloca nel momento in cui un'azienda vuole offrire un'esperienza conversazionale naturale direttamente dentro i propri prodotti digitali. Le applicazioni più comuni includono assistenti vocali in-app, receptionist virtuali per call center, supporto clienti automatizzato, triage in telemedicina, interpretariato in tempo reale, NPC intelligenti in ambienti virtuali e interfaccia vocale per robot o dispositivi IoT. Ogni scenario condivide due esigenze: latenza percepita molto bassa e capacità di gestire flussi audio instabili come reti mobili o connessioni domestiche.
Il framework è particolarmente utile quando il dialogo non può limitarsi a una semplice domanda-risposta. Grazie al supporto per il tool calling e per il Model Context Protocol, l'agente può interrogare sistemi aziendali, prenotare appuntamenti, aggiornare CRM, avviare ordini o richiedere conferme all'utente, il tutto durante una conversazione vocale continua. Inoltre, la multimodalità consente di combinare voce, testo e video: un agente può ricevere uno screen share o un flusso video dalla telecamera dell'utente e ragionare sul contenuto visivo attraverso modelli di visione.
Come funziona
Il cuore dell'architettura è la stanza LiveKit, un'astrazione WebRTC in cui ogni partecipante pubblica e sottoscrive flussi audio, video o dati. L'agente creato con LiveKit Agents entra nella stanza come partecipante server-side. Il suo compito è ricevere l'audio dell'utente, processarlo attraverso una pipeline AI e pubblicare un flusso audio sintetico di risposta.
La pipeline più classica è composta da tre stadi: speech-to-text per trascrivere la voce, large language model per generare la risposta, text-to-speech per sintetizzare la voce dell'agente. LiveKit Agents fornisce i connettori per i principali provider, consentendo di combinare liberamente STT, LLM e TTS. In alternativa, è possibile utilizzare API speech-to-speech come OpenAI Realtime o Gemini Live, dove il modello riceve direttamente l'audio e restituisce audio di risposta, riducendo il numero di handoff e spesso la latenza complessiva.