Categories: Tech

Scopri la sorprendente qualità dei chatbot vocali di Sesame: prova la demo che ti lascerà senza parole

Negli ultimi due anni e mezzo, il campo dell’intelligenza artificiale ha conosciuto un’evoluzione senza precedenti, con eventi che hanno catturato l’attenzione di esperti e appassionati. Tra le innovazioni più significative ci sono i chatbot conversazionali di nuova generazione, in particolare quelli sviluppati da Sesame, una startup innovativa. La loro demo interattiva ha suscitato un notevole interesse, grazie a una qualità dell’interazione che promette di ridefinire l’interazione uomo-macchina.

la qualità dei chatbot vocali di sesame

Sesame ha recentemente lanciato i suoi chatbot vocali, Maya e Miles, che offrono un’esperienza di conversazione sorprendentemente realistica. Gli utenti hanno riportato feedback entusiasti, evidenziando come interagire con questi chatbot sia simile a conversare con persone reali. Grazie a pause, respiri e variazioni emozionali, il dialogo risulta estremamente naturale. Questo livello di qualità non era mai stato raggiunto prima, nemmeno con altri modelli avanzati come ChatGPT.

Un esempio di questa interazione è fornito dal podcaster Gavin Purcell, che ha dimostrato come sia possibile avere discussioni animate con Miles su questioni lavorative. Alcuni utenti hanno anche condiviso esperienze toccanti, come quella di una bambina che ha pianto quando ha scoperto che la demo era limitata a soli 30 minuti. Questo tipo di coinvolgimento emotivo è un chiaro segno dell’efficacia del modello sviluppato da Sesame.

il modello innovativo di conversational speech model

La startup, fondata da Brendan Iribe, Ankit Kumar e Ryan Brown, ha attirato l’attenzione di importanti investitori, raccogliendo finanziamenti significativi. Ma cosa rende i chatbot di Sesame così speciali? Il cuore della loro innovazione è il Conversational Speech Model (CSM), progettato per comprendere non solo il contenuto delle parole, ma anche il contesto emotivo e conversazionale. Questa capacità consente a Maya e Miles di modulare il tono, il ritmo e le pause, rendendo la comunicazione molto più simile a quella umana.

A differenza dei tradizionali modelli di sintesi vocale, il CSM di Sesame offre un’esperienza di conversazione più ricca. Mentre i modelli TTS generano audio da testo in fasi separate, il CSM integra il processo in un unico modello multimodale. Questo approccio unico permette di elaborare simultaneamente il testo e l’audio, producendo un parlato di alta qualità che tiene conto della storia della conversazione.

il futuro dei chatbot vocali e le sfide etiche

Per addestrare il modello, il team di Sesame ha utilizzato un vasto corpus di circa 1 milione di ore di audio, sviluppando tre varianti del modello: Tiny, Small e Medium, con rispettivamente 1, 3 e 8 miliardi di parametri. Questa struttura consente a Sesame di offrire una sintesi vocale che varia in complessità e prestazioni, adattandosi a diverse applicazioni e sistemi.

Tuttavia, ci sono ancora alcune limitazioni da affrontare. Attualmente, il modello è stato addestrato principalmente sulla lingua inglese, ma ci sono piani per espandere le capacità linguistiche a 20 lingue in futuro. Inoltre, il modello necessita di miglioramenti nella gestione delle strutture dialogiche e nella prosodia, per superare l’uncanny valley, ovvero quella sensazione di inquietudine che si prova quando un’IA si avvicina troppo alla realtà.

La possibilità di avere un modello vocale così realistico solleva interrogativi etici e sociali. Sesame ha annunciato l’intenzione di rendere open-source alcuni componenti chiave della sua tecnologia, utilizzando una licenza Apache 2.0. Questo approccio offre agli sviluppatori la possibilità di personalizzare e costruire su queste basi, ma apre anche la porta a potenziali abusi e ingegneria sociale.

Per chi desidera esplorare questa innovazione, è possibile provare la demo interattiva dei chatbot vocali di Sesame. Gli utenti possono interagire con Maya e Miles, interrompendoli e facendo riferimento a conversazioni passate, rendendo l’interazione ancora più immersiva. La tecnologia sviluppata da Sesame potrebbe segnare un punto di svolta nella comunicazione tra uomo e macchina, e le implicazioni di questa evoluzione continueranno a essere oggetto di discussione nei mesi e negli anni a venire.

Claudia Lisi

Recent Posts

YouTube Premium lancia un’opzione low-cost, ma non per l’Italia

YouTube ha recentemente lanciato un nuovo piano di abbonamento, YouTube Premium Lite, che rappresenta un'opzione…

53 secondi ago

Scopri i segreti per ottenere più offerte sull’app McDonald’s

McDonald's è una delle catene di fast food più amate al mondo, offrendo soluzioni rapide…

4 ore ago

Google introduce una nuova funzione anti-spam che nasconde le email nelle registrazioni

Negli ultimi anni, la crescente preoccupazione per la privacy online e il proliferare dello spam…

8 ore ago

Controllare le notifiche: fino a 80 accessi l’ora su smartphone

In un mondo sempre più connesso, gli italiani si trovano a fronteggiare una realtà in…

22 ore ago

Anthropic: la società di IA che conquista un valore di 61,5 miliardi di dollari

La crescente competitività nel campo dell'intelligenza artificiale (IA) ha raggiunto un nuovo vertice con l'annuncio…

1 giorno ago

Arrivano 40 milioni per i provider Spid: il decreto è ufficiale

È stato recentemente firmato un decreto che prevede l'assegnazione di 40 milioni di euro ai…

1 giorno ago