Alexa è ora in grado di leggere le notizie come un vero giornalista

Voiced by Amazon Polly

Questo è possibile grazie a un algoritmo che viene allenato man mano ad assumere toni e inflessioni del suono più simili a quelli umani. Il sistema TTS (text to speech) di Alexa è composto da 2 componenti: una parte che trasforma una serie di fonemi in una sequenza di spettrogrammi e la seconda composta da un vocoder che traduce gli spettrogrammi in suoni.

Alexa può ora fornire le notizie con il tenore e il tono di un giornalista professionista, grazie a una nuova tecnica di intelligenza artificiale (AI). A partire da oggi per i clienti negli Stati Uniti, come prima avvistato da TechCrunch , Alexa ti informerà sugli eventi del giorno e racconterà frammenti di Wikipedia con una voce “più naturale” sensibile al contesto che enfatizza parole e frasi in un modo umano.

Per ascoltare la nuova voce “giornalista”, prova a chiedere: “Alexa, qual è l’ultima?” E per ascoltare la voce leggere un frammento di un articolo di Wikipedia, dire un comando del tipo: “Alexa, Wikipedia Nick Jonas.”

“Proprio come gli umani cambiano il loro modo di parlare in base alla situazione, la nostra nuova … tecnologia consente ad Alexa di fornire le notizie del giorno adattando uno stile di conversazione diverso rispetto a quello che suonerebbe quando, ad esempio, fornendo informazioni da Wikipedia” Amazon ha scritto in un post sul blog  pubblicato questa mattina.

La tecnologia alla base delle voci migliorate è un sistema TTS (text-to-speech) che può imparare ad adottare un nuovo stile di conversazione da poche ore di allenamento. I metodi tradizionali richiedono l’assunzione di un doppiatore per leggere nello stile di destinazione per decine di ore collettive.

Il modello neurale TTS di Amazon (o NTTS in breve), che è stato descritto per la prima volta in un documento pubblicato alla fine dello scorso anno , è costituito da due componenti. Il primo è una rete generativa neurale che converte una sequenza di fonemi – percettivamente distinte unità di suono che distinguono una parola dall’altra, come la  p, b, d, t  in  pad pat  – in una sequenza di spettrogrammi, una visuale rappresentazione dello spettro delle frequenze del suono come variano nel tempo. Il secondo è un vocoder che converte quegli spettrogrammi in un segnale audio continuo.

Il risultato finale? Un metodo di allenamento del modello di intelligenza artificiale che combina una grande quantità di dati vocali in stile neutro con solo poche ore di dati supplementari nello stile desiderato, e un sistema di intelligenza artificiale in grado di distinguere elementi del discorso sia indipendente da uno stile parlante che unico per quello stile.

“La capacità di insegnare ad Alexa ad adattare il suo modo di parlare in base al contesto della richiesta del cliente apre la possibilità di offrire nuove e deliziose esperienze che prima erano impensabili”, ha dichiarato Andrew Breen, senior manager del team TTS Research di Amazon. “Siamo entusiasti che i nostri clienti ascolteranno le notizie e le informazioni di Wikipedia da Alexa in questo nuovo modo.”

Il debutto delle nuove voci di Alexa arriva mesi dopo che Amazon ha lanciato la modalità Whisper su elettrodomestici e altoparlanti intelligenti compatibili. Quando è abilitato, parlare ad Alexa con un tono sommesso fa scattare l’assistente a sussurrare di nuovo.

Lascia un commento