Come l’IA corregge le parole incomplete durante le chiamate disturbate

Luca Sambucci

4 anni fa

Il mondo fa sempre più ricorso a video-chiamate, dove la voce dell’interlocutore viene spezzettata, chiusa tanti piccoli pacchetti e inviata dall’altro capo della chiamata, a volte a decine di migliaia di chilometri di distanza.

Spesso succede che molti di questi pacchetti non arrivino a destinazione, in quel caso avremo la chiamata disturbata, parole spezzate, problemi a comprendere quello che viene detto.

Per cercare di migliorare l’esperienza di chiamata, un team di Google ha sviluppato un software di intelligenza artificiale in grado di generare il contenuto mancante in una parola, imitando alla perfezione la voce dell’interlocutore.

Per realizzare il programma ci si è basati sulla rete neurale WaveNetEQ sviluppata da DeepMind (azienda di Google che tratto spesso) in grado di generare un parlato realistico partendo dal testo. La rete è stata quindi addestrata su un dataset di oltre 100 voci in 48 lingue diverse, che ha consentito all’algoritmo di imparare le caratteristiche dell’espressione vocale umana piuttosto che quelle di una lingua specifica.

Il team di Google durante il training ha anche pensato di aggiungere sfondi rumorosi – come una stazione ferroviaria o un bar – per assicurarsi che la rete neurale imparasse a distinguere la voce dai rumori di fondo, visto che il servizio sarà usato anche quando gli utenti si trovano all’aperto.

Il software di IA non sostituisce intere parole, bensì si limita a inserire le sillabe e i fonemi più plausibili basandosi sul training ricevuto e su un sistema basato su due reti, che imparano durante la chiamata. La prima è una rete neurale autoregressiva, che fornisce una struttura a breve e medio termine basandosi sugli output precedenti, la seconda è una rete condizionante che informa il network autoregressivo sulle caratteristiche più stabili degli input (ad esempio il timbro della voce), in un certo senso “guidandolo” verso i corretti fonemi da produrre. Il risultato è un sistema che riesce a completare in modo convincente le parole spezzate imitando la voce di chi parla in maniera indistinguibile dall’originale.

La tecnologia basata su IA può funzionare per interruzioni fino a 120 millisecondi, ed è già stata messa in produzione nell’app Duo sui telefoni Google Pixel 4, ma poiché l’app è crittografata end-to-end (non è possibile intercettare le chiamate nei nodi di passaggio) l’AI deve essere per forza eseguita direttamente sul dispositivo anziché sul Cloud.

Sul blog di Google è possibile ascoltare alcuni esempi di audio “riempito” dall’intelligenza artificiale, che prevede correttamente i termini e li pronuncia con la voce degli oratori senza differenze percettibili.