Dopo i numerosi recenti sviluppi dell’intelligenza artificiale, c’è già chi immagina che ben presto le nuove tecnologie di clonazione vocale cambieranno la realtà in cui viviamo. Almeno quella mediatica e comunicativa. Sarà infatti possibile, ad esempio, non solo replicare la propria voce o quella di altri, ma anche parlare lingue che non si sono mai studiate o conosciuta. Nuova frontiera o pericolosa deriva?
Già oggi, sempre più spesso i software di intelligenza artificiale stanno mettendo in discussione, una dopo l’altra, le nostre certezze. Chiaro è che la nostra voce sia già un segno identificativo tanto quanto lo sono le proprie impronte digitali. Ebbene, presto anche quel segno identificativo impresso nelle corde vocali potrà essere clonato dai nuovi strumenti di intelligenza artificiale. Se in modo preciso o meno, avremo presto modo di scoprirlo.
Di fatto, quello che sappiamo è che saranno tanto le potenzialità quanto i rischi ad essere enormi. Nel primo caso, le barriere linguistiche saranno le prime a cadere. A pensarci sono state le tre maggiori piattaforme audiovisuali del web, TikTok, Youtube e Vimeo. La maggior parte di questi contenuti, infatti, grazie alla clonazione della voce potranno essere fruibili in ogni lingua, e senza alcun bisogno di doppiaggio e sottotitoli, utilizzando per di più la voce dei creator che li ha prodotti.
L’annuncio da parte delle Big del settore
Lo scorso settembre anche Spotify avevano annunciato l’imminente lancio di alcuni podcast che manterranno, in più lingue, la stessa voce dell’autore, proprio grazie al “voice cloning”, letteralmente “clonazione della voce”, processo che porta alla creazione di una voce sintetica molto simile a quella della persona reale da cui proviene. Resteranno giusto dei piccoli accorgimenti su cui lavorare relativi all’uso del labiale, visto che anche la stessa intonazione sembrerebbe in procinto di presentarsi come molto efficace.
Tutto sarà tecnicamente possibile grazie ad algoritmi di deep learning con cui analizzare degli estratti di parlato che colgono le caratteristiche principali della voce che si vuole replicare e da lì generano nuovi discorsi in lingue differenti, replicando tono, stile ed emozioni dell’oratore. Con approcci diversi. Dal text to speech, in cui si da un testo come imput, all’assegnazione di una skin vocale a un audio preesistente. Fino a un modello basato sul vero e proprio learning language model, che utilizza un enorme database con centinaia di migliaia di ore di audio.
I produttori sostengono che all’interno del progetto c’è grande attenzione per l’individuo e alla sicurezza delle informazioni, in conformità con il GDPR europeo. Ma le piattaforme promettono già di manipolare contenuti senza limitazione. Ci si chiede perciò quale sia il futuro che davvero ci attende.