VALL-E di Microsoft copia le voci e le emozioni degli oratori originali per sintetizzare discorsi personalizzati

Icona del tempo di lettura 2 minuto. leggere


I lettori aiutano a supportare MSpoweruser. Potremmo ricevere una commissione se acquisti tramite i nostri link. Icona descrizione comando

Leggi la nostra pagina informativa per scoprire come puoi aiutare MSPoweruser a sostenere il team editoriale Per saperne di più

Il nuovo modello linguistico di Microsoft VALL-E è un interessante strumento di intelligenza artificiale in grado di copiare le voci umane e persino le emozioni e i toni in esse contenuti. Richiede solo una registrazione di tre secondi per essere utilizzato come prompt acustico, ma può trasmettere un messaggio diverso utilizzando la voce dell'oratore originale. (Argomenti AI via finestre centrale)

Microsoft sta investendo molto nell'intelligenza artificiale. A parte la tecnologia ChatGPT AI di OpenAI (che sarà integrata in Bing e altro App per ufficio), include anche lo strumento VALL-E rilasciato di recente. È un modello linguistico addestrato su 60,000 ore di dati vocali in inglese. Attraverso questa tecnologia, una persona può sintetizzare un discorso personalizzato utilizzando la voce di un altro oratore.

In un esperimento dettagliato in un documento (Cornell University), VALL-E è stato testato e ha portato a risultati favorevoli.

"I risultati dell'esperimento mostrano che VALL-E supera in modo significativo il sistema TTS zero-shot all'avanguardia in termini di naturalezza del parlato e somiglianza del parlante", si legge nel documento. "Inoltre, troviamo che VALL-E potrebbe preservare l'emozione di chi parla e l'ambiente acustico del prompt acustico in sintesi."

In alcuni dei file campioni condiviso, i discorsi sintetizzati utilizzando suggerimenti acustici suonano quasi impeccabili. VALL-E è riuscito a copiare gli stessi toni ed emozioni dagli oratori originali e li ha persino usati per offrire un discorso personalizzato molto diverso. Ad esempio, è stato in grado di produrre registrazioni della stessa frase ("Dobbiamo ridurre il numero di sacchetti di plastica“) espresso in diversi stati d'animo o toni, come rabbia, sonnolenza, neutralità, divertimento e disgusto.

Nonostante queste prestazioni eccezionali, Microsoft ha probabilmente ulteriori piani per migliorare ulteriormente VALL-E in futuro per aiutarlo a fornire prestazioni più impeccabili. E mentre può essere utile per vari scenari di casi, la tecnologia può anche essere pericolosa sotto le mani delle persone sbagliate. Per fortuna, al momento non è disponibile al pubblico, il che potrebbe dare all'azienda di Redmond più tempo per pensare a come e dove offrirà questa tecnologia.

Qual è la tua opinione su questo? Fatecelo sapere nella sezione commenti. 

Maggiori informazioni sugli argomenti: Intelligenza Artificiale, VALLE

Lascia un Commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *