Microsoft VALL-E kopíruje pôvodné hlasy rečníkov, emócie, aby syntetizoval personalizované prejavy

Ikona času čítania 2 min. čítať

Ikona kalendára Publikované dňa Januára 10, 2023

publikované dňa Januára 10, 2023

Čítačky pomáhajú podporovať MSpoweruser. Ak nakupujete prostredníctvom našich odkazov, môžeme získať províziu.

Nový jazykový model VALL-E od Microsoftu je zaujímavý nástroj umelej inteligencie, ktorý dokáže kopírovať ľudské hlasy a dokonca aj emócie a tóny v nich. Na to, aby sa použil ako akustická výzva, potrebuje iba trojsekundovú nahrávku, ale môže poskytnúť inú správu pomocou hlasu pôvodného reproduktora. (Témy AI via okná Centrálne)

Microsoft veľa investuje do AI. Okrem technológie ChatGPT AI OpenAI (ktorá bude integrovaná do Bing a ďalšie Aplikácie balíka Office), má tiež nedávno vydaný nástroj VALL-E. Ide o jazykový model trénovaný na 60,000 XNUMX hodinách údajov o anglickej reči. Prostredníctvom tejto technológie môže osoba syntetizovať personalizovanú reč pomocou hlasu iného rečníka.

V experimente podrobne popísanom v článku (Cornell University), VALL-E bol testovaný a viedol k priaznivým výsledkom.

„Výsledky experimentov ukazujú, že VALL-E výrazne prevyšuje najmodernejší systém zero-shot TTS, pokiaľ ide o prirodzenosť reči a podobnosť rečníkov,“ píše sa v novinách. "Okrem toho sme zistili, že VALL-E môže zachovať emócie rečníka a akustické prostredie akustickej výzvy v syntéze."

V niektorých z Vzorky zdieľané, syntetizované prejavy využívajúce akustické výzvy znejú takmer bezchybne. VALL-E sa podarilo skopírovať rovnaké tóny a emócie z pôvodných reproduktorov a dokonca ich použiť pri podaní veľmi odlišného personalizovaného prejavu. Napríklad dokázal vytvoriť nahrávky tej istej vety („Musíme znížiť počet plastových tašiek“) dodávané v rôznych náladách alebo tónoch, ako je hnev, ospalosť, neutralita, pobavenie a znechutenie.

Napriek tomuto výnimočnému výkonu má Microsoft pravdepodobne ďalšie plány na ďalšie vylepšenie VALL-E v budúcnosti, aby mu pomohol poskytovať dokonalejší výkon. A hoci to môže byť užitočné pre rôzne scenáre, technológia môže byť aj nebezpečná pod rukami nesprávnych jednotlivcov. Chvalabohu je momentálne pre verejnosť nedostupná, čo by mohlo dať redmondskej spoločnosti viac času na premyslenie, ako a kde túto technológiu ponúkne.

Aký je váš názor na toto? Dajte nám vedieť v sekcii komentárov.

Viac o témach: Umelá inteligencia, VALLEY

Sharron Bennetová

Reportér

Sharron je technický reportér na mspoweruser.com. Zaoberá sa väčšinou technologických noviniek od značiek ako Sony, Samsung, Google a ďalších.

Nechaj odpoveď