Microsoftov VALL-E kopira izvorne glasove govornika, emocije za sintetiziranje personaliziranih govora
2 min. čitati
Objavljeno na
Pročitajte našu stranicu za otkrivanje kako biste saznali kako možete pomoći MSPoweruseru da održi urednički tim Čitaj više
Microsoftov novi jezični model VALL-E zanimljiv je alat umjetne inteligencije koji može kopirati ljudske glasove, pa čak i emocije i tonove u njima. Potrebna mu je samo snimka od tri sekunde da bi se koristila kao akustična poruka, ali može isporučiti drugu poruku koristeći glas izvornog govornika. (AI teme preko Windows Središnja)
Microsoft puno ulaže u AI. Osim OpenAI-jeve ChatGPT AI tehnologije (koja će biti integrirana u Bing i druge Aplikacije sustava Office), također ima nedavno objavljeni alat VALL-E. To je jezični model obučen na 60,000 XNUMX sati podataka engleskog govora. Pomoću ove tehnologije osoba može sintetizirati personalizirani govor koristeći glas drugog govornika.
U eksperimentu detaljno opisanom u radu (Cornell University), VALL-E je testiran i doveo je do povoljnih rezultata.
"Rezultati eksperimenta pokazuju da VALL-E značajno nadmašuje najsuvremeniji zero-shot TTS sustav u smislu prirodnosti govora i sličnosti govornika", stoji u radu. "Osim toga, nalazimo da bi VALL-E mogao sačuvati govornikovu emociju i akustično okruženje akustičnog poticaja u sintezi."
U nekim od uzorci zajednički, sintetizirani govori koji koriste akustične upute zvuče gotovo besprijekorno. VALL-E je uspio kopirati iste tonove i emocije od originalnih zvučnika i čak ih upotrijebiti u isporuci vrlo različitog personaliziranog govora. Na primjer, mogao je proizvesti snimke iste rečenice ("Moramo smanjiti broj plastičnih vrećica“) isporučeno u različitim raspoloženjima ili tonovima, kao što su ljutnja, pospanost, neutralnost, zabava i gađenje.
Unatoč ovim iznimnim performansama, Microsoft vjerojatno ima daljnje planove za dodatno poboljšanje VALL-E u budućnosti kako bi mu pomogao da pruži besprijekornije performanse. I dok može biti korisna za različite scenarije, tehnologija također može biti opasna u rukama pogrešnih pojedinaca. Srećom, trenutno je nedostupan javnosti, što bi tvrtki iz Redmonda moglo dati više vremena za razmišljanje o tome kako i gdje će ponuditi ovu tehnologiju.
Što mislite o ovome? Javite nam u odjeljku za komentare.
Korisnički forum
0 poruke