A Microsoft VALL-E lemásolja az eredeti felszólalók hangját és érzelmeit, hogy személyre szabott beszédet szintetizáljon

Olvasási idő ikonra 2 perc olvas


Az olvasók segítenek az MSpoweruser támogatásában. Kaphatunk jutalékot, ha a linkjeinken keresztül vásárol. Eszköztipp ikon

Olvassa el közzétételi oldalunkat, hogy megtudja, hogyan segítheti az MSPowerusert a szerkesztői csapat fenntartásában Tovább

A Microsoft új nyelvi modellje, a VALL-E egy érdekes mesterséges intelligencia eszköz, amely képes lemásolni az emberi hangokat, sőt az abban rejlő érzelmeket és hangokat is. Csak három másodperces felvételre van szüksége ahhoz, hogy akusztikus felszólításként használhassa, de más üzenetet is közvetíthet az eredeti beszélő hangjával. (AITémák keresztül A windows Central)

A Microsoft sokat fektet az AI-ba. Az OpenAI ChatGPT AI technológiáján kívül (amely integrálva lesz Bing és egyéb Office alkalmazások), a közelmúltban kiadott VALL-E eszközzel is rendelkezik. Ez egy nyelvi modell, amely 60,000 XNUMX órányi angol beszédadatokon alapul. Ezzel a technológiával egy személy személyre szabott beszédet szintetizálhat egy másik beszélő hangjának használatával.

Egy tanulmányban részletezett kísérletben (Cornell Egyetem), a VALL-E-t tesztelték, és kedvező eredményekhez vezetett.

"A kísérleti eredmények azt mutatják, hogy a VALL-E a beszéd természetessége és a beszélők hasonlósága tekintetében jelentősen felülmúlja a legmodernebb zero-shot TTS rendszert" - olvasható a lapban. "Emellett úgy találjuk, hogy a VALL-E meg tudja őrizni a hangszóró érzelmét és az akusztikus felszólítás akusztikus környezetét a szintézis során."

Néhányban a minták megosztva szinte hibátlanul szólalnak meg az akusztikus felszólítások segítségével szintetizált beszédek. A VALL-E-nek sikerült lemásolnia ugyanazokat a hangokat és érzelmeket az eredeti hangszórókból, és még egy nagyon eltérő, személyre szabott beszédet is felhasznált. Például képes volt ugyanabból a mondatból felvételeket készíteni ("Csökkentenünk kell a műanyag zacskók számát“) különböző hangulatokban vagy hangnemekben, például harag, álmosság, semlegesség, szórakozás és undor.

E kivételes teljesítmény ellenére a Microsoft valószínűleg további tervei között szerepel a VALL-E további fejlesztése a jövőben, hogy kifogástalanabb teljesítményt nyújtson. És bár hasznos lehet különféle esetekre, a technológia veszélyes is lehet nem megfelelő személyek kezei alatt. Szerencsére jelenleg nem elérhető a nagyközönség számára, ami több időt adhat a redmondi cégnek, hogy átgondolja, hogyan és hol kínálja majd ezt a technológiát.

Mi a véleményed erről? Tudassa velünk a megjegyzés rovatban. 

Bővebben a témákról: Mesterséges Intelligencia, VÖLGY

Hagy egy Válaszol

E-mail címed nem kerül nyilvánosságra. Kötelező kitölteni *