Microsoft VALL-E kopíruje původní hlasy řečníků, emoce, aby syntetizoval personalizované projevy
2 min. číst
Publikované dne
Přečtěte si naši informační stránku a zjistěte, jak můžete pomoci MSPoweruser udržet redakční tým Více informací
Nový jazykový model Microsoftu VALL-E je zajímavým nástrojem umělé inteligence, který dokáže kopírovat lidské hlasy a dokonce i emoce a tóny v nich. Potřebuje pouze třísekundovou nahrávku, která bude použita jako akustická výzva, ale může předat jinou zprávu pomocí hlasu původního mluvčího. (Témata AI přes okna Centrální)
Microsoft hodně investuje do AI. Kromě technologie ChatGPT AI OpenAI (která bude integrována do Bing a další Aplikace Office), má také nedávno vydaný nástroj VALL-E. Jedná se o jazykový model trénovaný na 60,000 XNUMX hodinách dat anglické řeči. Prostřednictvím této technologie může člověk syntetizovat personalizovanou řeč pomocí hlasu jiného mluvčího.
V experimentu popsaném v článku (Cornell University), VALL-E byl testován a vedl k příznivým výsledkům.
„Výsledky experimentů ukazují, že VALL-E výrazně překonává nejmodernější systém zero-shot TTS, pokud jde o přirozenost řeči a podobnost mluvčích,“ píše se v novinách. "Kromě toho jsme zjistili, že VALL-E může zachovat emoce mluvčího a akustické prostředí akustické výzvy v syntéze."
V některých z Vzorky sdílené, syntetizované projevy využívající akustické výzvy zní téměř bezchybně. VALL-E se podařilo zkopírovat stejné tóny a emoce z původních reproduktorů a dokonce je použít k podání velmi odlišného personalizovaného projevu. Například byl schopen vytvořit nahrávky stejné věty („Musíme snížit počet plastových tašek“) pronášené v různých náladách nebo tónech, jako je hněv, ospalost, neutralita, pobavení a znechucení.
Navzdory tomuto výjimečnému výkonu má Microsoft pravděpodobně další plány na další vylepšení VALL-E v budoucnu, aby mu pomohl poskytovat bezvadný výkon. A i když to může být užitečné pro různé scénáře, technologie může být také nebezpečná pod rukama nesprávných jedinců. Naštěstí je v současnosti pro veřejnost nedostupná, což by mohlo dát redmondské společnosti více času na rozmyšlenou, jak a kde tuto technologii nabídne.
Jaký na to máte názor? Dejte nám vědět v sekci komentářů.
Uživatelské fórum
0 zprávy