VALL-E firmy Microsoft kopiuje głosy i emocje oryginalnych mówców, aby zsyntetyzować spersonalizowane przemówienia

Ikona czasu czytania 2 minuta. czytać


Czytelnicy pomagają wspierać MSpoweruser. Możemy otrzymać prowizję, jeśli dokonasz zakupu za pośrednictwem naszych linków. Ikona podpowiedzi

Przeczytaj naszą stronę z informacjami, aby dowiedzieć się, jak możesz pomóc MSPoweruser w utrzymaniu zespołu redakcyjnego Czytaj więcej

Nowy model językowy Microsoftu VALL-E to ciekawe narzędzie sztucznej inteligencji, które może kopiować ludzkie głosy, a nawet zawarte w nich emocje i tony. Potrzebuje tylko trzysekundowego nagrania, aby można było użyć go jako zachęty akustycznej, ale może przekazać inną wiadomość, używając głosu oryginalnego mówcy. (Tematy AI przez szyby Centralny)

Microsoft dużo inwestuje w sztuczną inteligencję. Oprócz technologii OpenAI ChatGPT AI (która zostanie zintegrowana z Bing i inne Aplikacje biurowe), ma również niedawno wydane narzędzie VALL-E. Jest to model językowy przeszkolony na 60,000 XNUMX godzin danych mowy angielskiej. Dzięki tej technologii osoba może syntetyzować spersonalizowaną mowę, używając głosu innego mówcy.

W eksperymencie szczegółowo opisanym w artykule (Cornell University), VALL-E został przetestowany i doprowadził do korzystnych wyników.

„Wyniki eksperymentów pokazują, że VALL-E znacznie przewyższa najnowocześniejszy system TTS zero-shot pod względem naturalności mowy i podobieństwa mówców” – czytamy w artykule. „Ponadto stwierdziliśmy, że VALL-E może zachować w syntezie emocje mówcy i środowisko akustyczne podpowiedzi akustycznej”.

W niektórych próbki wspólne, zsyntetyzowane przemówienia z wykorzystaniem podpowiedzi akustycznych brzmią niemal bezbłędnie. VALL-E zdołał skopiować te same tony i emocje z oryginalnych głośników, a nawet wykorzystał je do wygłoszenia bardzo odmiennej, spersonalizowanej przemowy. Na przykład był w stanie wyprodukować nagrania tego samego zdania („Musimy zmniejszyć liczbę plastikowych toreb„) wygłaszane w różnych nastrojach lub tonach, takich jak złość, senność, neutralność, rozbawienie i wstręt.

Pomimo tej wyjątkowej wydajności firma Microsoft prawdopodobnie planuje dalsze udoskonalanie VALL-E w przyszłości, aby zapewnić lepszą wydajność. I chociaż może być przydatna w różnych scenariuszach przypadków, technologia może być również niebezpieczna w rękach niewłaściwych osób. Na szczęście jest ona obecnie niedostępna publicznie, co może dać firmie z Redmond więcej czasu na zastanowienie się, jak i gdzie zaoferuje tę technologię.

Jaka jest twoja opinia na ten temat? Daj nam znać w sekcji komentarzy. 

Forum użytkowników

Wiadomości 0