VALL-E de la Microsoft copiază vocile originale ale vorbitorilor, emoțiile pentru a sintetiza discursuri personalizate

Pictograma timp de citire 2 min. citit


Cititorii ajută la sprijinirea MSpoweruser. Este posibil să primim un comision dacă cumpărați prin link-urile noastre. Pictograma Tooltip

Citiți pagina noastră de dezvăluire pentru a afla cum puteți ajuta MSPoweruser să susțină echipa editorială Afla mai multe

Noul model de limbaj Microsoft VALL-E este un instrument interesant de inteligență artificială care poate copia vocile umane și chiar emoțiile și tonurile din ele. Are nevoie de doar o înregistrare de trei secunde pentru a fi folosit ca un prompt acustic, dar poate transmite un mesaj diferit folosind vocea difuzorului original. (AITopicuri de ferestre din Central)

Microsoft investește foarte mult în AI. Pe lângă tehnologia OpenAI ChatGPT AI (care va fi integrată în Bing si alte Aplicații Office), are și instrumentul VALL-E recent lansat. Este un model lingvistic antrenat pe 60,000 de ore de date de vorbire în limba engleză. Prin această tehnologie, o persoană poate sintetiza vorbire personalizată folosind vocea unui alt vorbitor.

Într-un experiment detaliat într-o lucrare (Universitatea Cornell), VALL-E a fost testat și a condus la rezultate favorabile.

„Rezultatele experimentului arată că VALL-E depășește semnificativ sistemul TTS zero-shot de ultimă generație în ceea ce privește naturalețea vorbirii și similitudinea vorbitorului”, se arată în lucrare. „În plus, constatăm că VALL-E ar putea păstra emoția difuzorului și mediul acustic al promptului acustic în sinteză.”

În unele dintre probe împărtășite, discursurile sintetizate folosind indicații acustice sună aproape impecabil. VALL-E a reușit să copieze aceleași tonuri și emoții de la difuzoarele originale și chiar le-a folosit pentru a oferi un discurs personalizat foarte diferit. De exemplu, a fost capabil să producă înregistrări ale aceleiași propoziții („Trebuie să reducem numărul de pungi de plastic„) transmis în diferite stări sau tonuri, cum ar fi furia, somnolența, neutralitatea, amuzamentul și dezgustul.

În ciuda acestei performanțe excepționale, Microsoft are probabil planuri suplimentare de a îmbunătăți VALL-E mai mult în viitor, pentru a-l ajuta să ofere o performanță mai impecabilă. Și, deși poate fi utilă pentru diferite scenarii de caz, tehnologia poate fi, de asemenea, periculoasă în mâinile unor persoane greșite. Din fericire, în prezent nu este disponibil publicului, ceea ce ar putea oferi companiei din Redmond mai mult timp să se gândească la cum și unde va oferi această tehnologie.

Ce părere aveți despre asta? Anunțați-ne în secțiunea de comentarii. 

Forumul utilizatorilor

0 mesaje