Microsoftin VALL-E kopioi alkuperäiset puhujien äänet, tunteet syntetisoidakseen yksilöllisiä puheita

Lukuajan kuvake 2 min. lukea


Lukijat auttavat tukemaan MSpoweruseria. Saatamme saada palkkion, jos ostat linkkien kautta. Työkaluvihje-kuvake

Lue ilmoitussivumme saadaksesi selville, kuinka voit auttaa MSPoweruseria ylläpitämään toimitustiimiä Lue lisää

Microsoftin uusi kielimalli VALL-E on mielenkiintoinen tekoälytyökalu, joka pystyy kopioimaan ihmisääniä ja jopa niissä olevia tunteita ja sävyjä. Se tarvitsee vain kolmen sekunnin nauhoituksen, jotta sitä voidaan käyttää akustisena kehotteena, mutta se voi välittää toisenlaisen viestin käyttämällä alkuperäisen puhujan ääntä. (AITaiheet kautta Windows Central)

Microsoft investoi paljon tekoälyyn. OpenAI:n ChatGPT AI -teknologian lisäksi (joka integroidaan Bing ja muut Office-sovellukset), siinä on myös äskettäin julkaistu VALL-E-työkalu. Se on kielimalli, joka on koulutettu 60,000 XNUMX tunnin englanninkieliseen puhedataan. Tämän tekniikan avulla henkilö voi syntetisoida henkilökohtaista puhetta käyttämällä eri puhujan ääntä.

Kokeessa, joka on kuvattu paperissa (Cornell University), VALL-E testattiin ja johti suotuisiin tuloksiin.

"Kokeetulokset osoittavat, että VALL-E on huomattavasti parempi kuin huipputekninen zero-shot TTS -järjestelmä puheen luonnollisuuden ja puhujien samankaltaisuuden suhteen", lehdessä lukee. "Lisäksi havaitsemme, että VALL-E voi säilyttää kaiuttimen tunteen ja akustisen kehotteen akustisen ympäristön synteesissä."

Joissakin näytteet jaettu, syntetisoidut puheet akustisilla kehotteilla kuulostavat lähes virheettömältä. VALL-E onnistui kopioimaan samat äänet ja tunteet alkuperäisistä kaiuttimista ja käytti niitä jopa hyvin erilaisen persoonallisen puheen pitämiseen. Se pystyi esimerkiksi tuottamaan tallenteita samasta lauseesta ("Meidän on vähennettävä muovipussien määrää“) esitetään erilaisissa tunnelmissa tai sävyissä, kuten vihassa, uneliaisuusssa, puolueettomuudessa, huvituksissa ja inhossa.

Tästä poikkeuksellisesta suorituskyvystä huolimatta Microsoftilla on todennäköisesti lisäsuunnitelmia parantaa VALL-E:tä tulevaisuudessa entistä moitteettomamman suorituskyvyn parantamiseksi. Ja vaikka se voi olla hyödyllistä erilaisissa tapausskenaarioissa, tekniikka voi myös olla vaarallista väärien henkilöiden käsissä. Onneksi se ei ole tällä hetkellä yleisön saatavilla, mikä voisi antaa Redmond-yritykselle enemmän aikaa miettiä, kuinka ja missä se tarjoaa tätä tekniikkaa.

Mitä mieltä olet tästä? Kerro meille kommenttiosiossa. 

Lisää aiheista: Tekoäly, LAKSO

Jätä vastaus

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *