Microsofts VALL-E kopierer originale høyttalers stemmer, følelser for å syntetisere personlige taler

Ikon for lesetid 2 min. lese

Kalenderikon Publisert på Januar 10, 2023

publisert på Januar 10, 2023

Lesere hjelper til med å støtte MSpoweruser. Vi kan få provisjon hvis du kjøper gjennom lenkene våre.

Microsofts nye språkmodell VALL-E er et interessant verktøy for kunstig intelligens som kan kopiere menneskestemmer og til og med følelsene og tonene i dem. Den trenger bare et tre sekunders opptak for å bli brukt som en akustisk melding, men kan levere en annen melding ved å bruke den originale høyttalerens stemme. (AI-emner av Windows Central)

Microsoft investerer mye i AI. Bortsett fra OpenAIs ChatGPT AI-teknologi (som vil bli integrert i Bing og andre Office-apper), den har også det nylig utgitte VAL-E-verktøyet. Det er en språkmodell trent på 60,000 XNUMX timer med engelsk taledata. Gjennom denne teknologien kan en person syntetisere personlig tale ved å bruke stemmen til en annen høyttaler.

I et eksperiment detaljert i en artikkel (Cornell University), VALL-E ble testet og førte til gunstige resultater.

"Eksperimentresultater viser at VALL-E overgår det toppmoderne nullskudds-TTS-systemet betydelig når det gjelder talenaturlighet og høyttalerlikhet," heter det i avisen. "I tillegg finner vi at VALL-E kan bevare høyttalerens følelser og akustiske miljø av den akustiske prompten i syntese."

I noen av prøver delt, høres de syntetiserte talene ved hjelp av akustiske meldinger nesten feilfrie ut. VALL-E klarte å kopiere de samme tonene og følelsene fra de originale høyttalerne og brukte dem til og med til å levere en helt annen personlig tale. For eksempel var den i stand til å produsere opptak av samme setning ("Vi må redusere antall plastposer") levert i forskjellige stemninger eller toner, som sinne, søvnighet, nøytralitet, underholdning og avsky.

Til tross for denne eksepsjonelle ytelsen, har Microsoft sannsynligvis ytterligere planer om å forbedre ALL-E mer i fremtiden for å hjelpe den med å gi en mer upåklagelig ytelse. Og selv om det kan være nyttig for ulike case-scenarier, kan teknologien også være farlig under hendene på feil individer. Heldigvis er det for øyeblikket utilgjengelig for publikum, noe som kan gi Redmond-selskapet mer tid til å tenke på hvordan og hvor det vil tilby denne teknologien.

Hva er din mening om dette? Gi oss beskjed i kommentarfeltet.

Mer om temaene: Kunstig intelligens, VAL-E

Sharron Bennet

Reporter

Sharron er en teknisk reporter på mspoweruser.com. Hun dekker de fleste tekniske nyheter fra merker som Sony, Samsung, Google og flere.

Legg igjen en kommentar