Microsofts VALL-E kopierer originale høyttalers stemmer, følelser for å syntetisere personlige taler

Ikon for lesetid 2 min. lese


Lesere hjelper til med å støtte MSpoweruser. Vi kan få provisjon hvis du kjøper gjennom lenkene våre. Verktøytipsikon

Les vår avsløringsside for å finne ut hvordan du kan hjelpe MSPoweruser opprettholde redaksjonen Les mer

Microsofts nye språkmodell VALL-E er et interessant verktøy for kunstig intelligens som kan kopiere menneskestemmer og til og med følelsene og tonene i dem. Den trenger bare et tre sekunders opptak for å bli brukt som en akustisk melding, men kan levere en annen melding ved å bruke den originale høyttalerens stemme. (AI-emner av Windows Central)

Microsoft investerer mye i AI. Bortsett fra OpenAIs ChatGPT AI-teknologi (som vil bli integrert i Bing og andre Office-apper), den har også det nylig utgitte VAL-E-verktøyet. Det er en språkmodell trent på 60,000 XNUMX timer med engelsk taledata. Gjennom denne teknologien kan en person syntetisere personlig tale ved å bruke stemmen til en annen høyttaler.

I et eksperiment detaljert i en artikkel (Cornell University), VALL-E ble testet og førte til gunstige resultater.

"Eksperimentresultater viser at VALL-E overgår det toppmoderne nullskudds-TTS-systemet betydelig når det gjelder talenaturlighet og høyttalerlikhet," heter det i avisen. "I tillegg finner vi at VALL-E kan bevare høyttalerens følelser og akustiske miljø av den akustiske prompten i syntese."

I noen av prøver delt, høres de syntetiserte talene ved hjelp av akustiske meldinger nesten feilfrie ut. VALL-E klarte å kopiere de samme tonene og følelsene fra de originale høyttalerne og brukte dem til og med til å levere en helt annen personlig tale. For eksempel var den i stand til å produsere opptak av samme setning ("Vi må redusere antall plastposer") levert i forskjellige stemninger eller toner, som sinne, søvnighet, nøytralitet, underholdning og avsky.

Til tross for denne eksepsjonelle ytelsen, har Microsoft sannsynligvis ytterligere planer om å forbedre ALL-E mer i fremtiden for å hjelpe den med å gi en mer upåklagelig ytelse. Og selv om det kan være nyttig for ulike case-scenarier, kan teknologien også være farlig under hendene på feil individer. Heldigvis er det for øyeblikket utilgjengelig for publikum, noe som kan gi Redmond-selskapet mer tid til å tenke på hvordan og hvor det vil tilby denne teknologien.

Hva er din mening om dette? Gi oss beskjed i kommentarfeltet. 

Brukerforum

0 meldinger