Microsofts VALL-E kopierer originale høyttalers stemmer, følelser for å syntetisere personlige taler
2 min. lese
Publisert på
Les vår avsløringsside for å finne ut hvordan du kan hjelpe MSPoweruser opprettholde redaksjonen Les mer
Microsofts nye språkmodell VALL-E er et interessant verktøy for kunstig intelligens som kan kopiere menneskestemmer og til og med følelsene og tonene i dem. Den trenger bare et tre sekunders opptak for å bli brukt som en akustisk melding, men kan levere en annen melding ved å bruke den originale høyttalerens stemme. (AI-emner av Windows Central)
Microsoft investerer mye i AI. Bortsett fra OpenAIs ChatGPT AI-teknologi (som vil bli integrert i Bing og andre Office-apper), den har også det nylig utgitte VAL-E-verktøyet. Det er en språkmodell trent på 60,000 XNUMX timer med engelsk taledata. Gjennom denne teknologien kan en person syntetisere personlig tale ved å bruke stemmen til en annen høyttaler.
I et eksperiment detaljert i en artikkel (Cornell University), VALL-E ble testet og førte til gunstige resultater.
"Eksperimentresultater viser at VALL-E overgår det toppmoderne nullskudds-TTS-systemet betydelig når det gjelder talenaturlighet og høyttalerlikhet," heter det i avisen. "I tillegg finner vi at VALL-E kan bevare høyttalerens følelser og akustiske miljø av den akustiske prompten i syntese."
I noen av prøver delt, høres de syntetiserte talene ved hjelp av akustiske meldinger nesten feilfrie ut. VALL-E klarte å kopiere de samme tonene og følelsene fra de originale høyttalerne og brukte dem til og med til å levere en helt annen personlig tale. For eksempel var den i stand til å produsere opptak av samme setning ("Vi må redusere antall plastposer") levert i forskjellige stemninger eller toner, som sinne, søvnighet, nøytralitet, underholdning og avsky.
Til tross for denne eksepsjonelle ytelsen, har Microsoft sannsynligvis ytterligere planer om å forbedre ALL-E mer i fremtiden for å hjelpe den med å gi en mer upåklagelig ytelse. Og selv om det kan være nyttig for ulike case-scenarier, kan teknologien også være farlig under hendene på feil individer. Heldigvis er det for øyeblikket utilgjengelig for publikum, noe som kan gi Redmond-selskapet mer tid til å tenke på hvordan og hvor det vil tilby denne teknologien.
Hva er din mening om dette? Gi oss beskjed i kommentarfeltet.
Brukerforum
0 meldinger