Microsofts VALL-E kopierer originale højttaleres stemmer, følelser for at syntetisere personlige taler
2 min. Læs
Udgivet den
Læs vores oplysningsside for at finde ud af, hvordan du kan hjælpe MSPoweruser med at opretholde redaktionen Læs mere
Microsofts nye sprogmodel VALL-E er et interessant kunstig intelligensværktøj, der kan kopiere menneskestemmer og endda følelserne og tonerne i dem. Det behøver kun en tre-sekunders optagelse for at blive brugt som en akustisk prompt, men kan levere en anden besked ved hjælp af den originale højttalers stemme. (AI Topics via Windows Central)
Microsoft investerer meget i kunstig intelligens. Bortset fra OpenAIs ChatGPT AI-teknologi (som vil blive integreret i Bing og andre Office apps), den har også det nyligt udgivne VAL-E-værktøj. Det er en sprogmodel, der er trænet på 60,000 timers engelsk taledata. Gennem denne teknologi kan en person syntetisere personlig tale ved hjælp af stemmen fra en anden højttaler.
I et eksperiment beskrevet i et papir (Cornell University), VALL-E blev testet og førte til gunstige resultater.
"Eksperimentresultater viser, at VALL-E markant overgår det avancerede zero-shot TTS-system med hensyn til talenaturlighed og højttalerlighed," står der i avisen. "Derudover finder vi ud af, at VALL-E kunne bevare højttalerens følelser og akustiske miljø af den akustiske prompt i syntese."
I nogle af de prøver delt, lyder de syntetiserede taler ved hjælp af akustiske prompter næsten fejlfri. VALL-E formåede at kopiere de samme toner og følelser fra de originale højttalere og brugte dem endda til at levere en meget anderledes personlig tale. For eksempel var det i stand til at producere optagelser af den samme sætning ("Vi skal reducere antallet af plastikposer") leveret i forskellige stemninger eller toner, såsom vrede, søvnighed, neutralitet, morskab og afsky.
På trods af denne enestående ydeevne har Microsoft sandsynligvis yderligere planer om at forbedre ALL-E mere i fremtiden for at hjælpe den med at give en mere upåklagelig ydeevne. Og selvom det kan være nyttigt til forskellige case-scenarier, kan teknologien også være farlig under hænderne på de forkerte personer. Heldigvis er den i øjeblikket ikke tilgængelig for offentligheden, hvilket kunne give Redmond-virksomheden mere tid til at tænke over, hvordan og hvor den vil tilbyde denne teknologi.
Hvad er din mening om dette? Fortæl os det i kommentarfeltet.
Brugerforum
0 meddelelser