Microsofts VALL-E kopierar originaltalarnas röster, känslor för att syntetisera personliga tal

Lästid ikon 2 min. läsa


Läsare hjälper till att stödja MSpoweruser. Vi kan få en provision om du köper via våra länkar. Verktygstipsikon

Läs vår informationssida för att ta reda på hur du kan hjälpa MSPoweruser upprätthålla redaktionen Läs mer

Microsofts nya språkmodell VALL-E är ett intressant artificiell intelligensverktyg som kan kopiera mänskliga röster och till och med känslorna och tonerna i dem. Den behöver bara en tre sekunder lång inspelning för att användas som en akustisk uppmaning men kan leverera ett annat meddelande med den ursprungliga högtalarens röst. (AI-ämnen via Windows Central)

Microsoft satsar mycket på AI. Bortsett från OpenAI:s ChatGPT AI-teknik (som kommer att integreras i bing och andra Office-appar), den har också det nyligen släppta VAL-E-verktyget. Det är en språkmodell tränad på 60,000 XNUMX timmar engelska taldata. Genom denna teknik kan en person syntetisera personligt tal med hjälp av rösten från en annan högtalare.

I ett experiment som beskrivs i ett papper (Cornell University), VALL-E testades och ledde till gynnsamma resultat.

"Experimentresultat visar att VAL-E avsevärt överträffar det toppmoderna zero-shot TTS-systemet när det gäller talnaturlighet och talarlikhet", står det i tidningen. "Dessutom finner vi att VALL-E kan bevara högtalarens känslor och akustiska miljö av den akustiska prompten i syntes."

I några av prover delade, de syntetiserade talen med akustiska uppmaningar låter nästan felfria. VALL-E lyckades kopiera samma toner och känslor från de ursprungliga högtalarna och använde dem till och med för att leverera ett helt annorlunda personligt tal. Till exempel kunde den producera inspelningar av samma mening ("Vi måste minska antalet plastpåsar") levereras i olika stämningar eller toner, såsom ilska, sömnighet, neutralitet, nöjen och avsky.

Trots denna exceptionella prestanda har Microsoft förmodligen ytterligare planer på att förbättra ALL-E mer i framtiden för att hjälpa den att ge en mer oklanderlig prestanda. Och även om den kan vara användbar för olika fallscenarier, kan tekniken också vara farlig under händerna på fel individer. Tack och lov är den för närvarande inte tillgänglig för allmänheten, vilket kan ge Redmond-företaget mer tid att tänka på hur och var det kommer att erbjuda denna teknik.

Vad tycker du om detta? Låt oss veta i kommentarsfältet. 

Användarforum

0 meddelanden