Microsoft'un VALL-E'si, kişiselleştirilmiş konuşmaları sentezlemek için orijinal konuşmacıların seslerini ve duygularını kopyalar
2 dk. okuman
Yayınlandı
MSPoweruser'ın editör ekibini ayakta tutmasına nasıl yardımcı olabileceğinizi öğrenmek için açıklama sayfamızı okuyun. Daha fazla
Microsoft'un yeni dil modeli VALL-E, insan seslerini ve hatta içindeki duygu ve tonları kopyalayabilen ilginç bir yapay zeka aracı. Akustik istem olarak kullanılması için yalnızca üç saniyelik bir kayda ihtiyaç duyar, ancak orijinal konuşmacının sesini kullanarak farklı bir mesaj iletebilir. (AI Konuları üzerinden , Windows Merkez)
Microsoft yapay zekaya çok yatırım yapıyor. OpenAI'nin ChatGPT AI teknolojisinin yanı sıra (entegre olacak) Bing ve diğeri Office uygulamaları), ayrıca yakın zamanda piyasaya sürülen VALL-E aracına da sahiptir. 60,000 saatlik İngilizce konuşma verisi üzerinde eğitilmiş bir dil modelidir. Bu teknoloji sayesinde, bir kişi farklı bir konuşmacının sesini kullanarak kişiselleştirilmiş konuşmayı sentezleyebilir.
Bir makalede ayrıntıları verilen bir deneyde (Cornell University), VALL-E test edildi ve olumlu sonuçlara yol açtı.
Makalede, "Deney sonuçları, VALL-E'nin konuşma doğallığı ve konuşmacı benzerliği açısından son teknoloji sıfır atış TTS sisteminden önemli ölçüde daha iyi performans gösterdiğini gösteriyor." "Ayrıca, VALL-E'nin konuşmacının duygusunu ve akustik istemin akustik ortamını sentez halinde koruyabildiğini bulduk."
Bazılarında örnekleri paylaşıldığında, akustik istemler kullanılarak sentezlenmiş konuşmalar kulağa neredeyse kusursuz geliyor. VALL-E, orijinal konuşmacılardan aynı tonları ve duyguları kopyalamayı başardı ve hatta bunları çok farklı bir kişiselleştirilmiş konuşma yaparken kullandı. Örneğin, aynı cümlenin (“Naylon poşet sayısını azaltmalıyız.“) öfke, uykululuk, tarafsızlık, eğlence ve tiksinti gibi farklı ruh hallerinde veya tonlarda sunulur.
Bu istisnai performansa rağmen, Microsoft muhtemelen daha kusursuz bir performans sağlamasına yardımcı olmak için VALL-E'yi gelecekte daha da geliştirmeyi planlıyor. Ve çeşitli vaka senaryoları için yararlı olabilse de, teknoloji yanlış kişilerin elinde tehlikeli olabilir. Neyse ki, şu anda halka açık değil, bu da Redmond şirketine bu teknolojiyi nasıl ve nerede sunacağını düşünmek için daha fazla zaman verebilir.
Bu konudaki fikriniz nedir? Yorum bölümünde bize bildirin.
Kullanıcı forumu
0 mesajları