VALL-E ของ Microsoft คัดลอกเสียงและอารมณ์ของผู้พูดต้นฉบับเพื่อสังเคราะห์สุนทรพจน์ส่วนบุคคล

หน้าแรก » AI

2 นาที. อ่าน

เผยแพร่เมื่อ January 10, 2023

by ชารอน เบนเน็ต

เผยแพร่บน January 10, 2023

แชร์บทความนี้

ปรับปรุงคู่มือนี้

ผู้อ่านช่วยสนับสนุน MSpoweruser เราอาจได้รับค่าคอมมิชชันหากคุณซื้อผ่านลิงก์ของเรา

โมเดลภาษาใหม่ของ Microsoft VALL-E เป็นเครื่องมือปัญญาประดิษฐ์ที่น่าสนใจที่สามารถคัดลอกเสียงของมนุษย์และแม้กระทั่งอารมณ์และน้ำเสียงในนั้น ต้องการเพียงการบันทึกสามวินาทีเพื่อใช้เป็นเสียงเตือน แต่สามารถส่งข้อความอื่นโดยใช้เสียงของผู้พูดต้นฉบับ (หัวข้อ AI ผ่านทาง หน้าต่างกลาง)

Microsoft ลงทุนจำนวนมากใน AI นอกเหนือจากเทคโนโลยี ChatGPT AI ของ OpenAI (ซึ่งจะรวมเข้ากับ Bing และอื่น ๆ แอป Office) นอกจากนี้ยังมีเครื่องมือ VALL-E ที่เพิ่งเปิดตัว เป็นแบบจำลองภาษาที่ได้รับการฝึกฝนจากข้อมูลเสียงพูดภาษาอังกฤษ 60,000 ชั่วโมง ด้วยเทคโนโลยีนี้ บุคคลสามารถสังเคราะห์เสียงพูดส่วนบุคคลโดยใช้เสียงของผู้พูดอื่น

ในการทดลองรายละเอียดในกระดาษ (มหาวิทยาลัยคอร์เนล) VALL-E ได้รับการทดสอบและนำไปสู่ผลลัพธ์ที่น่าพอใจ

“ผลการทดลองแสดงให้เห็นว่า VALL-E มีประสิทธิภาพเหนือกว่าระบบ TTS แบบ zero-shot ที่ล้ำสมัยอย่างมากในแง่ของความเป็นธรรมชาติของเสียงพูดและความคล้ายคลึงของลำโพง” รายงานระบุ “นอกจากนี้ เราพบว่า VALL-E สามารถรักษาอารมณ์ของผู้พูดและสภาพแวดล้อมทางอะคูสติกของอะคูสติกพร้อมต์ในการสังเคราะห์”

ในบางส่วนของ ตัวอย่าง ที่ใช้ร่วมกัน สุนทรพจน์ที่สังเคราะห์ขึ้นโดยใช้อะคูสติกให้เสียงที่แทบไม่มีที่ติ VALL-E สามารถคัดลอกน้ำเสียงและอารมณ์เดียวกันจากผู้พูดต้นฉบับ และแม้แต่ใช้มันในการพูดที่เป็นส่วนตัวแตกต่างกันมาก ตัวอย่างเช่น มันสามารถบันทึกเสียงของประโยคเดียวกัน (“เราต้องลดจำนวนถุงพลาสติก“) แสดงออกมาในอารมณ์หรือน้ำเสียงต่างๆ เช่น โกรธ ง่วงนอน เป็นกลาง สนุกสนาน รังเกียจ

แม้จะมีประสิทธิภาพที่ยอดเยี่ยมนี้ Microsoft อาจมีแผนเพิ่มเติมในการปรับปรุง VALL-E ให้มากขึ้นในอนาคตเพื่อช่วยให้มีประสิทธิภาพที่ไร้ที่ติมากขึ้น และแม้ว่าจะมีประโยชน์สำหรับสถานการณ์กรณีต่างๆ แต่เทคโนโลยีก็อาจเป็นอันตรายได้หากอยู่ในมือของบุคคลที่ไม่ถูกต้อง โชคดีที่ขณะนี้ยังไม่มีให้บริการแก่สาธารณะ ซึ่งจะทำให้บริษัท Redmond มีเวลามากขึ้นในการคิดว่าจะนำเสนอเทคโนโลยีนี้อย่างไรและที่ใด

คุณมีความคิดเห็นอย่างไรเกี่ยวกับเรื่องนี้ แจ้งให้เราทราบในส่วนความคิดเห็น