VALL-E مایکروسافت صداها و احساسات اصلی سخنرانان را کپی می کند تا سخنرانی های شخصی سازی شده را ترکیب کند.

نماد زمان خواندن 2 دقیقه خواندن

نماد تقویم منتشر شده در ژانویه 10، 2023

منتشر شده در ژانویه 10، 2023

خوانندگان به پشتیبانی از MSpoweruser کمک می کنند. در صورت خرید از طریق پیوندهای ما ممکن است کمیسیون دریافت کنیم.

مدل زبان جدید مایکروسافت VALL-E یک ابزار هوش مصنوعی جالب است که می تواند صدای انسان و حتی احساسات و لحن موجود در آنها را کپی کند. این فقط به یک ضبط سه ثانیه ای نیاز دارد تا به عنوان یک پیام صوتی استفاده شود، اما می تواند با استفاده از صدای گوینده اصلی، پیام متفاوتی را ارائه دهد. (موضوعات AI از طريق ویندوز مرکزی)

مایکروسافت سرمایه گذاری زیادی روی هوش مصنوعی می کند. جدای از فناوری هوش مصنوعی ChatGPT OpenAI (که در آن ادغام خواهد شد بینگ و دیگر برنامه های اداری، همچنین دارای ابزار VALL-E است که اخیراً منتشر شده است. این یک مدل زبان است که بر اساس 60,000 ساعت داده گفتار انگلیسی آموزش داده شده است. از طریق این فناوری، فرد می تواند گفتار شخصی سازی شده را با استفاده از صدای یک گوینده متفاوت ترکیب کند.

در آزمایشی که به تفصیل در یک مقاله (دانشگاه کرنلVALL-E مورد آزمایش قرار گرفت و به نتایج مطلوبی منجر شد.

در این مقاله آمده است: «نتایج آزمایش نشان می‌دهد که VALL-E از نظر طبیعی بودن گفتار و شباهت گوینده به طور قابل‌توجهی از سیستم TTS صفر شات برتر عمل می‌کند». علاوه بر این، متوجه شدیم که VALL-E می‌تواند احساسات و محیط صوتی گوینده را در سنتز حفظ کند.

در برخی از نمونه ها به اشتراک گذاشته شده، سخنرانی های ترکیب شده با استفاده از اعلان های صوتی تقریباً بی عیب و نقص به نظر می رسند. VALL-E توانست همان لحن ها و احساسات را از بلندگوهای اصلی کپی کند و حتی از آنها در ارائه یک سخنرانی شخصی متفاوت استفاده کرد. به عنوان مثال، توانست ضبط هایی از همان جمله را تولید کند ("باید تعداد کیسه های پلاستیکی را کاهش دهیم") با حالات یا لحن های مختلف مانند عصبانیت، خواب آلودگی، بی طرفی، سرگرمی و انزجار ارائه می شود.

با وجود این عملکرد استثنایی، مایکروسافت احتمالاً برنامه‌های بیشتری برای بهبود بیشتر VALL-E در آینده دارد تا به ارائه عملکرد بی‌عیب‌تری کمک کند. و در حالی که می تواند برای سناریوهای مختلف مفید باشد، این فناوری می تواند تحت دست افراد اشتباه نیز خطرناک باشد. خوشبختانه، در حال حاضر در دسترس عموم نیست، که می تواند به شرکت ردموند زمان بیشتری برای فکر کردن در مورد چگونگی و مکان ارائه این فناوری بدهد.

نظر شما در این مورد چیست؟ اجازه بدهید به ما در بخش نظرات و مطمئن شوید.

بیشتر در مورد موضوعات: هوش مصنوعی, دره

شارون بنت

خبرنگار:

شارون یک گزارشگر فناوری در mspoweruser.com است. او بیشتر اخبار فناوری را از برندهایی مانند سونی، سامسونگ، گوگل و غیره پوشش می دهد.

پاسخ دهید