هوش مصنوعی پایداری، تولید صوتی مبتنی بر هوش مصنوعی را با Stable Audio 2.0 به سطح بالاتری می برد
2 دقیقه خواندن
منتشر شده در
صفحه افشای ما را بخوانید تا بدانید چگونه می توانید به MSPoweruser کمک کنید تا تیم تحریریه را حفظ کند ادامه مطلب
یادداشت های کلیدی
- هوش مصنوعی پایداری مدل Stable Audio 2.0 را معرفی کرد.
- Stable Audio 2.0 می تواند آهنگ های تمام طول تولید کند.
- مدل جدید همچنین می تواند خروجی از نمونه های صوتی تولید کند.
پس از معرفی تولید ویدیوی سه بعدی از تصاویر دو بعدی ماه گذشته، Stability AI نسخه Stable Audio 2.0 را معرفی کرد تا صدای تولید شده توسط هوش مصنوعی را به سطح بعدی برساند. Stable Audio 2.0 بر پایه Stable Audio 1.0 ساخته شده است و به کاربران اجازه می دهد تا آهنگ هایی متشکل از جلوه های صوتی مقدماتی، توسعه، بیرونی و استریو را تا سه دقیقه تولید کنند. به غیر از تولید آهنگ های تمام قد، Stable Audio 2.0 بسیاری از پیشرفت های قابل توجه دیگر را ارائه می دهد.
در حالی که تولید آهنگ کامل مفید خواهد بود، چیزی که به نظر می رسد به طور گسترده توسط هنرمندان موسیقی مورد استقبال قرار می گیرد، پشتیبانی جدید اضافه شده از قابلیت صوتی به صدا است. درست مانند اینکه چگونه وارد کردن یک پیام متنی میتواند موسیقی تولید کند، اکنون میتوان نمونههای صوتی کوچکی را برای هوش مصنوعی Stability بارگذاری کرد تا آنها را به "آرایه وسیعی از صداها" تبدیل کند. بنابراین، آنچه قبلاً یک ایده کوچک بود، اکنون میتواند به لطف Stable Audio 2.0 به یک نمونه کاملاً تولید شده تبدیل شود.
شایان ذکر است که خروجی نهایی که دریافت می کنید قابل تنظیم است. به عبارت دیگر، اگر چیزی را در آن صدا دوست ندارید، میتوانید سبک و لحن را برای هماهنگی با نیازهای خاص خود تغییر دهید. با این حال، محتوای آپلود شده باید عاری از ادعای حق چاپ باشد.
ضمن به اشتراک گذاشتن برخی جزئیات تحقیقاتی در مورد مدل Stable Audio 2.0، Stability AI، در پست وبلاگ رسمی خود، نوشت:
معماری مدل پخش نهفته Stable Audio 2.0 به طور خاص طراحی شده است تا امکان تولید مسیرهای کامل با ساختارهای منسجم را فراهم کند. برای دستیابی به این هدف، ما تمام اجزای سیستم را برای بهبود عملکرد در مقیاس های زمانی طولانی تطبیق داده ایم. یک رمزگذار خودکار جدید و بسیار فشرده، شکل موج های صوتی خام را به نمایش های بسیار کوتاه تر فشرده می کند. برای مدل انتشار، ما از یک ترانسفورماتور انتشار (DiT)، شبیه به آنچه در Stable Diffusion 3 استفاده میشود، به جای U-Net قبلی استفاده میکنیم، زیرا در دستکاری دادهها در توالیهای طولانی ماهرتر است. ترکیب این دو عنصر منجر به مدلی می شود که قادر به تشخیص و بازتولید ساختارهای بزرگ مقیاس است که برای آهنگسازی های موسیقی با کیفیت بالا ضروری هستند.
Stability Audio 2.0 نه تنها آهنگهای تمامقد تولید میکند، بلکه به شما در تولید صداها و جلوههای صوتی مختلف، از صدایی که هنگام تایپ کردن شخصی منتشر میشود تا غرش جمعیت، کمک میکند.
اگر همه اینها چشمگیر به نظر می رسد، می توانید از همین امروز به صورت رایگان از آن استفاده کنید وب سایت صوتی پایدار. از سوی دیگر، Stable Audio 2.0 به زودی در Stable Audio API در دسترس خواهد بود.