هوش مصنوعی پایداری، تولید صوتی مبتنی بر هوش مصنوعی را با Stable Audio 2.0 به سطح بالاتری می برد

نماد زمان خواندن 2 دقیقه خواندن


خوانندگان به پشتیبانی از MSpoweruser کمک می کنند. در صورت خرید از طریق پیوندهای ما ممکن است کمیسیون دریافت کنیم. نماد راهنمای ابزار

صفحه افشای ما را بخوانید تا بدانید چگونه می توانید به MSPoweruser کمک کنید تا تیم تحریریه را حفظ کند ادامه مطلب

یادداشت های کلیدی

  • هوش مصنوعی پایداری مدل Stable Audio 2.0 را معرفی کرد.
  • Stable Audio 2.0 می تواند آهنگ های تمام طول تولید کند.
  • مدل جدید همچنین می تواند خروجی از نمونه های صوتی تولید کند.
صدای پایدار

پس از معرفی تولید ویدیوی سه بعدی از تصاویر دو بعدی ماه گذشته، Stability AI نسخه Stable Audio 2.0 را معرفی کرد تا صدای تولید شده توسط هوش مصنوعی را به سطح بعدی برساند. Stable Audio 2.0 بر پایه Stable Audio 1.0 ساخته شده است و به کاربران اجازه می دهد تا آهنگ هایی متشکل از جلوه های صوتی مقدماتی، توسعه، بیرونی و استریو را تا سه دقیقه تولید کنند. به غیر از تولید آهنگ های تمام قد، ​​Stable Audio 2.0 بسیاری از پیشرفت های قابل توجه دیگر را ارائه می دهد.

در حالی که تولید آهنگ کامل مفید خواهد بود، چیزی که به نظر می رسد به طور گسترده توسط هنرمندان موسیقی مورد استقبال قرار می گیرد، پشتیبانی جدید اضافه شده از قابلیت صوتی به صدا است. درست مانند اینکه چگونه وارد کردن یک پیام متنی می‌تواند موسیقی تولید کند، اکنون می‌توان نمونه‌های صوتی کوچکی را برای هوش مصنوعی Stability بارگذاری کرد تا آن‌ها را به "آرایه وسیعی از صداها" تبدیل کند. بنابراین، آنچه قبلاً یک ایده کوچک بود، اکنون می‌تواند به لطف Stable Audio 2.0 به یک نمونه کاملاً تولید شده تبدیل شود.

شایان ذکر است که خروجی نهایی که دریافت می کنید قابل تنظیم است. به عبارت دیگر، اگر چیزی را در آن صدا دوست ندارید، می‌توانید سبک و لحن را برای هماهنگی با نیازهای خاص خود تغییر دهید. با این حال، محتوای آپلود شده باید عاری از ادعای حق چاپ باشد.

ضمن به اشتراک گذاشتن برخی جزئیات تحقیقاتی در مورد مدل Stable Audio 2.0، Stability AI، در پست وبلاگ رسمی خود، نوشت:

معماری مدل پخش نهفته Stable Audio 2.0 به طور خاص طراحی شده است تا امکان تولید مسیرهای کامل با ساختارهای منسجم را فراهم کند. برای دستیابی به این هدف، ما تمام اجزای سیستم را برای بهبود عملکرد در مقیاس های زمانی طولانی تطبیق داده ایم. یک رمزگذار خودکار جدید و بسیار فشرده، شکل موج های صوتی خام را به نمایش های بسیار کوتاه تر فشرده می کند. برای مدل انتشار، ما از یک ترانسفورماتور انتشار (DiT)، شبیه به آنچه در Stable Diffusion 3 استفاده می‌شود، به جای U-Net قبلی استفاده می‌کنیم، زیرا در دستکاری داده‌ها در توالی‌های طولانی ماهرتر است. ترکیب این دو عنصر منجر به مدلی می شود که قادر به تشخیص و بازتولید ساختارهای بزرگ مقیاس است که برای آهنگسازی های موسیقی با کیفیت بالا ضروری هستند.

Stability Audio 2.0 نه تنها آهنگ‌های تمام‌قد تولید می‌کند، بلکه به شما در تولید صداها و جلوه‌های صوتی مختلف، از صدایی که هنگام تایپ کردن شخصی منتشر می‌شود تا غرش جمعیت، کمک می‌کند.

اگر همه اینها چشمگیر به نظر می رسد، می توانید از همین امروز به صورت رایگان از آن استفاده کنید وب سایت صوتی پایدار. از سوی دیگر، Stable Audio 2.0 به زودی در Stable Audio API در دسترس خواهد بود.

بیشتر در مورد موضوعات: تولید صوتی, هوش مصنوعی پایداری, صدای پایدار 2.0

پاسخ دهید

آدرس ایمیل شما منتشر نخواهد شد. بخشهای موردنیاز علامتگذاری شدهاند *