Stability AI ยกระดับการสร้างเสียงที่ขับเคลื่อนด้วย AI ขึ้นไปอีกระดับด้วย Stable Audio 2.0

ไอคอนเวลาอ่านหนังสือ 2 นาที. อ่าน


ผู้อ่านช่วยสนับสนุน MSpoweruser เราอาจได้รับค่าคอมมิชชันหากคุณซื้อผ่านลิงก์ของเรา ไอคอนคำแนะนำเครื่องมือ

อ่านหน้าการเปิดเผยข้อมูลของเราเพื่อดูว่าคุณจะช่วย MSPoweruser รักษาทีมบรรณาธิการได้อย่างไร อ่านเพิ่มเติม

หมายเหตุสำคัญ

  • Stability AI ได้ประกาศรุ่น Stable Audio 2.0
  • Stable Audio 2.0 สามารถสร้างแทร็กเต็มความยาวได้
  • รุ่นใหม่ยังสามารถสร้างเอาต์พุตจากตัวอย่างเสียงได้
เสียงที่เสถียร

หลังจากแนะนำ การสร้างวิดีโอ 3 มิติจากภาพ 2 มิติ เมื่อเดือนที่แล้ว Stability AI ได้ประกาศ Stable Audio 2.0 เพื่อยกระดับเสียงที่สร้างโดย AI ขึ้นไปอีกระดับ Stable Audio 2.0 สร้างขึ้นจาก Stable Audio 1.0 และช่วยให้ผู้ใช้สามารถสร้างเพลงที่ประกอบด้วยเอฟเฟกต์เสียงอินโทร การพัฒนา เอาท์โทร และเสียงสเตอริโอ โดยมีความยาวสูงสุดสามนาที นอกเหนือจากการสร้างแทร็กแบบเต็มความยาวแล้ว Stable Audio 2.0 ยังมีการปรับปรุงอื่นๆ ที่น่าสนใจอีกมากมาย

แม้ว่าการสร้างเพลงเต็มจะมีประโยชน์ แต่สิ่งที่ดูเหมือนว่าจะได้รับการชื่นชมอย่างกว้างขวางจากศิลปินเพลงคือการรองรับความสามารถด้านเสียงเป็นเสียงที่เพิ่มเข้ามาใหม่ เช่นเดียวกับการป้อนข้อความเพื่อสร้างเพลง ตอนนี้คุณสามารถอัปโหลดตัวอย่างเสียงขนาดเล็กเพื่อให้ Stability AI เพื่อแปลงเสียงเหล่านั้นให้เป็น "เสียงที่หลากหลาย" ดังนั้น สิ่งที่เมื่อก่อนเคยเป็นแนวคิดเล็กๆ ตอนนี้สามารถกลายเป็นตัวอย่างที่ผลิตขึ้นเต็มรูปแบบได้ ต้องขอบคุณ Stable Audio 2.0

เป็นที่น่าสังเกตว่าผลลัพธ์สุดท้ายที่คุณได้รับนั้นสามารถปรับแต่งได้ กล่าวอีกนัยหนึ่ง หากคุณไม่ชอบบางสิ่งในเสียงนั้น คุณสามารถเปลี่ยนสไตล์และโทนเสียงเพื่อให้สอดคล้องกับความต้องการเฉพาะของคุณได้ อย่างไรก็ตาม เนื้อหาที่อัปโหลดควรไม่มีการร้องเรียนการละเมิดลิขสิทธิ์

ในขณะที่แบ่งปันรายละเอียดการวิจัยบางส่วนเกี่ยวกับรุ่น Stable Audio 2.0, Stability AI ในบล็อกโพสต์อย่างเป็นทางการ เขียน:

สถาปัตยกรรมของโมเดลการแพร่กระจายแฝงของเสียงเสถียร 2.0 ได้รับการออกแบบมาโดยเฉพาะเพื่อให้สามารถสร้างแทร็กทั้งหมดที่มีโครงสร้างที่สอดคล้องกัน เพื่อให้บรรลุเป้าหมายนี้ เราได้ปรับเปลี่ยนส่วนประกอบทั้งหมดของระบบเพื่อประสิทธิภาพที่ดีขึ้นในช่วงเวลาที่ยาวนาน ตัวเข้ารหัสอัตโนมัติแบบใหม่ที่มีการบีบอัดสูงจะบีบอัดรูปคลื่นเสียงดิบให้เป็นการนำเสนอที่สั้นลงมาก สำหรับโมเดลการแพร่กระจาย เราใช้หม้อแปลงกระจาย (DiT) ซึ่งคล้ายกับที่ใช้ใน Stable Diffusion 3 แทนที่ U-Net รุ่นก่อนหน้า เนื่องจากมีความชำนาญมากกว่าในการจัดการข้อมูลในลำดับที่ยาว การรวมกันขององค์ประกอบทั้งสองนี้ส่งผลให้แบบจำลองสามารถจดจำและสร้างโครงสร้างขนาดใหญ่ซึ่งจำเป็นสำหรับการประพันธ์ดนตรีคุณภาพสูงได้

Stability Audio 2.0 ไม่เพียงแต่สร้างแทร็กแบบเต็มเท่านั้น แต่ยังช่วยให้คุณสร้างเสียงและเอฟเฟกต์เสียงที่หลากหลาย ตั้งแต่เสียงที่ออกมาเมื่อมีคนพิมพ์ไปจนถึงเสียงคำรามของฝูงชน

หากทั้งหมดนี้ฟังดูน่าประทับใจ คุณสามารถเริ่มใช้งานได้ฟรีวันนี้โดยไปที่ เว็บไซต์เสียงที่มีเสถียรภาพ- ในทางกลับกัน Stable Audio 2.0 จะพร้อมใช้งานบน Stable Audio API “เร็วๆ นี้”

ข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อต่างๆ: การสร้างเสียง, ความเสถียร AI, เสียงที่เสถียร 2.0

เขียนความเห็น

ที่อยู่อีเมลของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมาย *