Microsoft Research แนะนำ Splitwise ซึ่งเป็นเทคนิคใหม่ในการเพิ่มประสิทธิภาพ GPU สำหรับโมเดลภาษาขนาดใหญ่

ไอคอนเวลาอ่านหนังสือ 2 นาที. อ่าน


ผู้อ่านช่วยสนับสนุน MSpoweruser เราอาจได้รับค่าคอมมิชชันหากคุณซื้อผ่านลิงก์ของเรา ไอคอนคำแนะนำเครื่องมือ

อ่านหน้าการเปิดเผยข้อมูลของเราเพื่อดูว่าคุณจะช่วย MSPoweruser รักษาทีมบรรณาธิการได้อย่างไร อ่านเพิ่มเติม

หมายเหตุสำคัญ

  • Splitwise คือความก้าวหน้าในด้านประสิทธิภาพและความยั่งยืนของการอนุมาน LLM
  • ด้วยการแยกเฟสพร้อมต์และโทเค็น Splitwise จะปลดล็อกศักยภาพใหม่ในการใช้ GPU และช่วยให้ผู้ให้บริการระบบคลาวด์สามารถตอบคำถามได้มากขึ้นเร็วขึ้นภายใต้งบประมาณด้านพลังงานเท่าเดิม
ไมโครซอฟต์แยกส่วน

โมเดลภาษาขนาดใหญ่ (LLM) กำลังเปลี่ยนแปลงขอบเขตการประมวลผลภาษาธรรมชาติและปัญญาประดิษฐ์ ทำให้แอปพลิเคชันต่างๆ เช่น การสร้างโค้ด ตัวแทนการสนทนา และการสรุปข้อความ อย่างไรก็ตาม โมเดลเหล่านี้ยังก่อให้เกิดความท้าทายที่สำคัญสำหรับผู้ให้บริการระบบคลาวด์ ซึ่งจำเป็นต้องปรับใช้หน่วยประมวลผลกราฟิก (GPU) มากขึ้นเรื่อยๆ เพื่อตอบสนองความต้องการที่เพิ่มขึ้นสำหรับการอนุมาน LLM

ปัญหาคือ GPU ไม่เพียงแต่มีราคาแพงเท่านั้น แต่ยังใช้พลังงานมากอีกด้วย และความสามารถในการจัดหาไฟฟ้าที่จำเป็นต่อการดำเนินงานนั้นมีจำกัด เป็นผลให้ผู้ให้บริการระบบคลาวด์มักจะเผชิญกับภาวะที่กลืนไม่เข้าคายไม่ออกในการปฏิเสธคำถามของผู้ใช้หรือเพิ่มต้นทุนการดำเนินงานและผลกระทบต่อสิ่งแวดล้อม

เพื่อแก้ไขปัญหานี้ นักวิจัยจาก Microsoft Azure ได้พัฒนาเทคนิคใหม่ที่เรียกว่า Splitwiseซึ่งมีจุดมุ่งหมายเพื่อทำให้การอนุมาน LLM มีประสิทธิภาพและยั่งยืนมากขึ้นโดยการแบ่งการคำนวณออกเป็นสองเฟสที่แตกต่างกันและจัดสรรให้กับเครื่องที่แตกต่างกัน คุณสามารถอ่านรายละเอียดเกี่ยวกับเทคนิคนี้ได้ใน “แยกส่วน: การอนุมาน Generative LLM ที่มีประสิทธิภาพโดยใช้การแยกเฟส" รายงานการวิจัย.

Splitwise ขึ้นอยู่กับการสังเกตว่าการอนุมาน LLM ประกอบด้วยสองเฟสที่มีลักษณะแตกต่างกัน: เฟสพร้อมท์และเฟสการสร้างโทเค็น ในขั้นตอนพร้อมต์ โมเดลจะประมวลผลอินพุตของผู้ใช้หรือพร้อมต์พร้อมกัน โดยใช้การประมวลผล GPU จำนวนมาก ในขั้นตอนการสร้างโทเค็น โมเดลจะสร้างโทเค็นเอาต์พุตแต่ละรายการตามลำดับ โดยใช้แบนด์วิดท์หน่วยความจำ GPU จำนวนมาก นอกเหนือจากการแยกเฟสการอนุมาน LLM ทั้งสองเฟสออกเป็นสองกลุ่มเครื่องที่แตกต่างกันแล้ว Microsoft ยังใช้กลุ่มเครื่องที่สามสำหรับการผสมแบตช์ระหว่างเฟสพร้อมต์และโทเค็น โดยกำหนดขนาดแบบไดนามิกตามความต้องการในการคำนวณแบบเรียลไทม์ 

การใช้ Splitwise ทำให้ Microsoft สามารถบรรลุสิ่งต่อไปนี้:

  • ปริมาณงานสูงขึ้น 1.4 เท่า โดยมีต้นทุนต่ำกว่าการออกแบบปัจจุบันถึง 20%
  • ปริมาณงานเพิ่มขึ้น 2.35 เท่าโดยมีค่าใช้จ่ายและงบประมาณด้านพลังงานเท่าเดิม

Splitwise คือความก้าวหน้าในด้านประสิทธิภาพและความยั่งยืนของการอนุมาน LLM ด้วยการแยกเฟสพร้อมต์และโทเค็น Splitwise จะปลดล็อกศักยภาพใหม่ในการใช้ GPU และช่วยให้ผู้ให้บริการระบบคลาวด์สามารถตอบคำถามได้มากขึ้นเร็วขึ้นภายใต้งบประมาณด้านพลังงานเท่าเดิม ตอนนี้ Splitwise เป็นส่วนหนึ่งของ vLLM แล้ว และยังสามารถนำไปใช้กับเฟรมเวิร์กอื่นๆ ได้อีกด้วย นักวิจัยที่ Microsoft Azure วางแผนที่จะทำงานต่อไปในการทำให้การอนุมาน LLM มีประสิทธิภาพและยั่งยืนมากขึ้น และจินตนาการถึงกลุ่มเครื่องจักรที่ปรับแต่งมาโดยเฉพาะ ซึ่งจะขับเคลื่อนปริมาณงานสูงสุด ลดต้นทุน และประสิทธิภาพการใช้พลังงาน

ข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อต่างๆ: ปริญญามหาบัณฑิต, ไมโครซอฟท์, การวิจัยของไมโครซอฟต์, Splitwise