Microsoft พิสูจน์ว่า GPT-4 สามารถเอาชนะ Google Gemini Ultra ได้โดยใช้เทคนิคการแจ้งเตือนแบบใหม่

ไอคอนเวลาอ่านหนังสือ 2 นาที. อ่าน


ผู้อ่านช่วยสนับสนุน MSpoweruser เราอาจได้รับค่าคอมมิชชันหากคุณซื้อผ่านลิงก์ของเรา ไอคอนคำแนะนำเครื่องมือ

อ่านหน้าการเปิดเผยข้อมูลของเราเพื่อดูว่าคุณจะช่วย MSPoweruser รักษาทีมบรรณาธิการได้อย่างไร อ่านเพิ่มเติม

การเปรียบเทียบโมเดล Gemini-Ultra-vs-GPT-4

เมื่อสัปดาห์ที่แล้ว Google ประกาศ เมถุนซึ่งเป็นรุ่นทั่วไปที่มีความสามารถมากที่สุด โมเดล Google Gemini มอบประสิทธิภาพที่ล้ำสมัยผ่านเกณฑ์มาตรฐานชั้นนำมากมาย Google เน้นย้ำว่าประสิทธิภาพของโมเดล Gemini Ultra ที่มีความสามารถมากที่สุดนั้นเหนือกว่าผลลัพธ์ของ OpenAI GPT-4 ในเกณฑ์มาตรฐานทางวิชาการ 30 รายการจากทั้งหมด 32 รายการที่ใช้ในการวิจัยและพัฒนาโมเดลภาษาขนาดใหญ่ (LLM)

โดยเฉพาะอย่างยิ่ง Gemini Ultra กลายเป็นโมเดลแรกที่ทำได้ดีกว่าผู้เชี่ยวชาญที่เป็นมนุษย์ในด้าน MMLU (ความเข้าใจภาษาแบบมัลติทาสก์ขนาดใหญ่) ด้วยคะแนน 90% ซึ่งใช้วิชาผสม 57 วิชา เช่น คณิตศาสตร์ ฟิสิกส์ ประวัติศาสตร์ กฎหมาย การแพทย์ และจริยธรรม ในการทดสอบความรู้ระดับโลก และความสามารถในการแก้ไขปัญหา

เมื่อวานนี้ทีมวิจัยของ Microsoft เปิดเผย โมเดล GPT-4 ของ OpenAI สามารถเอาชนะ Google Gemini Ultra ได้ เมื่อใช้เทคนิคการแจ้งเตือนแบบใหม่ เมื่อเดือนที่แล้ว Microsoft Research เปิดเผย เมดพร้อมท์ซึ่งเป็นองค์ประกอบของกลยุทธ์กระตุ้นหลายประการที่ช่วยปรับปรุงประสิทธิภาพของ GPT-4 ได้อย่างมาก และบรรลุผลสำเร็จที่ล้ำหน้าในชุด MultiMedQA ขณะนี้ Microsoft ได้ใช้เทคนิคการแจ้งเตือนที่ใช้ใน Medprompt สำหรับโดเมนทั่วไปเช่นกัน จากข้อมูลของ Microsoft โมเดล GPT-4 ของ OpenAI เมื่อใช้กับ Medprompt เวอร์ชันดัดแปลงจะได้รับคะแนนสูงสุดเท่าที่เคยมีมาใน MMLU ที่สมบูรณ์ ใช่ OpenAI GPT-4 สามารถเอาชนะรุ่น Gemini Ultra ที่กำลังจะมาถึงได้เพียงแค่ใช้เทคนิคการกระตุ้นเตือน นี่แสดงให้เห็นว่าเรายังไม่ถึงศักยภาพสูงสุดของรุ่นที่เปิดตัวแล้วเช่น GPT-4

ดูการเปรียบเทียบเกณฑ์มาตรฐานระหว่าง GPT-4 (ข้อความแจ้งที่ปรับปรุงแล้ว) และรุ่น Gemini Ultra ด้านล่าง

มาตรฐานพรอมต์ GPT-4ผลลัพธ์ GPT-4ผลลัพธ์ของราศีเมถุนอัลตร้า
มมสMedprompt+90.10% 90.04%
GSM8Kซีโร่ช็อต95.27% 94.4%
คณิตศาสตร์ซีโร่ช็อต68.42% 53.2%
มนุษย์อีวาลซีโร่ช็อต87.8%74.4%
ใหญ่-ม้านั่ง-ยากไม่กี่ช็อต + CoT*89.0% 83.6%  
DROPซีโร่ช็อต + CoT83.7% 82.4%
เฮลลาสแวก10 ช็อต**95.3% 87.8%

ขั้นแรก Microsoft ใช้ Medprompt ดั้งเดิมกับ GPT-4 เพื่อให้ได้คะแนน 89.1% ใน MMLU ต่อมา Microsoft ได้เพิ่มจำนวนการโทรแบบรวมกลุ่มใน Medprompt จาก 20 ครั้งเป็น 89.56 ครั้ง ส่งผลให้คะแนนเพิ่มขึ้น 4% ต่อมา Microsoft ได้ขยาย Medprompt เป็น Medprompt+ โดยเพิ่มวิธีการแจ้งที่ง่ายกว่า และกำหนดนโยบายสำหรับการได้รับคำตอบสุดท้ายโดยการรวมเอาต์พุตจากทั้งกลยุทธ์ Medprompt พื้นฐานและพร้อมท์แบบง่าย ส่งผลให้ GPT-90.10 มีคะแนนสูงสุดเป็นประวัติการณ์ที่ XNUMX% ทีมวิจัยของ Microsoft กล่าวว่าทีม Google Gemini ยังใช้เทคนิคการกระตุ้นเตือนที่คล้ายกันเพื่อให้ได้คะแนนสูงสุดเป็นประวัติการณ์ใน MMLU 

คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับเทคนิคการกระตุ้นเตือนที่ Microsoft ใช้ในการเอาชนะ Gemini Ultra โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม.

ข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อต่างๆ: เจมินี่ อัลตร้า, จีพีที-4, ไมโครซอฟท์, การวิจัยของไมโครซอฟต์

เขียนความเห็น

ที่อยู่อีเมลของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมาย *