Microsoft พิสูจน์ว่า GPT-4 สามารถเอาชนะ Google Gemini Ultra ได้โดยใช้เทคนิคการแจ้งเตือนแบบใหม่
2 นาที. อ่าน
เผยแพร่เมื่อ
อ่านหน้าการเปิดเผยข้อมูลของเราเพื่อดูว่าคุณจะช่วย MSPoweruser รักษาทีมบรรณาธิการได้อย่างไร อ่านเพิ่มเติม
เมื่อสัปดาห์ที่แล้ว Google ประกาศ เมถุนซึ่งเป็นรุ่นทั่วไปที่มีความสามารถมากที่สุด โมเดล Google Gemini มอบประสิทธิภาพที่ล้ำสมัยผ่านเกณฑ์มาตรฐานชั้นนำมากมาย Google เน้นย้ำว่าประสิทธิภาพของโมเดล Gemini Ultra ที่มีความสามารถมากที่สุดนั้นเหนือกว่าผลลัพธ์ของ OpenAI GPT-4 ในเกณฑ์มาตรฐานทางวิชาการ 30 รายการจากทั้งหมด 32 รายการที่ใช้ในการวิจัยและพัฒนาโมเดลภาษาขนาดใหญ่ (LLM)
โดยเฉพาะอย่างยิ่ง Gemini Ultra กลายเป็นโมเดลแรกที่ทำได้ดีกว่าผู้เชี่ยวชาญที่เป็นมนุษย์ในด้าน MMLU (ความเข้าใจภาษาแบบมัลติทาสก์ขนาดใหญ่) ด้วยคะแนน 90% ซึ่งใช้วิชาผสม 57 วิชา เช่น คณิตศาสตร์ ฟิสิกส์ ประวัติศาสตร์ กฎหมาย การแพทย์ และจริยธรรม ในการทดสอบความรู้ระดับโลก และความสามารถในการแก้ไขปัญหา
เมื่อวานนี้ทีมวิจัยของ Microsoft เปิดเผย โมเดล GPT-4 ของ OpenAI สามารถเอาชนะ Google Gemini Ultra ได้ เมื่อใช้เทคนิคการแจ้งเตือนแบบใหม่ เมื่อเดือนที่แล้ว Microsoft Research เปิดเผย เมดพร้อมท์ซึ่งเป็นองค์ประกอบของกลยุทธ์กระตุ้นหลายประการที่ช่วยปรับปรุงประสิทธิภาพของ GPT-4 ได้อย่างมาก และบรรลุผลสำเร็จที่ล้ำหน้าในชุด MultiMedQA ขณะนี้ Microsoft ได้ใช้เทคนิคการแจ้งเตือนที่ใช้ใน Medprompt สำหรับโดเมนทั่วไปเช่นกัน จากข้อมูลของ Microsoft โมเดล GPT-4 ของ OpenAI เมื่อใช้กับ Medprompt เวอร์ชันดัดแปลงจะได้รับคะแนนสูงสุดเท่าที่เคยมีมาใน MMLU ที่สมบูรณ์ ใช่ OpenAI GPT-4 สามารถเอาชนะรุ่น Gemini Ultra ที่กำลังจะมาถึงได้เพียงแค่ใช้เทคนิคการกระตุ้นเตือน นี่แสดงให้เห็นว่าเรายังไม่ถึงศักยภาพสูงสุดของรุ่นที่เปิดตัวแล้วเช่น GPT-4
ดูการเปรียบเทียบเกณฑ์มาตรฐานระหว่าง GPT-4 (ข้อความแจ้งที่ปรับปรุงแล้ว) และรุ่น Gemini Ultra ด้านล่าง
มาตรฐาน | พรอมต์ GPT-4 | ผลลัพธ์ GPT-4 | ผลลัพธ์ของราศีเมถุนอัลตร้า |
---|---|---|---|
มมส | Medprompt+ | 90.10% | 90.04% |
GSM8K | ซีโร่ช็อต | 95.27% | 94.4% |
คณิตศาสตร์ | ซีโร่ช็อต | 68.42% | 53.2% |
มนุษย์อีวาล | ซีโร่ช็อต | 87.8% | 74.4% |
ใหญ่-ม้านั่ง-ยาก | ไม่กี่ช็อต + CoT* | 89.0% | 83.6% |
DROP | ซีโร่ช็อต + CoT | 83.7% | 82.4% |
เฮลลาสแวก | 10 ช็อต** | 95.3% | 87.8% |
ขั้นแรก Microsoft ใช้ Medprompt ดั้งเดิมกับ GPT-4 เพื่อให้ได้คะแนน 89.1% ใน MMLU ต่อมา Microsoft ได้เพิ่มจำนวนการโทรแบบรวมกลุ่มใน Medprompt จาก 20 ครั้งเป็น 89.56 ครั้ง ส่งผลให้คะแนนเพิ่มขึ้น 4% ต่อมา Microsoft ได้ขยาย Medprompt เป็น Medprompt+ โดยเพิ่มวิธีการแจ้งที่ง่ายกว่า และกำหนดนโยบายสำหรับการได้รับคำตอบสุดท้ายโดยการรวมเอาต์พุตจากทั้งกลยุทธ์ Medprompt พื้นฐานและพร้อมท์แบบง่าย ส่งผลให้ GPT-90.10 มีคะแนนสูงสุดเป็นประวัติการณ์ที่ XNUMX% ทีมวิจัยของ Microsoft กล่าวว่าทีม Google Gemini ยังใช้เทคนิคการกระตุ้นเตือนที่คล้ายกันเพื่อให้ได้คะแนนสูงสุดเป็นประวัติการณ์ใน MMLU
คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับเทคนิคการกระตุ้นเตือนที่ Microsoft ใช้ในการเอาชนะ Gemini Ultra โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม.