Microsoft พิสูจน์ว่า GPT-4 สามารถเอาชนะ Google Gemini Ultra ได้โดยใช้เทคนิคการแจ้งเตือนแบบใหม่

2 นาที. อ่าน

เผยแพร่เมื่อ December 13, 2023

เผยแพร่บน December 13, 2023

ผู้อ่านช่วยสนับสนุน MSpoweruser เราอาจได้รับค่าคอมมิชชันหากคุณซื้อผ่านลิงก์ของเรา

การเปรียบเทียบโมเดล Gemini-Ultra-vs-GPT-4

เมื่อสัปดาห์ที่แล้ว Google ประกาศ เมถุนซึ่งเป็นรุ่นทั่วไปที่มีความสามารถมากที่สุด โมเดล Google Gemini มอบประสิทธิภาพที่ล้ำสมัยผ่านเกณฑ์มาตรฐานชั้นนำมากมาย Google เน้นย้ำว่าประสิทธิภาพของโมเดล Gemini Ultra ที่มีความสามารถมากที่สุดนั้นเหนือกว่าผลลัพธ์ของ OpenAI GPT-4 ในเกณฑ์มาตรฐานทางวิชาการ 30 รายการจากทั้งหมด 32 รายการที่ใช้ในการวิจัยและพัฒนาโมเดลภาษาขนาดใหญ่ (LLM)

โดยเฉพาะอย่างยิ่ง Gemini Ultra กลายเป็นโมเดลแรกที่ทำได้ดีกว่าผู้เชี่ยวชาญที่เป็นมนุษย์ในด้าน MMLU (ความเข้าใจภาษาแบบมัลติทาสก์ขนาดใหญ่) ด้วยคะแนน 90% ซึ่งใช้วิชาผสม 57 วิชา เช่น คณิตศาสตร์ ฟิสิกส์ ประวัติศาสตร์ กฎหมาย การแพทย์ และจริยธรรม ในการทดสอบความรู้ระดับโลก และความสามารถในการแก้ไขปัญหา

เมื่อวานนี้ทีมวิจัยของ Microsoft เปิดเผย โมเดล GPT-4 ของ OpenAI สามารถเอาชนะ Google Gemini Ultra ได้ เมื่อใช้เทคนิคการแจ้งเตือนแบบใหม่ เมื่อเดือนที่แล้ว Microsoft Research เปิดเผย เมดพร้อมท์ซึ่งเป็นองค์ประกอบของกลยุทธ์กระตุ้นหลายประการที่ช่วยปรับปรุงประสิทธิภาพของ GPT-4 ได้อย่างมาก และบรรลุผลสำเร็จที่ล้ำหน้าในชุด MultiMedQA ขณะนี้ Microsoft ได้ใช้เทคนิคการแจ้งเตือนที่ใช้ใน Medprompt สำหรับโดเมนทั่วไปเช่นกัน จากข้อมูลของ Microsoft โมเดล GPT-4 ของ OpenAI เมื่อใช้กับ Medprompt เวอร์ชันดัดแปลงจะได้รับคะแนนสูงสุดเท่าที่เคยมีมาใน MMLU ที่สมบูรณ์ ใช่ OpenAI GPT-4 สามารถเอาชนะรุ่น Gemini Ultra ที่กำลังจะมาถึงได้เพียงแค่ใช้เทคนิคการกระตุ้นเตือน นี่แสดงให้เห็นว่าเรายังไม่ถึงศักยภาพสูงสุดของรุ่นที่เปิดตัวแล้วเช่น GPT-4

ดูการเปรียบเทียบเกณฑ์มาตรฐานระหว่าง GPT-4 (ข้อความแจ้งที่ปรับปรุงแล้ว) และรุ่น Gemini Ultra ด้านล่าง

มาตรฐาน	พรอมต์ GPT-4	ผลลัพธ์ GPT-4	ผลลัพธ์ของราศีเมถุนอัลตร้า
มมส	Medprompt+	90.10%	90.04%
GSM8K	ซีโร่ช็อต	95.27%	94.4%
คณิตศาสตร์	ซีโร่ช็อต	68.42%	53.2%
มนุษย์อีวาล	ซีโร่ช็อต	87.8%	74.4%
ใหญ่-ม้านั่ง-ยาก	ไม่กี่ช็อต + CoT*	89.0%	83.6%
DROP	ซีโร่ช็อต + CoT	83.7%	82.4%
เฮลลาสแวก	10 ช็อต**	95.3%	87.8%

ขั้นแรก Microsoft ใช้ Medprompt ดั้งเดิมกับ GPT-4 เพื่อให้ได้คะแนน 89.1% ใน MMLU ต่อมา Microsoft ได้เพิ่มจำนวนการโทรแบบรวมกลุ่มใน Medprompt จาก 20 ครั้งเป็น 89.56 ครั้ง ส่งผลให้คะแนนเพิ่มขึ้น 4% ต่อมา Microsoft ได้ขยาย Medprompt เป็น Medprompt+ โดยเพิ่มวิธีการแจ้งที่ง่ายกว่า และกำหนดนโยบายสำหรับการได้รับคำตอบสุดท้ายโดยการรวมเอาต์พุตจากทั้งกลยุทธ์ Medprompt พื้นฐานและพร้อมท์แบบง่าย ส่งผลให้ GPT-90.10 มีคะแนนสูงสุดเป็นประวัติการณ์ที่ XNUMX% ทีมวิจัยของ Microsoft กล่าวว่าทีม Google Gemini ยังใช้เทคนิคการกระตุ้นเตือนที่คล้ายกันเพื่อให้ได้คะแนนสูงสุดเป็นประวัติการณ์ใน MMLU