Claude 3 ดีกว่า GPT-4 จริงหรือ? การเปรียบเทียบของ Promptbase บอกว่าแตกต่าง

การทดสอบแบบตัวต่อตัวแสดงให้เห็นว่า GPT-4 Turbo เหนือกว่า Claude 3 ในทุกประเภท

ไอคอนเวลาอ่านหนังสือ 2 นาที. อ่าน


ผู้อ่านช่วยสนับสนุน MSpoweruser เราอาจได้รับค่าคอมมิชชันหากคุณซื้อผ่านลิงก์ของเรา ไอคอนคำแนะนำเครื่องมือ

อ่านหน้าการเปิดเผยข้อมูลของเราเพื่อดูว่าคุณจะช่วย MSPoweruser รักษาทีมบรรณาธิการได้อย่างไร อ่านเพิ่มเติม

หมายเหตุสำคัญ

  • Anthropic เพิ่งเปิดตัว Claude 3 ซึ่งมีประสิทธิภาพเหนือกว่า GPT-4 และ Google Gemini 1.0 Ultra
  • คะแนนเกณฑ์มาตรฐานที่โพสต์ระบุว่า Claude 3 Opus มีความเป็นเลิศในด้านต่างๆ เมื่อเทียบกับคู่แข่ง
  • อย่างไรก็ตาม การวิเคราะห์เพิ่มเติมชี้ให้เห็นว่า GPT-4 Turbo มีประสิทธิภาพเหนือกว่า Claude 3 ในการเปรียบเทียบโดยตรง ซึ่งบ่งบอกถึงความเอนเอียงที่อาจเกิดขึ้นในผลลัพธ์ที่รายงาน

มานุษยวิทยามีเพียงแค่ เปิดตัวคลอดด์ 3 ไม่นานมานี้ โมเดล AI ที่ได้รับการกล่าวขานว่าสามารถเอาชนะ GPT-4 ของ OpenAI และ Google Gemini 1.0 Ultra ได้ มันมาพร้อมกับสามรูปแบบ: Claude 3 Haiku, Sonnet และ Opus ทั้งหมดนี้สำหรับการใช้งานที่แตกต่างกัน

ในมัน ประกาศครั้งแรกบริษัท AI กล่าวว่า Claude 3 นั้นเหนือกว่าสองรุ่นที่เพิ่งเปิดตัวนี้เล็กน้อย 

จากคะแนนเกณฑ์มาตรฐานที่โพสต์ไว้ Claude 3 Opus จะดีกว่าในด้านความรู้ระดับปริญญาตรี (MMLU), การใช้เหตุผลระดับบัณฑิตศึกษา (GPQA), คณิตศาสตร์ระดับประถมศึกษาและการแก้ปัญหาคณิตศาสตร์, คณิตศาสตร์หลายภาษา, การเขียนโค้ด, การใช้เหตุผลเหนือข้อความ และอื่นๆ อีกมากมาย กว่า GPT-4 และ Gemini 1.0 Ultra และ Pro

อย่างไรก็ตามนั่นไม่ได้วาดภาพทั้งหมดตามความเป็นจริง คะแนนมาตรฐานที่โพสต์ในการประกาศ (โดยเฉพาะสำหรับ GPT-4) เห็นได้ชัดว่านำมาจาก GPT-4 ในเวอร์ชันวางจำหน่ายตั้งแต่เดือนมีนาคม 2023 ปีที่แล้ว (เครดิตสำหรับผู้ที่ชื่นชอบ AI @TolgaBilge_ บน X)

เครื่องมือวิเคราะห์ประสิทธิภาพ (benchmark analyzer) ที่เรียกว่า พรอมต์เบส แสดงให้เห็นว่า GPT-4 Turbo เอาชนะ Claude 3 ได้จริงในการทดสอบทั้งหมดที่พวกเขาสามารถเปรียบเทียบได้โดยตรง การทดสอบเหล่านี้ครอบคลุมสิ่งต่างๆ เช่น ทักษะทางคณิตศาสตร์ขั้นพื้นฐาน (GSM8K และ MATH) การเขียนโค้ด (HumanEval) การใช้เหตุผลผ่านข้อความ (DROP) และความท้าทายอื่นๆ

ในขณะที่ประกาศผล Anthropic ก็เช่นกัน กล่าวถึงในเชิงอรรถ วิศวกรของพวกเขาสามารถปรับปรุงประสิทธิภาพของ GPT-4T ให้ดียิ่งขึ้นโดยการปรับแต่งอย่างละเอียดสำหรับการทดสอบโดยเฉพาะ สิ่งนี้ชี้ให้เห็นว่าผลลัพธ์ที่รายงานอาจไม่สะท้อนถึงความสามารถที่แท้จริงของโมเดลพื้นฐาน

อุ๊ยตาย

ฟอรั่มผู้ใช้

ข้อความ 0