Claude 3 Opus เอาชนะ GPT-4 ของ OpenAI ในการจัดอันดับแชทบอทที่สำคัญ

ไอคอนเวลาอ่านหนังสือ 2 นาที. อ่าน


ผู้อ่านช่วยสนับสนุน MSpoweruser เราอาจได้รับค่าคอมมิชชันหากคุณซื้อผ่านลิงก์ของเรา ไอคอนคำแนะนำเครื่องมือ

อ่านหน้าการเปิดเผยข้อมูลของเราเพื่อดูว่าคุณจะช่วย MSPoweruser รักษาทีมบรรณาธิการได้อย่างไร อ่านเพิ่มเติม

หมายเหตุสำคัญ

  • Claude 3 Opus เอาชนะ GPT-4 ของ OpenAI เพื่อขึ้นอันดับหนึ่งในการจัดอันดับ Arena
  • Claude 3 Opus มีคะแนน Elo อยู่ที่ 1253 มากกว่า GPT-4 เล็กน้อย
  • ผลลัพธ์จะขึ้นอยู่กับความพึงพอใจของผู้ใช้กับผลลัพธ์ของโมเดล AI หลายแบบ

มานุษยวิทยา ประกาศเปิดตัวตระกูลโมเดล Claude 3 เมื่อต้นเดือนที่ผ่านมา โดยอ้างว่าสามารถเอาชนะ GPT-4 ของ OpenAI ได้ บริษัทได้แสดงตัวชี้วัดประสิทธิภาพต่างๆ ของโมเดล และเปรียบเทียบกับแชทบอทของคู่แข่งเพื่อหาข้อสรุปดังกล่าว ตอนนี้ อำนาจสูงสุดของ Claude 3 ยังสะท้อนให้เห็นบนกระดานผู้นำของลานประลองอีกด้วย

Claude 3 Opus แซง GPT-4 ขึ้นอันดับหนึ่ง

Claude 3 Opus ติดอันดับ LYMSYS Chatbot Arena เพื่อผลักดันรุ่น GPT-4 ขึ้นสู่ตำแหน่งที่สอง Claude 3 Opus ได้คะแนน Elo ที่ 1253 มากกว่า GPT-1251 ที่ 4 เล็กน้อย เป็นคะแนนเดียวกับที่ตัดสินว่าผู้เล่นหมากรุกเก่งแค่ไหน แต่ในกรณีนี้ คะแนนมาตรฐานจะตัดสินจากโมเดล AI ต่างๆ ไม่ใช่ผู้เล่นหมากรุก

อย่างไรก็ตาม LYMSYS Chatbot Arena ยังไม่สมบูรณ์แบบ ผลลัพธ์การเปรียบเทียบที่แสดงนั้นขึ้นอยู่กับการโหวตของผู้คน ด้วยเหตุนี้ คะแนนจึงได้รับการอัปเดตหลังจากมีผู้โหวตใหม่ถึง 70 คน ตามทฤษฎีแล้ว คะแนนที่ดีกว่าควรบ่งชี้ว่าผลลัพธ์โดยรวมของโมเดล AI นั้นดีกว่า แต่ส่วนใหญ่แล้ว ผลงานจะดีแค่ไหนขึ้นอยู่กับว่าใครกำลังดูอยู่ ผู้ใช้ยังบ่นว่า GPT-4 โหลดไม่ถูกต้องใน Chatbot Arena (ผ่าน ทอมส์ไกด์- อย่างไรก็ตาม OpenAI ก็ยังครองตำแหน่งแรกตลอดหลายปีที่ผ่านมา จนกระทั่งถูกโค่นล้มโดย Claude 3 Opus เมื่อไม่กี่ชั่วโมงที่แล้ว

แม้ว่าการจัดอันดับ Arena ที่อัปเดตจะสร้างความสนใจในโมเดล AI ของ Anthropic มากขึ้น แต่ OpenAI ก็มีแผนที่จะทำ เปิดตัว GPT-5 ในฤดูร้อนนี้ซึ่งได้รับการกล่าวขานว่า "ดีขึ้นทางวัตถุ" หากเป็นเช่นนั้น OpenAI ก็มีแนวโน้มที่จะฟื้นตำแหน่งสูงสุดในกระดานผู้นำของ Arena

ข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อต่างๆ: มานุษยวิทยา, คลอดด์ 3 บทประพันธ์, จีพีที-4