รุ่น Llama-3 400B ที่กำลังจะมาถึงของ Meta อาจเอาชนะ GPT-4 Turbo และ Claude 3 Opus

ไม่เกินพวกเขาแต่ก็มีศักยภาพ

ไอคอนเวลาอ่านหนังสือ 2 นาที. อ่าน


ผู้อ่านช่วยสนับสนุน MSpoweruser เราอาจได้รับค่าคอมมิชชันหากคุณซื้อผ่านลิงก์ของเรา ไอคอนคำแนะนำเครื่องมือ

อ่านหน้าการเปิดเผยข้อมูลของเราเพื่อดูว่าคุณจะช่วย MSPoweruser รักษาทีมบรรณาธิการได้อย่างไร อ่านเพิ่มเติม

หมายเหตุสำคัญ

  • Meta เปิดตัว Llama-3 ซึ่งเป็นโมเดลที่ทรงพลังที่สุดด้วยพารามิเตอร์ 700B
  • Llama-3 แสดงให้เห็นศักยภาพในการปรับปรุงแม้จะยังอยู่ในช่วงฝึกก็ตาม
  • ตัวเลขล่าสุดแนะนำว่าใกล้เคียงกับ Claude 3 Opus และ GPT-4 Turbo ในการวัดประสิทธิภาพ

Meta เตรียมเปิดตัวโมเดล AI ที่ทรงพลังที่สุด ลามะ-3 ด้วยพารามิเตอร์ 400B ในนั้น การประกาศ ในวันพฤหัสบดี โมเดลโอเพ่นซอร์สจะขับเคลื่อนเครื่องมือผู้ช่วย Meta AI ที่จะมาใน WhatsApp และ Instagram ในไม่ช้า 

แต่ความจริงก็คือ ปัจจุบันมีโมเดล AI ที่ทรงพลังมากมายในตลาด GPT-4 เทอร์โบ ด้วยหน้าต่างบริบทขนาด 128 จาก OpenAI มีมาระยะหนึ่งแล้ว และ Claude 3 Opus จาก Anthropic ก็เป็นเช่นนั้น ขณะนี้มี บนอเมซอน Bedrock

แล้วโมเดลเหล่านี้เปรียบเทียบกันอย่างไรโดยพิจารณาจากเกณฑ์มาตรฐานต่างๆ ต่อไปนี้คือการเปรียบเทียบวิธีทดสอบโมเดลอันทรงพลังเหล่านี้ในหลายตัวเลือก ตัวเลขเหล่านี้นำมาจาก ข้อมูลที่เปิดเผยต่อสาธารณะ และ Meta's การประกาศ.

มาตรฐานลามะ 3 400Bคลอดด์ 3 บทประพันธ์GPT-4 เทอร์โบเจมินี่ อัลตร้า 1.0เมถุนโปร 1.5
มมส86.186.886.583.781.9
GPQA4850.449.1--
มนุษย์อีวาล84.184.987.674.471.9
คณิตศาสตร์57.860.172.253.258.5

อย่างที่คุณเห็น Llama-3 400B ต่ำกว่ามาตรฐานเล็กน้อยเล็กน้อย โดยได้คะแนน 86.1 ใน MMLU, 48 ใน GPQA, 84.1 ใน HumanEval และ 57.8 ใน MATH 

แต่เนื่องจากยังอยู่ในขั้นตอนการฝึกอบรม จึงมีโอกาสที่ดีในการปรับปรุงครั้งใหญ่เมื่อนำไปใช้งานอย่างสมบูรณ์ และสำหรับโมเดลโอเพ่นซอร์ส นั่นถือว่าน่าประทับใจมาก 

MMLU ทดสอบว่าแบบจำลองเข้าใจวิชาต่างๆ ได้ดีเพียงใดโดยไม่ต้องสอนโดยตรง ซึ่งครอบคลุมหัวข้อต่างๆ มากมาย ในทางกลับกัน GPQA จะจัดเรียงโมเดลว่าทำงานได้ดีเพียงใดในด้านชีววิทยา ฟิสิกส์ และเคมี ในขณะที่ HumanEval มุ่งเน้นไปที่วิธีเขียนโค้ด