รุ่น Llama-3 400B ที่กำลังจะมาถึงของ Meta อาจเอาชนะ GPT-4 Turbo และ Claude 3 Opus
ไม่เกินพวกเขาแต่ก็มีศักยภาพ
2 นาที. อ่าน
เผยแพร่เมื่อ
อ่านหน้าการเปิดเผยข้อมูลของเราเพื่อดูว่าคุณจะช่วย MSPoweruser รักษาทีมบรรณาธิการได้อย่างไร อ่านเพิ่มเติม
หมายเหตุสำคัญ
- Meta เปิดตัว Llama-3 ซึ่งเป็นโมเดลที่ทรงพลังที่สุดด้วยพารามิเตอร์ 700B
- Llama-3 แสดงให้เห็นศักยภาพในการปรับปรุงแม้จะยังอยู่ในช่วงฝึกก็ตาม
- ตัวเลขล่าสุดแนะนำว่าใกล้เคียงกับ Claude 3 Opus และ GPT-4 Turbo ในการวัดประสิทธิภาพ
Meta เตรียมเปิดตัวโมเดล AI ที่ทรงพลังที่สุด ลามะ-3 ด้วยพารามิเตอร์ 400B ในนั้น การประกาศ ในวันพฤหัสบดี โมเดลโอเพ่นซอร์สจะขับเคลื่อนเครื่องมือผู้ช่วย Meta AI ที่จะมาใน WhatsApp และ Instagram ในไม่ช้า
แต่ความจริงก็คือ ปัจจุบันมีโมเดล AI ที่ทรงพลังมากมายในตลาด GPT-4 เทอร์โบ ด้วยหน้าต่างบริบทขนาด 128 จาก OpenAI มีมาระยะหนึ่งแล้ว และ Claude 3 Opus จาก Anthropic ก็เป็นเช่นนั้น ขณะนี้มี บนอเมซอน Bedrock
แล้วโมเดลเหล่านี้เปรียบเทียบกันอย่างไรโดยพิจารณาจากเกณฑ์มาตรฐานต่างๆ ต่อไปนี้คือการเปรียบเทียบวิธีทดสอบโมเดลอันทรงพลังเหล่านี้ในหลายตัวเลือก ตัวเลขเหล่านี้นำมาจาก ข้อมูลที่เปิดเผยต่อสาธารณะ และ Meta's การประกาศ.
มาตรฐาน | ลามะ 3 400B | คลอดด์ 3 บทประพันธ์ | GPT-4 เทอร์โบ | เจมินี่ อัลตร้า 1.0 | เมถุนโปร 1.5 |
มมส | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
มนุษย์อีวาล | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
คณิตศาสตร์ | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
อย่างที่คุณเห็น Llama-3 400B ต่ำกว่ามาตรฐานเล็กน้อยเล็กน้อย โดยได้คะแนน 86.1 ใน MMLU, 48 ใน GPQA, 84.1 ใน HumanEval และ 57.8 ใน MATH
แต่เนื่องจากยังอยู่ในขั้นตอนการฝึกอบรม จึงมีโอกาสที่ดีในการปรับปรุงครั้งใหญ่เมื่อนำไปใช้งานอย่างสมบูรณ์ และสำหรับโมเดลโอเพ่นซอร์ส นั่นถือว่าน่าประทับใจมาก
MMLU ทดสอบว่าแบบจำลองเข้าใจวิชาต่างๆ ได้ดีเพียงใดโดยไม่ต้องสอนโดยตรง ซึ่งครอบคลุมหัวข้อต่างๆ มากมาย ในทางกลับกัน GPQA จะจัดเรียงโมเดลว่าทำงานได้ดีเพียงใดในด้านชีววิทยา ฟิสิกส์ และเคมี ในขณะที่ HumanEval มุ่งเน้นไปที่วิธีเขียนโค้ด
ฟอรั่มผู้ใช้
ข้อความ 0