รุ่น Llama-3 400B ที่กำลังจะมาถึงของ Meta อาจเอาชนะ GPT-4 Turbo และ Claude 3 Opus

ไม่เกินพวกเขาแต่ก็มีศักยภาพ

หน้าแรก » ข่าว

ไอคอนเวลาอ่านหนังสือ 2 นาที. อ่าน

ไอคอนปฏิทิน เผยแพร่เมื่อ April 19, 2024

by ราฟลาย กิลัง

เผยแพร่บน April 19, 2024

ผู้อ่านช่วยสนับสนุน MSpoweruser เราอาจได้รับค่าคอมมิชชันหากคุณซื้อผ่านลิงก์ของเรา

หมายเหตุสำคัญ

Meta เปิดตัว Llama-3 ซึ่งเป็นโมเดลที่ทรงพลังที่สุดด้วยพารามิเตอร์ 700B
Llama-3 แสดงให้เห็นศักยภาพในการปรับปรุงแม้จะยังอยู่ในช่วงฝึกก็ตาม
ตัวเลขล่าสุดแนะนำว่าใกล้เคียงกับ Claude 3 Opus และ GPT-4 Turbo ในการวัดประสิทธิภาพ

Meta เตรียมเปิดตัวโมเดล AI ที่ทรงพลังที่สุด ลามะ-3 ด้วยพารามิเตอร์ 400B ในนั้น การประกาศ ในวันพฤหัสบดี โมเดลโอเพ่นซอร์สจะขับเคลื่อนเครื่องมือผู้ช่วย Meta AI ที่จะมาใน WhatsApp และ Instagram ในไม่ช้า

แต่ความจริงก็คือ ปัจจุบันมีโมเดล AI ที่ทรงพลังมากมายในตลาด GPT-4 เทอร์โบ ด้วยหน้าต่างบริบทขนาด 128 จาก OpenAI มีมาระยะหนึ่งแล้ว และ Claude 3 Opus จาก Anthropic ก็เป็นเช่นนั้น ขณะนี้มี บนอเมซอน Bedrock

แล้วโมเดลเหล่านี้เปรียบเทียบกันอย่างไรโดยพิจารณาจากเกณฑ์มาตรฐานต่างๆ ต่อไปนี้คือการเปรียบเทียบวิธีทดสอบโมเดลอันทรงพลังเหล่านี้ในหลายตัวเลือก ตัวเลขเหล่านี้นำมาจาก ข้อมูลที่เปิดเผยต่อสาธารณะ และ Meta's การประกาศ.

มาตรฐาน	ลามะ 3 400B	คลอดด์ 3 บทประพันธ์	GPT-4 เทอร์โบ	เจมินี่ อัลตร้า 1.0	เมถุนโปร 1.5
มมส	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
มนุษย์อีวาล	84.1	84.9	87.6	74.4	71.9
คณิตศาสตร์	57.8	60.1	72.2	53.2	58.5

อย่างที่คุณเห็น Llama-3 400B ต่ำกว่ามาตรฐานเล็กน้อยเล็กน้อย โดยได้คะแนน 86.1 ใน MMLU, 48 ใน GPQA, 84.1 ใน HumanEval และ 57.8 ใน MATH

แต่เนื่องจากยังอยู่ในขั้นตอนการฝึกอบรม จึงมีโอกาสที่ดีในการปรับปรุงครั้งใหญ่เมื่อนำไปใช้งานอย่างสมบูรณ์ และสำหรับโมเดลโอเพ่นซอร์ส นั่นถือว่าน่าประทับใจมาก

MMLU ทดสอบว่าแบบจำลองเข้าใจวิชาต่างๆ ได้ดีเพียงใดโดยไม่ต้องสอนโดยตรง ซึ่งครอบคลุมหัวข้อต่างๆ มากมาย ในทางกลับกัน GPQA จะจัดเรียงโมเดลว่าทำงานได้ดีเพียงใดในด้านชีววิทยา ฟิสิกส์ และเคมี ในขณะที่ HumanEval มุ่งเน้นไปที่วิธีเขียนโค้ด

ราฟลาย กิลัง

นักข่าวเทคโนโลยี

Rafly เป็นนักข่าวที่มีประสบการณ์ด้านนักข่าวมาหลายปี ตั้งแต่เทคโนโลยี ธุรกิจ สังคม และวัฒนธรรม กำลังรายงานข่าวสารเกี่ยวกับผลิตภัณฑ์ เทคโนโลยี และ AI ที่เกี่ยวข้องกับ Microsoft ใน Windows Report และ MSPowerUser มีเคล็ดลับไหม? ส่งไปที่ [ป้องกันอีเมล].