รุ่น Llama-3 400B ที่กำลังจะมาถึงของ Meta อาจเอาชนะ GPT-4 Turbo และ Claude 3 Opus

ไม่เกินพวกเขาแต่ก็มีศักยภาพ

หน้าแรก » ข่าวสาร

2 นาที. อ่าน

เผยแพร่เมื่อ April 19, 2024

by ราฟลาย กิลัง

เผยแพร่บน April 19, 2024

แชร์บทความนี้

ปรับปรุงคู่มือนี้

ผู้อ่านช่วยสนับสนุน MSpoweruser เราอาจได้รับค่าคอมมิชชันหากคุณซื้อผ่านลิงก์ของเรา

หมายเหตุสำคัญ

Meta เปิดตัว Llama-3 ซึ่งเป็นโมเดลที่ทรงพลังที่สุดด้วยพารามิเตอร์ 700B
Llama-3 แสดงให้เห็นศักยภาพในการปรับปรุงแม้จะยังอยู่ในช่วงฝึกก็ตาม
ตัวเลขล่าสุดแนะนำว่าใกล้เคียงกับ Claude 3 Opus และ GPT-4 Turbo ในการวัดประสิทธิภาพ

Meta เตรียมเปิดตัวโมเดล AI ที่ทรงพลังที่สุด ลามะ-3 ด้วยพารามิเตอร์ 400B ในนั้น การประกาศ ในวันพฤหัสบดี โมเดลโอเพ่นซอร์สจะขับเคลื่อนเครื่องมือผู้ช่วย Meta AI ที่จะมาใน WhatsApp และ Instagram ในไม่ช้า

แต่ความจริงก็คือ ปัจจุบันมีโมเดล AI ที่ทรงพลังมากมายในตลาด GPT-4 เทอร์โบ ด้วยหน้าต่างบริบทขนาด 128 จาก OpenAI มีมาระยะหนึ่งแล้ว และ Claude 3 Opus จาก Anthropic ก็เป็นเช่นนั้น ขณะนี้มี บนอเมซอน Bedrock

แล้วโมเดลเหล่านี้เปรียบเทียบกันอย่างไรโดยพิจารณาจากเกณฑ์มาตรฐานต่างๆ ต่อไปนี้คือการเปรียบเทียบวิธีทดสอบโมเดลอันทรงพลังเหล่านี้ในหลายตัวเลือก ตัวเลขเหล่านี้นำมาจาก ข้อมูลที่เปิดเผยต่อสาธารณะ และ Meta's การประกาศ.

มาตรฐาน	ลามะ 3 400B	คลอดด์ 3 บทประพันธ์	GPT-4 เทอร์โบ	เจมินี่ อัลตร้า 1.0	เมถุนโปร 1.5
มมส	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
มนุษย์อีวาล	84.1	84.9	87.6	74.4	71.9
คณิตศาสตร์	57.8	60.1	72.2	53.2	58.5

อย่างที่คุณเห็น Llama-3 400B ต่ำกว่ามาตรฐานเล็กน้อยเล็กน้อย โดยได้คะแนน 86.1 ใน MMLU, 48 ใน GPQA, 84.1 ใน HumanEval และ 57.8 ใน MATH

แต่เนื่องจากยังอยู่ในขั้นตอนการฝึกอบรม จึงมีโอกาสที่ดีในการปรับปรุงครั้งใหญ่เมื่อนำไปใช้งานอย่างสมบูรณ์ และสำหรับโมเดลโอเพ่นซอร์ส นั่นถือว่าน่าประทับใจมาก

MMLU ทดสอบว่าแบบจำลองเข้าใจวิชาต่างๆ ได้ดีเพียงใดโดยไม่ต้องสอนโดยตรง ซึ่งครอบคลุมหัวข้อต่างๆ มากมาย ในทางกลับกัน GPQA จะจัดเรียงโมเดลว่าทำงานได้ดีเพียงใดในด้านชีววิทยา ฟิสิกส์ และเคมี ในขณะที่ HumanEval มุ่งเน้นไปที่วิธีเขียนโค้ด

ราฟลาย กิลัง

นักข่าวเทคโนโลยี

Rafly เป็นนักข่าวที่มีประสบการณ์การทำงานด้านข่าวมาหลายปี ทั้งในด้านเทคโนโลยี ธุรกิจ สังคม และวัฒนธรรม ปัจจุบันรายงานข่าวเกี่ยวกับผลิตภัณฑ์ที่เกี่ยวข้องกับ Microsoft เทคโนโลยี และ AI บน MSPowerUser มีคำแนะนำไหม ส่งไปที่ [ป้องกันอีเมล]

ฟอรั่มผู้ใช้

ข้อความ 0

เรียงลำดับโดย:

เขียนความเห็น ยกเลิกการตอบ