Mẫu Llama-3 400B sắp ra mắt của Meta có khả năng đánh bại GPT-4 Turbo và Claude 3 Opus

Nó không vượt quá chúng, nhưng nó có tiềm năng

Biểu tượng thời gian đọc 2 phút đọc

Biểu tượng lịch Được đăng trên 19 Tháng Tư, 2024

Được xuất bản trên 19 Tháng Tư, 2024

Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi.

Ghi chú chính

Meta ra mắt Llama-3, model mạnh mẽ nhất với thông số 700B
Llama-3 cho thấy tiềm năng cải thiện dù đang trong giai đoạn huấn luyện
Những con số gần đây cho thấy nó gần bằng Claude 3 Opus và GPT-4 Turbo về điểm chuẩn

Meta chuẩn bị ra mắt mô hình AI mạnh mẽ nhất của mình, mô hình Llama-3 với thông số 400B. Trong nó thông báo vào thứ Năm, mô hình nguồn mở sẽ sớm hỗ trợ công cụ trợ lý Meta AI sắp có mặt trên WhatsApp và Instagram.

Nhưng sự thật là hiện tại có rất nhiều mẫu AI mạnh mẽ trên thị trường. GPT-4 Turbo với cửa sổ ngữ cảnh 128k từ OpenAI đã xuất hiện được khá lâu và Claude 3 Opus từ Anthropic là bây giờ đã có trên Amazon Bedrock.

Vì vậy, làm thế nào để so sánh các mô hình này với nhau dựa trên một số điểm chuẩn? Dưới đây là so sánh cách các mô hình mạnh mẽ này được thử nghiệm trong một số tùy chọn. Những số liệu này được lấy từ thông tin có sẵn công khai và của Meta thông báo.

điểm chuẩn	Lạc đà 3 400B	Tác phẩm của Claude 3	GPT-4 Turbo	Song Tử Ultra 1.0	Song Tử Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	–	–
con người	84.1	84.9	87.6	74.4	71.9
MÔN TOÁN	57.8	60.1	72.2	53.2	58.5

Như bạn có thể thấy, Llama-3 400B thực sự hơi kém trong các điểm chuẩn này, đạt 86.1 điểm trong MMLU, 48 điểm GPQA, 84.1 điểm HumanEval và 57.8 điểm MATH.

Tuy nhiên, vì nó vẫn đang trong giai đoạn huấn luyện nên có khả năng sẽ có những cải tiến lớn sau khi được triển khai đầy đủ. Và đối với một mô hình nguồn mở, điều đó còn hơn cả ấn tượng.

MMLU kiểm tra xem các mô hình hiểu các môn học khác nhau đến mức nào mà không trực tiếp dạy chúng, bao gồm nhiều chủ đề. Mặt khác, GPQA sắp xếp các mô hình về mức độ hoạt động của chúng trong các lĩnh vực sinh học, vật lý và hóa học, trong khi HumanEval tập trung vào cách chúng mã hóa.

Rafly Gilang

Phóng viên công nghệ

Rafly là phóng viên có nhiều năm kinh nghiệm làm báo, từ công nghệ, kinh doanh, xã hội và văn hóa. Hiện đang báo cáo tin tức về các sản phẩm, công nghệ và AI liên quan đến Microsoft trên Windows Report và MSPowerUser. Có một mẹo? Gửi nó tới [email được bảo vệ].

Bình luận