Mẫu Llama-3 400B sắp ra mắt của Meta có khả năng đánh bại GPT-4 Turbo và Claude 3 Opus

Nó không vượt quá chúng, nhưng nó có tiềm năng

Biểu tượng thời gian đọc 2 phút đọc


Bạn đọc giúp đỡ ủng hộ MSpoweruser. Chúng tôi có thể nhận được hoa hồng nếu bạn mua thông qua các liên kết của chúng tôi. Biểu tượng chú giải công cụ

Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm

Ghi chú chính

  • Meta ra mắt Llama-3, model mạnh mẽ nhất với thông số 700B
  • Llama-3 cho thấy tiềm năng cải thiện dù đang trong giai đoạn huấn luyện
  • Những con số gần đây cho thấy nó gần bằng Claude 3 Opus và GPT-4 Turbo về điểm chuẩn

Meta chuẩn bị ra mắt mô hình AI mạnh mẽ nhất của mình, mô hình Llama-3 với thông số 400B. Trong nó thông báo vào thứ Năm, mô hình nguồn mở sẽ sớm hỗ trợ công cụ trợ lý Meta AI sắp có mặt trên WhatsApp và Instagram. 

Nhưng sự thật là hiện tại có rất nhiều mẫu AI mạnh mẽ trên thị trường. GPT-4 Turbo với cửa sổ ngữ cảnh 128k từ OpenAI đã xuất hiện được khá lâu và Claude 3 Opus từ Anthropic là bây giờ đã có trên Amazon Bedrock.

Vì vậy, làm thế nào để so sánh các mô hình này với nhau dựa trên một số điểm chuẩn? Dưới đây là so sánh cách các mô hình mạnh mẽ này được thử nghiệm trong một số tùy chọn. Những số liệu này được lấy từ thông tin có sẵn công khai và của Meta thông báo.

điểm chuẩnLạc đà 3 400BTác phẩm của Claude 3GPT-4 TurboSong Tử Ultra 1.0Song Tử Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1
con người84.184.987.674.471.9
MÔN TOÁN57.860.172.253.258.5

Như bạn có thể thấy, Llama-3 400B thực sự hơi kém trong các điểm chuẩn này, đạt 86.1 điểm trong MMLU, 48 điểm GPQA, 84.1 điểm HumanEval và 57.8 điểm MATH. 

Tuy nhiên, vì nó vẫn đang trong giai đoạn huấn luyện nên có khả năng sẽ có những cải tiến lớn sau khi được triển khai đầy đủ. Và đối với một mô hình nguồn mở, điều đó còn hơn cả ấn tượng. 

MMLU kiểm tra xem các mô hình hiểu các môn học khác nhau đến mức nào mà không trực tiếp dạy chúng, bao gồm nhiều chủ đề. Mặt khác, GPQA sắp xếp các mô hình về mức độ hoạt động của chúng trong các lĩnh vực sinh học, vật lý và hóa học, trong khi HumanEval tập trung vào cách chúng mã hóa. 

Bình luận

Chúng tôi sẽ không công khai email của bạn. Các ô đánh dấu * là bắt buộc *