Mẫu Llama-3 400B sắp ra mắt của Meta có khả năng đánh bại GPT-4 Turbo và Claude 3 Opus
Nó không vượt quá chúng, nhưng nó có tiềm năng
2 phút đọc
Được đăng trên
Đọc trang tiết lộ của chúng tôi để tìm hiểu cách bạn có thể giúp MSPoweruser duy trì nhóm biên tập Tìm hiểu thêm
Ghi chú chính
- Meta ra mắt Llama-3, model mạnh mẽ nhất với thông số 700B
- Llama-3 cho thấy tiềm năng cải thiện dù đang trong giai đoạn huấn luyện
- Những con số gần đây cho thấy nó gần bằng Claude 3 Opus và GPT-4 Turbo về điểm chuẩn
![Công ty Meta](https://mspoweruser.com/wp-content/uploads/2023/09/meta-lg.png)
Meta chuẩn bị ra mắt mô hình AI mạnh mẽ nhất của mình, mô hình Llama-3 với thông số 400B. Trong nó thông báo vào thứ Năm, mô hình nguồn mở sẽ sớm hỗ trợ công cụ trợ lý Meta AI sắp có mặt trên WhatsApp và Instagram.
Nhưng sự thật là hiện tại có rất nhiều mẫu AI mạnh mẽ trên thị trường. GPT-4 Turbo với cửa sổ ngữ cảnh 128k từ OpenAI đã xuất hiện được khá lâu và Claude 3 Opus từ Anthropic là bây giờ đã có trên Amazon Bedrock.
Vì vậy, làm thế nào để so sánh các mô hình này với nhau dựa trên một số điểm chuẩn? Dưới đây là so sánh cách các mô hình mạnh mẽ này được thử nghiệm trong một số tùy chọn. Những số liệu này được lấy từ thông tin có sẵn công khai và của Meta thông báo.
điểm chuẩn | Lạc đà 3 400B | Tác phẩm của Claude 3 | GPT-4 Turbo | Song Tử Ultra 1.0 | Song Tử Pro 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | – | – |
con người | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
MÔN TOÁN | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Như bạn có thể thấy, Llama-3 400B thực sự hơi kém trong các điểm chuẩn này, đạt 86.1 điểm trong MMLU, 48 điểm GPQA, 84.1 điểm HumanEval và 57.8 điểm MATH.
Tuy nhiên, vì nó vẫn đang trong giai đoạn huấn luyện nên có khả năng sẽ có những cải tiến lớn sau khi được triển khai đầy đủ. Và đối với một mô hình nguồn mở, điều đó còn hơn cả ấn tượng.
MMLU kiểm tra xem các mô hình hiểu các môn học khác nhau đến mức nào mà không trực tiếp dạy chúng, bao gồm nhiều chủ đề. Mặt khác, GPQA sắp xếp các mô hình về mức độ hoạt động của chúng trong các lĩnh vực sinh học, vật lý và hóa học, trong khi HumanEval tập trung vào cách chúng mã hóa.
Diễn đàn người dùng
Tin nhắn 0