Model Meta yang akan datang Llama-3 400B berpotensi mengalahkan GPT-4 Turbo dan Claude 3 Opus
Memang tidak melebihi mereka, tapi punya potensi
2 menit Baca
Ditampilkan di
Baca halaman pengungkapan kami untuk mengetahui bagaimana Anda dapat membantu MSPoweruser mempertahankan tim editorial Baca lebih lanjut
Catatan kunci
- Meta memperkenalkan Llama-3, model paling kuat dengan parameter 700B
- Llama-3 menunjukkan potensi peningkatan meskipun masih dalam tahap pelatihan
- Angka terbaru menunjukkan bahwa benchmarknya mendekati Claude 3 Opus dan GPT-4 Turbo
Meta akan meluncurkan model AI yang paling kuat, yaitu Lama-3 dengan parameter 400B. Di dalamnya pengumuman pada hari Kamis, model sumber terbuka akan segera mendukung alat asisten Meta AI yang hadir di WhatsApp dan Instagram.
Namun kenyataannya, ada banyak model AI yang kuat di pasaran saat ini. GPT-4 Turbo dengan jendela konteks 128k dari OpenAI telah ada selama beberapa waktu, dan Claude 3 Opus dari Anthropic adalah sekarang tersedia di Amazon Batuan Dasar.
Jadi, bagaimana model-model ini dibandingkan satu sama lain, berdasarkan beberapa tolok ukur? Berikut perbandingan bagaimana model canggih ini diuji dalam beberapa pilihan. Angka-angka ini diambil dari informasi yang tersedia untuk umum dan Meta pengumuman.
patokan | Lama 3 400B | Karya Claude 3 | GPT-4 Turbo | Gemini Ultra 1.0 | Gemini Pro 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
Evaluasi Manusia | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
MATH | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Seperti yang Anda lihat, Llama-3 400B sebenarnya sedikit kurang dalam benchmark ini, dengan skor 86.1 di MMLU, 48 di GPQA, 84.1 di HumanEval, dan 57.8 di MATH.
Namun, mengingat bahwa ini masih dalam tahap pelatihan, ada kemungkinan besar untuk perbaikan besar setelah sepenuhnya diterapkan. Dan untuk model sumber terbuka, hal ini sangat mengesankan.
MMLU menguji seberapa baik model memahami berbagai mata pelajaran tanpa mengajarkannya secara langsung, yang mencakup berbagai topik. GPQA, di sisi lain, mengurutkan model berdasarkan seberapa baik kinerjanya dalam biologi, fisika, dan kimia, sementara HumanEval berfokus pada cara mereka membuat kode.
forum pengguna
Pesan 0