Model Meta yang akan datang Llama-3 400B berpotensi mengalahkan GPT-4 Turbo dan Claude 3 Opus

Memang tidak melebihi mereka, tapi punya potensi

Ikon waktu membaca 2 menit Baca


Pembaca membantu dukungan MSpoweruser. Kami mungkin mendapat komisi jika Anda membeli melalui tautan kami. Ikon Keterangan Alat

Baca halaman pengungkapan kami untuk mengetahui bagaimana Anda dapat membantu MSPoweruser mempertahankan tim editorial Baca lebih lanjut

Catatan kunci

  • Meta memperkenalkan Llama-3, model paling kuat dengan parameter 700B
  • Llama-3 menunjukkan potensi peningkatan meskipun masih dalam tahap pelatihan
  • Angka terbaru menunjukkan bahwa benchmarknya mendekati Claude 3 Opus dan GPT-4 Turbo

Meta akan meluncurkan model AI yang paling kuat, yaitu Lama-3 dengan parameter 400B. Di dalamnya pengumuman pada hari Kamis, model sumber terbuka akan segera mendukung alat asisten Meta AI yang hadir di WhatsApp dan Instagram. 

Namun kenyataannya, ada banyak model AI yang kuat di pasaran saat ini. GPT-4 Turbo dengan jendela konteks 128k dari OpenAI telah ada selama beberapa waktu, dan Claude 3 Opus dari Anthropic adalah sekarang tersedia di Amazon Batuan Dasar.

Jadi, bagaimana model-model ini dibandingkan satu sama lain, berdasarkan beberapa tolok ukur? Berikut perbandingan bagaimana model canggih ini diuji dalam beberapa pilihan. Angka-angka ini diambil dari informasi yang tersedia untuk umum dan Meta pengumuman.

patokanLama 3 400BKarya Claude 3GPT-4 TurboGemini Ultra 1.0Gemini Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
Evaluasi Manusia84.184.987.674.471.9
MATH57.860.172.253.258.5

Seperti yang Anda lihat, Llama-3 400B sebenarnya sedikit kurang dalam benchmark ini, dengan skor 86.1 di MMLU, 48 di GPQA, 84.1 di HumanEval, dan 57.8 di MATH. 

Namun, mengingat bahwa ini masih dalam tahap pelatihan, ada kemungkinan besar untuk perbaikan besar setelah sepenuhnya diterapkan. Dan untuk model sumber terbuka, hal ini sangat mengesankan. 

MMLU menguji seberapa baik model memahami berbagai mata pelajaran tanpa mengajarkannya secara langsung, yang mencakup berbagai topik. GPQA, di sisi lain, mengurutkan model berdasarkan seberapa baik kinerjanya dalam biologi, fisika, dan kimia, sementara HumanEval berfokus pada cara mereka membuat kode.