Model Meta yang akan datang Llama-3 400B berpotensi mengalahkan GPT-4 Turbo dan Claude 3 Opus

Memang tidak melebihi mereka, tapi punya potensi

Beranda » Berita

Ikon waktu membaca 2 menit Baca

Ikon kalender Ditampilkan di 19 April, 2024

by Rafly Gilang

Diterbitkan di 19 April, 2024

Pembaca membantu dukungan MSpoweruser. Kami mungkin mendapat komisi jika Anda membeli melalui tautan kami.

Catatan kunci

Meta memperkenalkan Llama-3, model paling kuat dengan parameter 700B
Llama-3 menunjukkan potensi peningkatan meskipun masih dalam tahap pelatihan
Angka terbaru menunjukkan bahwa benchmarknya mendekati Claude 3 Opus dan GPT-4 Turbo

Meta akan meluncurkan model AI yang paling kuat, yaitu Lama-3 dengan parameter 400B. Di dalamnya pengumuman pada hari Kamis, model sumber terbuka akan segera mendukung alat asisten Meta AI yang hadir di WhatsApp dan Instagram.

Namun kenyataannya, ada banyak model AI yang kuat di pasaran saat ini. GPT-4 Turbo dengan jendela konteks 128k dari OpenAI telah ada selama beberapa waktu, dan Claude 3 Opus dari Anthropic adalah sekarang tersedia di Amazon Batuan Dasar.

Jadi, bagaimana model-model ini dibandingkan satu sama lain, berdasarkan beberapa tolok ukur? Berikut perbandingan bagaimana model canggih ini diuji dalam beberapa pilihan. Angka-angka ini diambil dari informasi yang tersedia untuk umum dan Meta pengumuman.

patokan	Lama 3 400B	Karya Claude 3	GPT-4 Turbo	Gemini Ultra 1.0	Gemini Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
Evaluasi Manusia	84.1	84.9	87.6	74.4	71.9
MATH	57.8	60.1	72.2	53.2	58.5

Seperti yang Anda lihat, Llama-3 400B sebenarnya sedikit kurang dalam benchmark ini, dengan skor 86.1 di MMLU, 48 di GPQA, 84.1 di HumanEval, dan 57.8 di MATH.

Namun, mengingat bahwa ini masih dalam tahap pelatihan, ada kemungkinan besar untuk perbaikan besar setelah sepenuhnya diterapkan. Dan untuk model sumber terbuka, hal ini sangat mengesankan.

MMLU menguji seberapa baik model memahami berbagai mata pelajaran tanpa mengajarkannya secara langsung, yang mencakup berbagai topik. GPQA, di sisi lain, mengurutkan model berdasarkan seberapa baik kinerjanya dalam biologi, fisika, dan kimia, sementara HumanEval berfokus pada cara mereka membuat kode.

Rafly Gilang

Reporter Teknologi

Rafly merupakan reporter yang memiliki pengalaman jurnalistik bertahun-tahun, mulai dari teknologi, bisnis, sosial, dan budaya. Saat ini melaporkan berita tentang produk, teknologi, dan AI terkait Microsoft di Windows Report dan MSPowerUser. Punya tip? Kirim ke [email dilindungi].