Meta'nın yaklaşmakta olan Llama-3 400B modeli potansiyel olarak GPT-4 Turbo ve Claude 3 Opus'u yenebilir

Bunları aşmıyor ama potansiyeli var

Ana Sayfa » Haberler

Okuma zamanı simgesi 2 dk. okuman

Takvim simgesi Yayınlandı 19 Nisan 2024

by Rafly Gilang

yayınlandı 19 Nisan 2024

Okuyucular MSpoweruser'ı desteklemeye yardımcı olur. Bağlantılarımız aracılığıyla satın alırsanız komisyon alabiliriz.

Önemli notlar

Meta, 3B parametreli en güçlü modeli olan Llama-700'ü tanıttı
Lama-3, eğitim aşamasında olmasına rağmen gelişme potansiyeli gösteriyor
Son rakamlar, kıyaslamalarda Claude 3 Opus ve GPT-4 Turbo'ya yakın olduğunu gösteriyor

Meta, şimdiye kadarki en güçlü yapay zeka modeli olan Lama-3 400B parametreleriyle. onun içinde duyuru Perşembe günü, açık kaynaklı model yakında WhatsApp ve Instagram'a gelecek olan Meta AI asistan aracını güçlendirecek.

Ancak gerçek şu ki, şu anda piyasada çok sayıda güçlü yapay zeka modeli var. GPT-4 Turbo OpenAI'den 128k içerik penceresi uzun süredir ortalıkta ve Anthropic'ten Claude 3 Opus da mevcut. artık Amazon Bedrock'ta.

Peki bu modeller çeşitli kriterlere göre birbirleriyle nasıl karşılaştırılıyor? Bu güçlü modellerin çeşitli seçeneklerde nasıl test edildiğinin bir karşılaştırmasını burada bulabilirsiniz. Bu rakamlar şuradan alınmıştır: kamuya açık bilgiler ve Meta'nın duyuru.

kıyaslama	Lama 3 400B	Claude 3 Eser	GPT-4 Turbo	İkizler Ultra 1.0	İkizler Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
İnsanDeğerlendirmesi	84.1	84.9	87.6	74.4	71.9
MATEMATİK	57.8	60.1	72.2	53.2	58.5

Gördüğünüz gibi Llama-3 400B aslında bu kıyaslamalarda biraz geride kalıyor; MMLU'da 86.1, GPQA'da 48, HumanEval'de 84.1 ve MATH'de 57.8 puan alıyor.

Ancak hala eğitim aşamasında olduğu göz önüne alındığında, tam olarak kullanıma sunulduğunda büyük iyileştirmeler yapılması ihtimali oldukça yüksek. Açık kaynaklı bir model için bu etkileyiciliğin çok ötesinde bir şey.

MMLU, çok çeşitli konuları kapsayan, modellerin farklı konuları doğrudan öğretmeden ne kadar iyi anladığını test eder. GPQA ise modelleri biyoloji, fizik ve kimyada ne kadar iyi performans gösterdiklerine göre sıralarken HumanEval nasıl kodladıklarına odaklanıyor.

Rafly Gilang

Teknoloji Muhabiri

Rafly, teknoloji, iş dünyası, sosyal ve kültür alanlarında uzun yıllara dayanan gazetecilik deneyimine sahip bir muhabirdir. Şu anda Windows Report ve MSPowerUser'da Microsoft ile ilgili ürünler, teknoloji ve yapay zeka hakkında haberler rapor ediliyor. Bir ipucu var mı? Şuraya gönder: [e-posta korumalı].

Yorum bırak