Meta'nın yaklaşmakta olan Llama-3 400B modeli potansiyel olarak GPT-4 Turbo ve Claude 3 Opus'u yenebilir

Bunları aşmıyor ama potansiyeli var

Okuma zamanı simgesi 2 dk. okuman


Okuyucular MSpoweruser'ı desteklemeye yardımcı olur. Bağlantılarımız aracılığıyla satın alırsanız komisyon alabiliriz. Araç İpucu Simgesi

MSPoweruser'ın editör ekibini ayakta tutmasına nasıl yardımcı olabileceğinizi öğrenmek için açıklama sayfamızı okuyun. Daha fazla

Önemli notlar

  • Meta, 3B parametreli en güçlü modeli olan Llama-700'ü tanıttı
  • Lama-3, eğitim aşamasında olmasına rağmen gelişme potansiyeli gösteriyor
  • Son rakamlar, kıyaslamalarda Claude 3 Opus ve GPT-4 Turbo'ya yakın olduğunu gösteriyor

Meta, şimdiye kadarki en güçlü yapay zeka modeli olan Lama-3 400B parametreleriyle. onun içinde duyuru Perşembe günü, açık kaynaklı model yakında WhatsApp ve Instagram'a gelecek olan Meta AI asistan aracını güçlendirecek. 

Ancak gerçek şu ki, şu anda piyasada çok sayıda güçlü yapay zeka modeli var. GPT-4 Turbo OpenAI'den 128k içerik penceresi uzun süredir ortalıkta ve Anthropic'ten Claude 3 Opus da mevcut. artık Amazon Bedrock'ta.

Peki bu modeller çeşitli kriterlere göre birbirleriyle nasıl karşılaştırılıyor? Bu güçlü modellerin çeşitli seçeneklerde nasıl test edildiğinin bir karşılaştırmasını burada bulabilirsiniz. Bu rakamlar şuradan alınmıştır: kamuya açık bilgiler ve Meta'nın duyuru.

kıyaslamaLama 3 400BClaude 3 EserGPT-4 Turboİkizler Ultra 1.0İkizler Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
İnsanDeğerlendirmesi84.184.987.674.471.9
MATEMATİK57.860.172.253.258.5

Gördüğünüz gibi Llama-3 400B aslında bu kıyaslamalarda biraz geride kalıyor; MMLU'da 86.1, GPQA'da 48, HumanEval'de 84.1 ve MATH'de 57.8 puan alıyor. 

Ancak hala eğitim aşamasında olduğu göz önüne alındığında, tam olarak kullanıma sunulduğunda büyük iyileştirmeler yapılması ihtimali oldukça yüksek. Açık kaynaklı bir model için bu etkileyiciliğin çok ötesinde bir şey. 

MMLU, çok çeşitli konuları kapsayan, modellerin farklı konuları doğrudan öğretmeden ne kadar iyi anladığını test eder. GPQA ise modelleri biyoloji, fizik ve kimyada ne kadar iyi performans gösterdiklerine göre sıralarken HumanEval nasıl kodladıklarına odaklanıyor. 

Yorum bırak

E-posta hesabınız yayımlanmayacak. Gerekli alanlar işaretlenmişlerdir. *