Metin nadolazeći model Llama-3 400B potencijalno bi mogao pobijediti GPT-4 Turbo i Claude 3 Opus

Ne premašuje ih, ali ima potencijal

Ikona vremena čitanja 2 min. čitati


Čitatelji pomažu pri podršci MSpoweruser. Možda ćemo dobiti proviziju ako kupujete putem naših veza. Ikona opisa alata

Pročitajte našu stranicu za otkrivanje kako biste saznali kako možete pomoći MSPoweruseru da održi urednički tim Čitaj više

Ključne napomene

  • Meta predstavlja Llama-3, svoj dosad najsnažniji model s parametrima 700B
  • Llama-3 pokazuje potencijal za poboljšanje unatoč tome što je u fazi obuke
  • Nedavni brojevi pokazuju da je blizu Claude 3 Opus i GPT-4 Turbo u mjerilima
Tvrtka Meta

Meta je spremna lansirati svoj dosad najmoćniji AI model, the Lama-3 s parametrima 400B. U svom objava u četvrtak će model otvorenog koda uskoro pokretati alat Meta AI asistent koji dolazi na WhatsApp i Instagram. 

Ali istina je da trenutno na tržištu postoji mnogo moćnih AI modela. GPT-4 Turbo s kontekstnim prozorom od 128k iz OpenAI-ja postoji već neko vrijeme, a Claude 3 Opus iz Anthropica je sada dostupno na Amazon Bedrock.

Dakle, kako se ti modeli mogu usporediti jedan s drugim, na temelju nekoliko mjerila? Evo usporedbe kako su ovi snažni modeli testirani u nekoliko opcija. Ove brojke su preuzete iz javno dostupnih informacija i Meta objava.

mjeriloLama 3 400BClaude 3 OpusGPT-4 TurboGemini Ultra 1.0Gemini Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
HumanEval84.184.987.674.471.9
MATH57.860.172.253.258.5

Kao što možete vidjeti, Llama-3 400B zapravo malo zaostaje u ovim mjerilima, postigavši ​​86.1 u MMLU, 48 u GPQA, 84.1 u HumanEval i 57.8 u MATH. 

No, s obzirom na to da je još uvijek u fazi obuke, postoji dobra mogućnost za velika poboljšanja nakon što se u potpunosti primijeni. A za model otvorenog koda, to je daleko više od impresivnog. 

MMLU testira koliko dobro modeli razumiju različite teme bez izravnog podučavanja, pokrivajući širok raspon tema. GPQA, s druge strane, sortira modele prema tome koliko im dobro ide u biologiji, fizici i kemiji, dok se HumanEval fokusira na to kako kodiraju. 

Korisnički forum

0 poruke