Pripravovaný model Llama-3 400B od spoločnosti Meta by mohol potenciálne poraziť GPT-4 Turbo a Claude 3 Opus

Nepresahuje ich, ale má potenciál

Ikona času čítania 2 min. čítať


Čítačky pomáhajú podporovať MSpoweruser. Ak nakupujete prostredníctvom našich odkazov, môžeme získať províziu. Ikona popisu

Prečítajte si našu informačnú stránku a zistite, ako môžete pomôcť MSPoweruser udržať redakčný tím Čítaj viac

Kľúčové poznámky

  • Meta odhaľuje Llama-3, svoj zatiaľ najvýkonnejší model s parametrami 700B
  • Llama-3 ukazuje potenciál na zlepšenie napriek tomu, že je v tréningovej fáze
  • Nedávne čísla naznačujú, že v benchmarkoch je blízko Claude 3 Opus a GPT-4 Turbo
Spoločnosť Meta

Meta je pripravená uviesť na trh svoj zatiaľ najvýkonnejší model AI Lama-3 s parametrami 400B. V jeho oznámenia vo štvrtok bude model s otvoreným zdrojom čoskoro poháňať pomocný nástroj Meta AI, ktorý prichádza na WhatsApp a Instagram. 

Pravdou však je, že v súčasnosti je na trhu veľa výkonných modelov AI. GPT-4 Turbo so 128k kontextovým oknom od OpenAI existuje už nejaký čas a Claude 3 Opus od Anthropic je je teraz k dispozícii na Amazon Bedrock.

Ako sa teda tieto modely navzájom porovnávajú na základe niekoľkých referenčných hodnôt? Tu je porovnanie, ako tieto výkonné modely testovali vo viacerých možnostiach. Tieto čísla sú prevzaté z verejne dostupné informácie a Meta oznámenia.

mierkaLama 3 400BClaude 3 OpusGPT-4 TurboGemini Ultra 1.0Gemini Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
HumanEval84.184.987.674.471.9
MATH57.860.172.253.258.5

Ako môžete vidieť, Llama-3 400B v skutočnosti v týchto benchmarkoch mierne zaostáva a má skóre 86.1 v MMLU, 48 v GPQA, 84.1 v HumanEval a 57.8 v MATH. 

Ale vzhľadom na to, že je stále vo fáze tréningu, po úplnom nasadení je tu dobrá možnosť veľkých zlepšení. A pre model s otvoreným zdrojom je to oveľa viac ako pôsobivé. 

MMLU testuje, ako dobre modely rozumejú rôznym predmetom bez toho, aby ich priamo vyučovali, pričom pokrýva široký rozsah tém. GPQA na druhej strane triedi modely podľa toho, ako dobre sa im darí v biológii, fyzike a chémii, zatiaľ čo HumanEval sa zameriava na to, ako kódujú. 

Používateľské fórum

0 správy