Metin nadolazeći model Llama-3 400B potencijalno bi mogao pobijediti GPT-4 Turbo i Claude 3 Opus

Ne premašuje ih, ali ima potencijal

Naslovna » Vijesti iz kluba

Ikona vremena čitanja 2 min. čitati

Ikona kalendara Objavljeno na Travnja 19, 2024

by Rafly Gilang

objavljeno Travnja 19, 2024

Čitatelji pomažu pri podršci MSpoweruser. Možda ćemo dobiti proviziju ako kupujete putem naših veza.

Ključne napomene

Meta predstavlja Llama-3, svoj dosad najsnažniji model s parametrima 700B
Llama-3 pokazuje potencijal za poboljšanje unatoč tome što je u fazi obuke
Nedavni brojevi pokazuju da je blizu Claude 3 Opus i GPT-4 Turbo u mjerilima

Meta je spremna lansirati svoj dosad najmoćniji AI model, the Lama-3 s parametrima 400B. U svom objava u četvrtak će model otvorenog koda uskoro pokretati alat Meta AI asistent koji dolazi na WhatsApp i Instagram.

Ali istina je da trenutno na tržištu postoji mnogo moćnih AI modela. GPT-4 Turbo s kontekstnim prozorom od 128k iz OpenAI-ja postoji već neko vrijeme, a Claude 3 Opus iz Anthropica je sada dostupno na Amazon Bedrock.

Dakle, kako se ti modeli mogu usporediti jedan s drugim, na temelju nekoliko mjerila? Evo usporedbe kako su ovi snažni modeli testirani u nekoliko opcija. Ove brojke su preuzete iz javno dostupnih informacija i Meta objava.

mjerilo	Lama 3 400B	Claude 3 Opus	GPT-4 Turbo	Gemini Ultra 1.0	Gemini Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
HumanEval	84.1	84.9	87.6	74.4	71.9
MATH	57.8	60.1	72.2	53.2	58.5

Kao što možete vidjeti, Llama-3 400B zapravo malo zaostaje u ovim mjerilima, postigavši 86.1 u MMLU, 48 u GPQA, 84.1 u HumanEval i 57.8 u MATH.

No, s obzirom na to da je još uvijek u fazi obuke, postoji dobra mogućnost za velika poboljšanja nakon što se u potpunosti primijeni. A za model otvorenog koda, to je daleko više od impresivnog.

MMLU testira koliko dobro modeli razumiju različite teme bez izravnog podučavanja, pokrivajući širok raspon tema. GPQA, s druge strane, sortira modele prema tome koliko im dobro ide u biologiji, fizici i kemiji, dok se HumanEval fokusira na to kako kodiraju.

Rafly Gilang

Tehnički izvjestitelj

Rafly je reporter s godinama novinarskog iskustva, u rasponu od tehnologije, poslovanja, društvenih i kulturnih. Trenutno izvještava o novostima o Microsoftovim proizvodima, tehnologiji i umjetnoj inteligenciji na Windows izvješću i MSPowerUser. Imate savjet? Pošaljite na [e-pošta zaštićena].

Ostavi odgovor