Nadchodzący model Meta Llama-3 400B może potencjalnie pokonać GPT-4 Turbo i Claude 3 Opus
Nie przewyższa ich, ale ma potencjał
2 minuta. czytać
Opublikowany
Przeczytaj naszą stronę z informacjami, aby dowiedzieć się, jak możesz pomóc MSPoweruser w utrzymaniu zespołu redakcyjnego Czytaj więcej
Kluczowe uwagi
- Meta przedstawia Llamę-3, swój najpotężniejszy model o parametrach 700B
- Lama-3 wykazuje potencjał do poprawy pomimo bycia w fazie szkolenia
- Ostatnie liczby sugerują, że w benchmarkach jest blisko Claude 3 Opus i GPT-4 Turbo
Meta ma zamiar wprowadzić na rynek swój najpotężniejszy model sztucznej inteligencji, tzw Lama-3 o parametrach 400B. W swoim zapowiedź w czwartek model open source wkrótce będzie obsługiwał narzędzie asystenta Meta AI, które będzie dostępne w WhatsApp i Instagramie.
Prawda jest jednak taka, że obecnie na rynku dostępnych jest wiele potężnych modeli sztucznej inteligencji. GPT-4 Turbo z oknem kontekstowym 128k z OpenAI istnieje już od dłuższego czasu, a Claude 3 Opus z Anthropic jest teraz dostępny na Amazon Bedrock.
Jak zatem te modele wypadają względem siebie na podstawie kilku testów porównawczych? Oto porównanie jak te potężne modele testowały w kilku wariantach. Liczby te pochodzą z publicznie dostępne informacje i Meta zapowiedź.
Benchmark | Lama 3 400B | Klaudiusz 3 Op | GPT-4 Turbo | Bliźnięta Ultra 1.0 | Bliźnięta Pro 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
HumanEval | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
MATH | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Jak widać, Llama-3 400B wypada nieco gorzej w tych testach, uzyskując 86.1 w MMLU, 48 w GPQA, 84.1 w HumanEval i 57.8 w MATH.
Biorąc jednak pod uwagę, że znajduje się on wciąż w fazie szkolenia, istnieje duża szansa na wprowadzenie znacznych ulepszeń po jego pełnym wdrożeniu. A w przypadku modelu open source jest to znacznie więcej niż imponujące.
MMLU sprawdza, jak dobrze modele rozumieją różne przedmioty bez bezpośredniego ich nauczania, obejmującego szeroki zakres tematów. Z drugiej strony GPQA sortuje modele na podstawie tego, jak dobrze radzą sobie z biologią, fizyką i chemią, podczas gdy HumanEval skupia się na tym, jak kodują.
Forum użytkowników
Wiadomości 0