Il prossimo modello Llama-3 400B di Meta potrebbe potenzialmente battere GPT-4 Turbo e Claude 3 Opus

Non li supera, ma ha un potenziale

Icona del tempo di lettura 2 minuto. leggere


I lettori aiutano a supportare MSpoweruser. Potremmo ricevere una commissione se acquisti tramite i nostri link. Icona descrizione comando

Leggi la nostra pagina informativa per scoprire come puoi aiutare MSPoweruser a sostenere il team editoriale Per saperne di più

Note chiave

  • Meta svela Llama-3, il suo modello più potente con parametri 700B
  • Llama-3 mostra potenziale di miglioramento nonostante sia in fase di addestramento
  • I numeri recenti suggeriscono che è vicino a Claude 3 Opus e GPT-4 Turbo nei benchmark
Meta-azienda

Meta è pronta a lanciare il suo modello di intelligenza artificiale ancora più potente, il Lama-3 con parametri 400B. Nel suo annuncio giovedì, il modello open source alimenterà presto lo strumento di assistente Meta AI che arriverà su WhatsApp e Instagram. 

Ma la verità è che al momento sul mercato ci sono moltissimi modelli di intelligenza artificiale potenti. GPT-4 Turbo con una finestra di contesto da 128k di OpenAI è in circolazione da un po' di tempo, e Claude 3 Opus di Anthropic è ora disponibile su Amazon Bedrock.

Quindi, come si confrontano questi modelli tra loro, sulla base di diversi benchmark? Ecco un confronto di come questi potenti modelli sono stati testati in diverse opzioni. Queste cifre sono tratte da informazioni disponibili al pubblico e di Meta annuncio.

Segno di riferimentoLama 3 400BClaude 3 OpusGPT-4 TurboGemelli Ultra 1.0Gemelli Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
Valutazione umana84.184.987.674.471.9
MATEMATICA57.860.172.253.258.5

Come puoi vedere, Llama-3 400B in realtà non è all'altezza di questi benchmark, segnando 86.1 in MMLU, 48 in GPQA, 84.1 in HumanEval e 57.8 in MATH. 

Ma, dato che è ancora in fase di addestramento, ci sono buone possibilità di grandi miglioramenti una volta che sarà completamente operativo. E per un modello open source, è molto più che impressionante. 

MMLU verifica la capacità dei modelli di comprendere diverse materie senza insegnarle direttamente, coprendo una vasta gamma di argomenti. GPQA, d'altra parte, ordina i modelli in base al loro rendimento in biologia, fisica e chimica, mentre HumanEval si concentra su come codificano. 

Forum degli utenti

0 messaggi