Il prossimo modello Llama-3 400B di Meta potrebbe potenzialmente battere GPT-4 Turbo e Claude 3 Opus
Non li supera, ma ha un potenziale
2 minuto. leggere
Edizione del
Leggi la nostra pagina informativa per scoprire come puoi aiutare MSPoweruser a sostenere il team editoriale Per saperne di più
Note chiave
- Meta svela Llama-3, il suo modello più potente con parametri 700B
- Llama-3 mostra potenziale di miglioramento nonostante sia in fase di addestramento
- I numeri recenti suggeriscono che è vicino a Claude 3 Opus e GPT-4 Turbo nei benchmark
Meta è pronta a lanciare il suo modello di intelligenza artificiale ancora più potente, il Lama-3 con parametri 400B. Nel suo annuncio giovedì, il modello open source alimenterà presto lo strumento di assistente Meta AI che arriverà su WhatsApp e Instagram.
Ma la verità è che al momento sul mercato ci sono moltissimi modelli di intelligenza artificiale potenti. GPT-4 Turbo con una finestra di contesto da 128k di OpenAI è in circolazione da un po' di tempo, e Claude 3 Opus di Anthropic è ora disponibile su Amazon Bedrock.
Quindi, come si confrontano questi modelli tra loro, sulla base di diversi benchmark? Ecco un confronto di come questi potenti modelli sono stati testati in diverse opzioni. Queste cifre sono tratte da informazioni disponibili al pubblico e di Meta annuncio.
Segno di riferimento | Lama 3 400B | Claude 3 Opus | GPT-4 Turbo | Gemelli Ultra 1.0 | Gemelli Pro 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
Valutazione umana | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
MATEMATICA | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Come puoi vedere, Llama-3 400B in realtà non è all'altezza di questi benchmark, segnando 86.1 in MMLU, 48 in GPQA, 84.1 in HumanEval e 57.8 in MATH.
Ma, dato che è ancora in fase di addestramento, ci sono buone possibilità di grandi miglioramenti una volta che sarà completamente operativo. E per un modello open source, è molto più che impressionante.
MMLU verifica la capacità dei modelli di comprendere diverse materie senza insegnarle direttamente, coprendo una vasta gamma di argomenti. GPQA, d'altra parte, ordina i modelli in base al loro rendimento in biologia, fisica e chimica, mentre HumanEval si concentra su come codificano.
Forum degli utenti
0 messaggi