Das kommende Modell Llama-3 400B von Meta könnte möglicherweise GPT-4 Turbo und Claude 3 Opus schlagen
Es übertrifft sie nicht, aber es hat Potenzial
2 Minute. lesen
Veröffentlicht am
Lesen Sie unsere Offenlegungsseite, um herauszufinden, wie Sie MSPoweruser dabei helfen können, das Redaktionsteam zu unterstützen Mehr erfahren
Wichtige Hinweise
- Meta stellt Llama-3 vor, sein bisher leistungsstärkstes Modell mit 700B-Parametern
- Lama-3 zeigt Potenzial für Verbesserungen, obwohl es sich in der Trainingsphase befindet
- Aktuelle Zahlen deuten darauf hin, dass es in Benchmarks nahe an Claude 3 Opus und GPT-4 Turbo herankommt
Meta wird sein bisher leistungsstärkstes KI-Modell auf den Markt bringen, das Lama-3 mit 400B Parametern. In seinem Ankündigung Am Donnerstag wird das Open-Source-Modell bald das Meta-KI-Assistententool unterstützen, das für WhatsApp und Instagram verfügbar sein wird.
Aber die Wahrheit ist, dass es derzeit viele leistungsstarke KI-Modelle auf dem Markt gibt. GPT-4 Turbo mit einem 128k-Kontextfenster von OpenAI gibt es schon seit geraumer Zeit, und Claude 3 Opus von Anthropic schon jetzt erhältlich auf Amazon Bedrock.
Wie schneiden diese Modelle also im Vergleich zueinander ab, basierend auf mehreren Benchmarks? Hier ist ein Vergleich, wie diese leistungsstarken Modelle in verschiedenen Optionen getestet wurden. Diese Zahlen stammen aus öffentlich zugängliche Informationen und Metas Ankündigung.
Benchmark | Lama 3 400B | Claude 3 Opus | GPT-4 Turbo | Gemini Ultra 1.0 | Gemini Pro 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
HumanEval | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
MATHE | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Wie Sie sehen können, liegt Llama-3 400B in diesen Benchmarks tatsächlich etwas zurück und erreicht 86.1 in MMLU, 48 in GPQA, 84.1 in HumanEval und 57.8 in MATH.
Aber da es sich noch in der Trainingsphase befindet, besteht eine gute Chance für große Verbesserungen, sobald es vollständig im Einsatz ist. Und für ein Open-Source-Modell ist das mehr als beeindruckend.
MMLU testet, wie gut Modelle verschiedene Themen verstehen, ohne sie direkt zu unterrichten, und deckt dabei ein breites Themenspektrum ab. GPQA hingegen sortiert Modelle danach, wie gut sie in Biologie, Physik und Chemie abschneiden, während HumanEval sich darauf konzentriert, wie sie programmieren.
Benutzerforum
0 Nachrichten