Das kommende Modell Llama-3 400B von Meta könnte möglicherweise GPT-4 Turbo und Claude 3 Opus schlagen

Es übertrifft sie nicht, aber es hat Potenzial

Startseite » Aktuelles

Symbol für die Lesezeit 2 Minute. lesen

Kalendersymbol Veröffentlicht am 19. April 2024

by Rafly Gilang

Veröffentlicht am 19. April 2024

Leser unterstützen MSpoweruser. Wir erhalten möglicherweise eine Provision, wenn Sie über unsere Links kaufen.

Wichtige Hinweise

Meta stellt Llama-3 vor, sein bisher leistungsstärkstes Modell mit 700B-Parametern
Lama-3 zeigt Potenzial für Verbesserungen, obwohl es sich in der Trainingsphase befindet
Aktuelle Zahlen deuten darauf hin, dass es in Benchmarks nahe an Claude 3 Opus und GPT-4 Turbo herankommt

Meta wird sein bisher leistungsstärkstes KI-Modell auf den Markt bringen, das Lama-3 mit 400B Parametern. In seinem Ankündigung Am Donnerstag wird das Open-Source-Modell bald das Meta-KI-Assistententool unterstützen, das für WhatsApp und Instagram verfügbar sein wird.

Aber die Wahrheit ist, dass es derzeit viele leistungsstarke KI-Modelle auf dem Markt gibt. GPT-4 Turbo mit einem 128k-Kontextfenster von OpenAI gibt es schon seit geraumer Zeit, und Claude 3 Opus von Anthropic schon jetzt erhältlich auf Amazon Bedrock.

Wie schneiden diese Modelle also im Vergleich zueinander ab, basierend auf mehreren Benchmarks? Hier ist ein Vergleich, wie diese leistungsstarken Modelle in verschiedenen Optionen getestet wurden. Diese Zahlen stammen aus öffentlich zugängliche Informationen und Metas Ankündigung.

Benchmark	Lama 3 400B	Claude 3 Opus	GPT-4 Turbo	Gemini Ultra 1.0	Gemini Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
HumanEval	84.1	84.9	87.6	74.4	71.9
MATHE	57.8	60.1	72.2	53.2	58.5

Wie Sie sehen können, liegt Llama-3 400B in diesen Benchmarks tatsächlich etwas zurück und erreicht 86.1 in MMLU, 48 in GPQA, 84.1 in HumanEval und 57.8 in MATH.

Aber da es sich noch in der Trainingsphase befindet, besteht eine gute Chance für große Verbesserungen, sobald es vollständig im Einsatz ist. Und für ein Open-Source-Modell ist das mehr als beeindruckend.

MMLU testet, wie gut Modelle verschiedene Themen verstehen, ohne sie direkt zu unterrichten, und deckt dabei ein breites Themenspektrum ab. GPQA hingegen sortiert Modelle danach, wie gut sie in Biologie, Physik und Chemie abschneiden, während HumanEval sich darauf konzentriert, wie sie programmieren.

Rafly Gilang

Tech-Reporter

Rafly ist ein Reporter mit langjähriger journalistischer Erfahrung in den Bereichen Technologie, Wirtschaft, Soziales und Kultur. Wir berichten derzeit über Neuigkeiten zu Microsoft-bezogenen Produkten, Technologien und KI auf Windows Report und MSPowerUser. Hast du einen Tipp? Sende es zu [E-Mail geschützt] .

Hinterlassen Sie uns einen Kommentar