Предстоящая модель Llama-3 400B от Meta потенциально может превзойти GPT-4 Turbo и Claude 3 Opus.
Он не превосходит их, но имеет потенциал
2 минута. читать
Опубликовано
Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее
Ключевые заметки
- Meta представляет Llama-3, свою пока самую мощную модель с параметрами 700B
- Лама-3 демонстрирует потенциал для улучшения, несмотря на то, что находится на этапе обучения
- Последние цифры показывают, что он близок к Claude 3 Opus и GPT-4 Turbo в тестах.
Meta собирается запустить свою самую мощную модель искусственного интеллекта — Лама-3 с параметрами 400В. В своем объявление В четверг модель с открытым исходным кодом вскоре станет основой инструмента-помощника Meta AI, который появится в WhatsApp и Instagram.
Но правда в том, что сейчас на рынке существует множество мощных моделей искусственного интеллекта. ГПТ-4 Турбо с контекстным окном 128k от OpenAI существует уже довольно давно, а Claude 3 Opus от Anthropic теперь доступны на Амазонке.
Итак, как эти модели сравниваются друг с другом на основе нескольких тестов? Вот сравнение того, как эти мощные модели тестировались в нескольких вариантах. Эти цифры взяты из общедоступная информация и Мета объявление.
эталонный тест | Лама 3 400Б | Клод 3 Опус | ГПТ-4 Турбо | Близнецы Ультра 1.0 | Близнецы Про 1.5 |
ММЛУ | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | – | – |
HumanEval | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
МАТЕМАТИКА | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Как видите, Llama-3 400B на самом деле немного отстает в этих тестах, набрав 86.1 в MMLU, 48 в GPQA, 84.1 в HumanEval и 57.8 в MATH.
Но, учитывая, что он все еще находится на этапе обучения, существует хорошая возможность для значительных улучшений после его полного развертывания. И для модели с открытым исходным кодом это более чем впечатляюще.
MMLU проверяет, насколько хорошо модели понимают различные предметы, не обучая их напрямую, охватывая широкий спектр тем. GPQA, с другой стороны, сортирует модели по тому, насколько хорошо они справляются с биологией, физикой и химией, а HumanEval фокусируется на том, как они кодируют.