Предстоящая модель Llama-3 400B от Meta потенциально может превзойти GPT-4 Turbo и Claude 3 Opus.

Он не превосходит их, но имеет потенциал

Значок времени чтения 2 минута. читать


Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам. Значок подсказки

Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее

Ключевые заметки

  • Meta представляет Llama-3, свою пока самую мощную модель с параметрами 700B
  • Лама-3 демонстрирует потенциал для улучшения, несмотря на то, что находится на этапе обучения
  • Последние цифры показывают, что он близок к Claude 3 Opus и GPT-4 Turbo в тестах.

Meta собирается запустить свою самую мощную модель искусственного интеллекта — Лама-3 с параметрами 400В. В своем объявление В четверг модель с открытым исходным кодом вскоре станет основой инструмента-помощника Meta AI, который появится в WhatsApp и Instagram. 

Но правда в том, что сейчас на рынке существует множество мощных моделей искусственного интеллекта. ГПТ-4 Турбо с контекстным окном 128k от OpenAI существует уже довольно давно, а Claude 3 Opus от Anthropic теперь доступны на Амазонке.

Итак, как эти модели сравниваются друг с другом на основе нескольких тестов? Вот сравнение того, как эти мощные модели тестировались в нескольких вариантах. Эти цифры взяты из общедоступная информация и Мета объявление.

эталонный тестЛама 3 400БКлод 3 ОпусГПТ-4 ТурбоБлизнецы Ультра 1.0Близнецы Про 1.5
ММЛУ86.186.886.583.781.9
GPQA4850.449.1
HumanEval84.184.987.674.471.9
МАТЕМАТИКА57.860.172.253.258.5

Как видите, Llama-3 400B на самом деле немного отстает в этих тестах, набрав 86.1 в MMLU, 48 в GPQA, 84.1 в HumanEval и 57.8 в MATH. 

Но, учитывая, что он все еще находится на этапе обучения, существует хорошая возможность для значительных улучшений после его полного развертывания. И для модели с открытым исходным кодом это более чем впечатляюще. 

MMLU проверяет, насколько хорошо модели понимают различные предметы, не обучая их напрямую, охватывая широкий спектр тем. GPQA, с другой стороны, сортирует модели по тому, насколько хорошо они справляются с биологией, физикой и химией, а HumanEval фокусируется на том, как они кодируют. 

Оставьте комментарий

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *