Предстоящая модель Llama-3 400B от Meta потенциально может превзойти GPT-4 Turbo и Claude 3 Opus.

Он не превосходит их, но имеет потенциал

Главная » новости

2 минута. читать

Опубликовано 19 апреля 2024

by Рафли Гиланг

Опубликован в 19 апреля 2024

Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам.

Ключевые заметки

Meta представляет Llama-3, свою пока самую мощную модель с параметрами 700B
Лама-3 демонстрирует потенциал для улучшения, несмотря на то, что находится на этапе обучения
Последние цифры показывают, что он близок к Claude 3 Opus и GPT-4 Turbo в тестах.

Meta собирается запустить свою самую мощную модель искусственного интеллекта — Лама-3 с параметрами 400В. В своем объявление В четверг модель с открытым исходным кодом вскоре станет основой инструмента-помощника Meta AI, который появится в WhatsApp и Instagram.

Но правда в том, что сейчас на рынке существует множество мощных моделей искусственного интеллекта. ГПТ-4 Турбо с контекстным окном 128k от OpenAI существует уже довольно давно, а Claude 3 Opus от Anthropic теперь доступны на Амазонке.

Итак, как эти модели сравниваются друг с другом на основе нескольких тестов? Вот сравнение того, как эти мощные модели тестировались в нескольких вариантах. Эти цифры взяты из общедоступная информация и Мета объявление.

эталонный тест	Лама 3 400Б	Клод 3 Опус	ГПТ-4 Турбо	Близнецы Ультра 1.0	Близнецы Про 1.5
ММЛУ	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	–	–
HumanEval	84.1	84.9	87.6	74.4	71.9
МАТЕМАТИКА	57.8	60.1	72.2	53.2	58.5

Как видите, Llama-3 400B на самом деле немного отстает в этих тестах, набрав 86.1 в MMLU, 48 в GPQA, 84.1 в HumanEval и 57.8 в MATH.

Но, учитывая, что он все еще находится на этапе обучения, существует хорошая возможность для значительных улучшений после его полного развертывания. И для модели с открытым исходным кодом это более чем впечатляюще.

MMLU проверяет, насколько хорошо модели понимают различные предметы, не обучая их напрямую, охватывая широкий спектр тем. GPQA, с другой стороны, сортирует модели по тому, насколько хорошо они справляются с биологией, физикой и химией, а HumanEval фокусируется на том, как они кодируют.

Рафли Гиланг

Технический репортер

Рафлай — репортер с многолетним журналистским опытом в сфере технологий, бизнеса, социальной сферы и культуры. В настоящее время сообщает новости о продуктах, технологиях и искусственном интеллекте, связанных с Microsoft, в Windows Report и MSPowerUser. Есть подсказка? Отправьте это на [электронная почта защищена].