Майбутня модель Meta Llama-3 400B потенційно може перемогти GPT-4 Turbo та Claude 3 Opus

Він не перевищує їх, але має потенціал

Головна » Новини

Значок часу читання 2 хв. читати

Піктограма календаря Опубліковано Квітень 19, 2024

by Рафлі Гіланг

опубліковано на Квітень 19, 2024

Читачі допомагають підтримувати MSpoweruser. Ми можемо отримати комісію, якщо ви купуєте через наші посилання.

Основні нотатки

Meta представляє Llama-3, свою найпотужнішу модель із параметрами 700B
Лама-3 демонструє потенціал для вдосконалення, незважаючи на те, що перебуває на етапі навчання
Останні дані показують, що він близький до Claude 3 Opus і GPT-4 Turbo в тестах

Meta збирається випустити свою поки що найпотужнішу модель AI, the Лама-3 з параметрами 400В. У своєму оголошення У четвер модель з відкритим вихідним кодом незабаром буде використовувати інструмент Meta AI Assistant, який з’явиться в WhatsApp і Instagram.

Але правда в тому, що зараз на ринку є багато потужних моделей ШІ. ГПТ-4 Турбо з контекстним вікном 128k від OpenAI існує вже досить давно, а Claude 3 Opus від Anthropic є тепер доступні на Amazon Bedrock.

Отже, як ці моделі порівнюють одна з одною на основі кількох тестів? Ось порівняння того, як ці потужні моделі тестувалися в кількох варіантах. Ці цифри взяті з загальнодоступна інформація і Мета оголошення.

еталонний тест	Лама 3 400B	Клод 3 Опус	ГПТ-4 Турбо	Gemini Ultra 1.0	Gemini Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	-	-
HumanEval	84.1	84.9	87.6	74.4	71.9
МАТИ	57.8	60.1	72.2	53.2	58.5

Як бачите, Llama-3 400B справді трохи відстає в цих тестах, набравши 86.1 у MMLU, 48 у GPQA, 84.1 у HumanEval і 57.8 у MATH.

Але, враховуючи, що він все ще перебуває на етапі навчання, є хороші можливості для значних покращень, коли його буде повністю розгорнуто. А для моделі з відкритим вихідним кодом це більше ніж вражає.

MMLU перевіряє, наскільки добре моделі розуміють різні предмети, не навчаючи їх безпосередньо, охоплюючи широкий спектр тем. GPQA, з іншого боку, сортує моделі за тим, наскільки вони успішні в біології, фізиці та хімії, тоді як HumanEval зосереджується на тому, як вони кодують.

Рафлі Гіланг

Технічний репортер

Рафлі — репортер із багаторічним досвідом журналістики, починаючи з технологій, бізнесу, соціальних питань і культури. Наразі звітує про продукти, технології та ШІ, пов’язані з Microsoft, у Windows Report і MSPowerUser. Є підказка? Надіслати на адресу [захищено електронною поштою].

залишити коментар