Майбутня модель Meta Llama-3 400B потенційно може перемогти GPT-4 Turbo та Claude 3 Opus

Він не перевищує їх, але має потенціал

Значок часу читання 2 хв. читати


Читачі допомагають підтримувати MSpoweruser. Ми можемо отримати комісію, якщо ви купуєте через наші посилання. Значок підказки

Прочитайте нашу сторінку розкриття інформації, щоб дізнатися, як ви можете допомогти MSPoweruser підтримувати редакційну команду Читати далі

Основні нотатки

  • Meta представляє Llama-3, свою найпотужнішу модель із параметрами 700B
  • Лама-3 демонструє потенціал для вдосконалення, незважаючи на те, що перебуває на етапі навчання
  • Останні дані показують, що він близький до Claude 3 Opus і GPT-4 Turbo в тестах
Компанія Мета

Meta збирається випустити свою поки що найпотужнішу модель AI, the Лама-3 з параметрами 400В. У своєму оголошення У четвер модель з відкритим вихідним кодом незабаром буде використовувати інструмент Meta AI Assistant, який з’явиться в WhatsApp і Instagram. 

Але правда в тому, що зараз на ринку є багато потужних моделей ШІ. ГПТ-4 Турбо з контекстним вікном 128k від OpenAI існує вже досить давно, а Claude 3 Opus від Anthropic є тепер доступні на Amazon Bedrock.

Отже, як ці моделі порівнюють одна з одною на основі кількох тестів? Ось порівняння того, як ці потужні моделі тестувалися в кількох варіантах. Ці цифри взяті з загальнодоступна інформація і Мета оголошення.

еталонний тестЛама 3 400BКлод 3 ОпусГПТ-4 ТурбоGemini Ultra 1.0Gemini Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
HumanEval84.184.987.674.471.9
МАТИ57.860.172.253.258.5

Як бачите, Llama-3 400B справді трохи відстає в цих тестах, набравши 86.1 у MMLU, 48 у GPQA, 84.1 у HumanEval і 57.8 у MATH. 

Але, враховуючи, що він все ще перебуває на етапі навчання, є хороші можливості для значних покращень, коли його буде повністю розгорнуто. А для моделі з відкритим вихідним кодом це більше ніж вражає. 

MMLU перевіряє, наскільки добре моделі розуміють різні предмети, не навчаючи їх безпосередньо, охоплюючи широкий спектр тем. GPQA, з іншого боку, сортує моделі за тим, наскільки вони успішні в біології, фізиці та хімії, тоді як HumanEval зосереджується на тому, як вони кодують. 

Форум користувачів

0 повідомлення