Майбутня модель Meta Llama-3 400B потенційно може перемогти GPT-4 Turbo та Claude 3 Opus
Він не перевищує їх, але має потенціал
2 хв. читати
Опубліковано
Прочитайте нашу сторінку розкриття інформації, щоб дізнатися, як ви можете допомогти MSPoweruser підтримувати редакційну команду Читати далі
Основні нотатки
- Meta представляє Llama-3, свою найпотужнішу модель із параметрами 700B
- Лама-3 демонструє потенціал для вдосконалення, незважаючи на те, що перебуває на етапі навчання
- Останні дані показують, що він близький до Claude 3 Opus і GPT-4 Turbo в тестах
Meta збирається випустити свою поки що найпотужнішу модель AI, the Лама-3 з параметрами 400В. У своєму оголошення У четвер модель з відкритим вихідним кодом незабаром буде використовувати інструмент Meta AI Assistant, який з’явиться в WhatsApp і Instagram.
Але правда в тому, що зараз на ринку є багато потужних моделей ШІ. ГПТ-4 Турбо з контекстним вікном 128k від OpenAI існує вже досить давно, а Claude 3 Opus від Anthropic є тепер доступні на Amazon Bedrock.
Отже, як ці моделі порівнюють одна з одною на основі кількох тестів? Ось порівняння того, як ці потужні моделі тестувалися в кількох варіантах. Ці цифри взяті з загальнодоступна інформація і Мета оголошення.
еталонний тест | Лама 3 400B | Клод 3 Опус | ГПТ-4 Турбо | Gemini Ultra 1.0 | Gemini Pro 1.5 |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
HumanEval | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
МАТИ | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Як бачите, Llama-3 400B справді трохи відстає в цих тестах, набравши 86.1 у MMLU, 48 у GPQA, 84.1 у HumanEval і 57.8 у MATH.
Але, враховуючи, що він все ще перебуває на етапі навчання, є хороші можливості для значних покращень, коли його буде повністю розгорнуто. А для моделі з відкритим вихідним кодом це більше ніж вражає.
MMLU перевіряє, наскільки добре моделі розуміють різні предмети, не навчаючи їх безпосередньо, охоплюючи широкий спектр тем. GPQA, з іншого боку, сортує моделі за тим, наскільки вони успішні в біології, фізиці та хімії, тоді як HumanEval зосереджується на тому, як вони кодують.
Форум користувачів
0 повідомлення