Claude 3 Opus перемагає OpenAI GPT-4 у важливому рейтингу чат-ботів

Значок часу читання 2 хв. читати


Читачі допомагають підтримувати MSpoweruser. Ми можемо отримати комісію, якщо ви купуєте через наші посилання. Значок підказки

Прочитайте нашу сторінку розкриття інформації, щоб дізнатися, як ви можете допомогти MSPoweruser підтримувати редакційну команду Читати далі

Основні нотатки

  • Claude 3 Opus переміг GPT-4 OpenAI і став номером один у рейтингу Arena.
  • Claude 3 Opus має Elo Score 1253, трохи більше ніж GPT-4.
  • Результати базуються на тому, наскільки користувачі були задоволені результатами кількох моделей ШІ.

Антропний анонсувала сімейство моделей Claude 3 на початку цього місяця, заявивши, що він може перевершити GPT-4 OpenAI. Щоб зробити такий висновок, компанія показала різні показники продуктивності моделі та порівняла їх із показниками конкуруючих чат-ботів. Тепер перевага Claude 3 також відображається на таблиці лідерів Arena.

Claude 3 Opus перемагає GPT-4 і стає номером один

Claude 3 Opus очолив рейтинг LYMSYS Chatbot Arena і посунув модель GPT-4 на друге місце. Claude 3 Opus отримав оцінку Elo 1253, трохи більше ніж 1251 за GPT-4. Це той самий бал, який визначає, наскільки вправні шахісти. Але в цьому випадку результати тестування оцінюють різні моделі ШІ, а не шахістів.

Однак LYMSYS Chatbot Arena не ідеальна. Результати порівняльного аналізу, які він показує, базуються на голосуванні людей. Таким чином, бали були оновлені після 70 тисяч нових голосувань. Отже, теоретично кращий результат повинен означати, що загальний результат моделі ШІ був кращим. Але здебільшого якість результату залежить від того, хто його переглядає. Користувачі також скаржаться, що GPT-4 не завантажується належним чином у Chatbot Arena (через Tom'sguide). Незважаючи на це, OpenAI утримував перше місце всі ці роки, поки його не потіснив Claude 3 Opus кілька годин тому.

Хоча оновлений рейтинг Arena, ймовірно, викличе більший інтерес до моделей штучного інтелекту Anthropic, OpenAI планує запустити GPT-5 цього літа, який, як кажуть, «матеріально кращий». Якщо це виявиться так, OpenAI, швидше за все, поверне своє перше місце в таблиці лідерів Arena.

Детальніше про теми: Антропний, Клод 3 Опус, GPT-4

залишити коментар

Ваша електронна адреса не буде опублікований. Обов'язкові поля позначені * *