Claude 3 Opus превосходит GPT-4 OpenAI в важном рейтинге чат-ботов

Значок времени чтения 2 минута. читать


Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам. Значок подсказки

Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее

Ключевые заметки

  • Claude 3 Opus обыграл GPT-4 от OpenAI и стал номером один в рейтинге Arena.
  • Claude 3 Opus имеет показатель Эло 1253, что немного больше, чем у GPT-4.
  • Результаты основаны на том, насколько пользователи были удовлетворены результатами нескольких моделей ИИ.

Антропный анонсировала семейство моделей Claude 3 ранее в этом месяце, утверждая, что он может превзойти GPT-4 от OpenAI. Компания продемонстрировала различные показатели производительности модели и сравнила их с показателями конкурирующих чат-ботов, чтобы сделать такой вывод. Теперь превосходство Клода 3 отражается и на таблице лидеров Арены.

Claude 3 Opus обыграл GPT-4 и стал номером один

Claude 3 Opus возглавил рейтинг LYMSYS Chatbot Arena, подняв модель GPT-4 на вторую позицию. Claude 3 Opus получил оценку Эло 1253, что немного больше, чем 1251 балла GPT-4. По этому же баллу судят об уровне мастерства шахматистов. Но в данном случае по результатам тестов оцениваются различные модели ИИ, а не шахматисты.

Однако арена чат-ботов LYMSYS не идеальна. Результаты сравнительного анализа, которые он показывает, основаны на голосовании людей. Таким образом, оценки были обновлены после 70 тысяч новых голосов. Таким образом, теоретически более высокий балл должен указывать на то, что общий результат модели ИИ был лучше. Но в большинстве случаев качество результата зависит от того, кто его просматривает. Пользователи также жалуются, что GPT-4 не загружается должным образом в Chatbot Arena (через Том'сгид). Несмотря на это, OpenAI удерживал первую позицию все эти годы, пока несколько часов назад его не вытеснил Claude 3 Opus.

Хотя обновленный рейтинг Arena, вероятно, вызовет больший интерес к моделям искусственного интеллекта Anthropic, OpenAI планирует запуск GPT-5 этим летом, что, как говорят, «существенно лучше». Если это окажется так, OpenAI, скорее всего, вернет себе первое место в таблице лидеров Arena.

Подробнее о темах: Антропный, Клод 3 Опус, GPT-4