Claude 3 Opus превосходит GPT-4 OpenAI в важном рейтинге чат-ботов

Главная » Новости

Значок времени чтения 2 минута. читать

Значок календаря Опубликовано 28 марта 2024

by Рахул

Опубликован в 28 марта 2024

Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам.

Ключевые заметки

Claude 3 Opus обыграл GPT-4 от OpenAI и стал номером один в рейтинге Arena.
Claude 3 Opus имеет показатель Эло 1253, что немного больше, чем у GPT-4.
Результаты основаны на том, насколько пользователи были удовлетворены результатами нескольких моделей ИИ.

Антропный анонсировала семейство моделей Claude 3 ранее в этом месяце, утверждая, что он может превзойти GPT-4 от OpenAI. Компания продемонстрировала различные показатели производительности модели и сравнила их с показателями конкурирующих чат-ботов, чтобы сделать такой вывод. Теперь превосходство Клода 3 отражается и на таблице лидеров Арены.

Claude 3 Opus обыграл GPT-4 и стал номером один

Claude 3 Opus возглавил рейтинг LYMSYS Chatbot Arena, подняв модель GPT-4 на вторую позицию. Claude 3 Opus получил оценку Эло 1253, что немного больше, чем 1251 балла GPT-4. По этому же баллу судят об уровне мастерства шахматистов. Но в данном случае по результатам тестов оцениваются различные модели ИИ, а не шахматисты.

[Обновление арены]

70 тысяч+ новых голосов на Арене?? находятся в!

Claude-3 Haiku впечатлил всех, даже достигнув уровня GPT-4 по предпочтениям наших пользователей! Его скорость, возможности и длина контекста сейчас не имеют себе равных на рынке?

Поздравляю @АнтропическийАИ о невероятном запуске Клода-3!

Более захватывающий… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) 26 марта 2024

Однако арена чат-ботов LYMSYS не идеальна. Результаты сравнительного анализа, которые он показывает, основаны на голосовании людей. Таким образом, оценки были обновлены после 70 тысяч новых голосов. Таким образом, теоретически более высокий балл должен указывать на то, что общий результат модели ИИ был лучше. Но в большинстве случаев качество результата зависит от того, кто его просматривает. Пользователи также жалуются, что GPT-4 не загружается должным образом в Chatbot Arena (через Том'сгид). Несмотря на это, OpenAI удерживал первую позицию все эти годы, пока несколько часов назад его не вытеснил Claude 3 Opus.

Хотя обновленный рейтинг Arena, вероятно, вызовет больший интерес к моделям искусственного интеллекта Anthropic, OpenAI планирует запуск GPT-5 этим летом, что, как говорят, «существенно лучше». Если это окажется так, OpenAI, скорее всего, вернет себе первое место в таблице лидеров Arena.

Подробнее о темах: Антропный, Клод 3 Опус, GPT-4

Рахул

Технический журналист

Рахул — технический журналист с многолетним опытом освещения программного обеспечения, в первую очередь Windows и Android. Он также любит делиться своим мнением по различным техническим темам.