Claude 3 Opus перемагає OpenAI GPT-4 у важливому рейтингу чат-ботів

Головна » Новини

Значок часу читання 2 хв. читати

Піктограма календаря Опубліковано Березня 28, 2024

by Рахул

опубліковано на Березня 28, 2024

Читачі допомагають підтримувати MSpoweruser. Ми можемо отримати комісію, якщо ви купуєте через наші посилання.

Основні нотатки

Claude 3 Opus переміг GPT-4 OpenAI і став номером один у рейтингу Arena.
Claude 3 Opus має Elo Score 1253, трохи більше ніж GPT-4.
Результати базуються на тому, наскільки користувачі були задоволені результатами кількох моделей ШІ.

Антропний анонсувала сімейство моделей Claude 3 на початку цього місяця, заявивши, що він може перевершити GPT-4 OpenAI. Щоб зробити такий висновок, компанія показала різні показники продуктивності моделі та порівняла їх із показниками конкуруючих чат-ботів. Тепер перевага Claude 3 також відображається на таблиці лідерів Arena.

Claude 3 Opus перемагає GPT-4 і стає номером один

Claude 3 Opus очолив рейтинг LYMSYS Chatbot Arena і посунув модель GPT-4 на друге місце. Claude 3 Opus отримав оцінку Elo 1253, трохи більше ніж 1251 за GPT-4. Це той самий бал, який визначає, наскільки вправні шахісти. Але в цьому випадку результати тестування оцінюють різні моделі ШІ, а не шахістів.

[Оновлення Арени]

70 тисяч+ нових голосів на Арені?? є в!

Claude-3 Haiku вразив усіх, навіть досягнувши рівня GPT-4 за нашими перевагами користувачів! Його швидкість, можливості та довжина контексту зараз не мають собі рівних на ринку?

вітаю @AnthropicAI про неймовірний запуск Клод-3!

Більш захоплюючий… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) Березня 26, 2024

Однак LYMSYS Chatbot Arena не ідеальна. Результати порівняльного аналізу, які він показує, базуються на голосуванні людей. Таким чином, бали були оновлені після 70 тисяч нових голосувань. Отже, теоретично кращий результат повинен означати, що загальний результат моделі ШІ був кращим. Але здебільшого якість результату залежить від того, хто його переглядає. Користувачі також скаржаться, що GPT-4 не завантажується належним чином у Chatbot Arena (через Tom'sguide). Незважаючи на це, OpenAI утримував перше місце всі ці роки, поки його не потіснив Claude 3 Opus кілька годин тому.

Хоча оновлений рейтинг Arena, ймовірно, викличе більший інтерес до моделей штучного інтелекту Anthropic, OpenAI планує запустити GPT-5 цього літа, який, як кажуть, «матеріально кращий». Якщо це виявиться так, OpenAI, швидше за все, поверне своє перше місце в таблиці лідерів Arena.

Детальніше про теми: Антропний, Клод 3 Опус, GPT-4

Рахул

Технічний журналіст

Рахул — технічний журналіст із багаторічним досвідом роботи з програмним забезпеченням, насамперед Windows і Android. Він також любить ділитися її думками з різних технічних тем.

Claude 3 Opus перемагає GPT-4 і стає номером один

залишити коментар