Действительно ли Клод 3 лучше GPT-4? Сравнительный анализ Promptbase говорит об обратном

Прямые тесты показывают, что GPT-4 Turbo превосходит Claude 3 во всех категориях.

Значок времени чтения 2 минута. читать


Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам. Значок подсказки

Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее

Ключевые заметки

  • Anthropic недавно выпустила Claude 3, который, как утверждается, превосходит GPT-4 и Google Gemini 1.0 Ultra.
  • Опубликованные результаты тестов показывают, что Claude 3 Opus превосходит своих аналогов в различных областях.
  • Однако дальнейший анализ показывает, что GPT-4 Turbo превосходит Claude 3 в прямых сравнениях, что подразумевает потенциальные отклонения в сообщаемых результатах.

Антропический только что запустил Клода 3 не так давно его модель искусственного интеллекта, как говорят, способна превзойти OpenAI GPT-4 и Google Gemini 1.0 Ultra. Он поставляется в трех вариантах: Claude 3 Haiku, Sonnet и Opus, все для разных целей.

В своей первоначальное объявлениеКомпания AI заявляет, что Claude 3 немного превосходит эти две недавно выпущенные модели. 

Согласно опубликованным контрольным оценкам, Claude 3 Opus лучше по знаниям на уровне бакалавриата (MMLU), мышлению на уровне выпускника (GPQA), математике в начальной школе и решению математических задач, многоязычной математике, программированию, рассуждениям над текстом и другим. чем GPT-4 и Gemini 1.0 Ultra и Pro.

Однако это не совсем правдиво описывает всю картину. Опубликованная оценка производительности при объявлении (особенно для GPT-4), очевидно, была взята из GPT-4 в версии от марта 2023 года прошлого года (спасибо энтузиастам искусственного интеллекта). @TolgaBilge_ на X)

Инструмент, анализирующий производительность (бенчмарк-анализатор), называется База подсказок показывает, что GPT-4 Turbo действительно превосходит Claude 3 во всех тестах, в которых они могли их напрямую сравнивать. Эти тесты охватывают такие вещи, как базовые математические навыки (GSM8K и MATH), написание кода (HumanEval), рассуждения над текстом (DROP) и ряд других задач.

Объявляя свои результаты, Anthropic также упоминается в сноске что их инженеры смогли еще больше улучшить характеристики GPT-4T, настроив его специально для испытаний. Это говорит о том, что представленные результаты могут не отражать истинные возможности базовой модели.

Уч.

Оставьте комментарий

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *