Claude 3 Opus supera al GPT-4 de OpenAI en un importante ranking de chatbots

Icono de tiempo de lectura 2 minuto. leer


Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces. Icono de información sobre herramientas

Lea nuestra página de divulgación para descubrir cómo puede ayudar a MSPoweruser a sostener el equipo editorial. Leer más

Notas clave

  • Claude 3 Opus ha vencido al GPT-4 de OpenAI para convertirse en el número uno en el ranking Arena.
  • Claude 3 Opus tiene una puntuación Elo de 1253, un poco más que GPT-4.
  • Los resultados se basan en el grado de satisfacción de los usuarios con los resultados de varios modelos de IA.

Antrópico anunció la familia de modelos Claude 3 a principios de este mes, afirmando que puede superar al GPT-4 de OpenAI. La empresa mostró varias métricas de rendimiento del modelo y las comparó con las de los chatbots rivales para llegar a esa conclusión. Ahora, la supremacía de Claude 3 también se refleja en la clasificación de Arena.

Claude 3 Opus vence a GPT-4 y se convierte en el número uno

Claude 3 Opus encabezó el ranking LYMSYS Chatbot Arena para llevar al modelo GPT-4 a la segunda posición. El Claude 3 Opus obtuvo una puntuación Elo de 1253, un poco más que 1251 del GPT-4. Es la misma puntuación la que juzga la habilidad de los jugadores de ajedrez. Pero en este caso, las puntuaciones de referencia juzgan varios modelos de IA, no jugadores de ajedrez.

Sin embargo, LYMSYS Chatbot Arena no es perfecto. Los resultados de la evaluación comparativa que muestra se basan en el voto de la gente. Así, los resultados se actualizaron tras 70 nuevos votos. Entonces, en teoría, una mejor puntuación debería indicar que el resultado general del modelo de IA fue mejor. Pero muchas veces, la calidad del resultado depende de quién lo esté viendo. Los usuarios también se quejan de que GPT-4 no se carga correctamente en Chatbot Arena (a través de guía de tom). A pesar de eso, OpenAI mantuvo la primera posición todos estos años hasta que fue desbancado por Claude 3 Opus hace unas horas.

Si bien una clasificación de Arena actualizada probablemente generará más interés en los modelos de IA de Anthropic, OpenAI tiene planes de lanzar GPT-5 este verano, que se dice que es "materialmente mejor". Si ese resulta ser el caso, es probable que OpenAI recupere su primera posición en la clasificación de Arena.

Más sobre los temas: Antrópico, Claude 3 Opus, GPT-4

Deje un comentario

Su dirección de correo electrónico no será publicada. Las areas obligatorias están marcadas como requeridas *