Claude 3 Opus supera al GPT-4 de OpenAI en un importante ranking de chatbots

Icono de tiempo de lectura 2 minuto. leer

Icono de calendario Publicado el Marzo 28, 2024

Publicado en Marzo 28, 2024

Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces.

Notas clave

Claude 3 Opus ha vencido al GPT-4 de OpenAI para convertirse en el número uno en el ranking Arena.
Claude 3 Opus tiene una puntuación Elo de 1253, un poco más que GPT-4.
Los resultados se basan en el grado de satisfacción de los usuarios con los resultados de varios modelos de IA.

Antrópico anunció la familia de modelos Claude 3 a principios de este mes, afirmando que puede superar al GPT-4 de OpenAI. La empresa mostró varias métricas de rendimiento del modelo y las comparó con las de los chatbots rivales para llegar a esa conclusión. Ahora, la supremacía de Claude 3 también se refleja en la clasificación de Arena.

Claude 3 Opus vence a GPT-4 y se convierte en el número uno

Claude 3 Opus encabezó el ranking LYMSYS Chatbot Arena para llevar al modelo GPT-4 a la segunda posición. El Claude 3 Opus obtuvo una puntuación Elo de 1253, un poco más que 1251 del GPT-4. Es la misma puntuación la que juzga la habilidad de los jugadores de ajedrez. Pero en este caso, las puntuaciones de referencia juzgan varios modelos de IA, no jugadores de ajedrez.

[Actualización de la arena]

¿Más de 70 nuevos votos en la Arena? están dentro!

Claude-3 Haiku ha impresionado a todos, ¡incluso alcanzó el nivel GPT-4 según nuestra preferencia de usuario! ¿Su velocidad, capacidades y duración del contexto no tienen comparación actualmente en el mercado?

Congrats @AntrópicoAI ¡Sobre el increíble lanzamiento de Claude-3!

Más emocionante… pic.twitter.com/p1Guuf0B3K
— lmsys.org (@lmsysorg) Marzo 26, 2024

Sin embargo, LYMSYS Chatbot Arena no es perfecto. Los resultados de la evaluación comparativa que muestra se basan en el voto de la gente. Así, los resultados se actualizaron tras 70 nuevos votos. Entonces, en teoría, una mejor puntuación debería indicar que el resultado general del modelo de IA fue mejor. Pero muchas veces, la calidad del resultado depende de quién lo esté viendo. Los usuarios también se quejan de que GPT-4 no se carga correctamente en Chatbot Arena (a través de guía de tom). A pesar de eso, OpenAI mantuvo la primera posición todos estos años hasta que fue desbancado por Claude 3 Opus hace unas horas.

Si bien una clasificación de Arena actualizada probablemente generará más interés en los modelos de IA de Anthropic, OpenAI tiene planes de lanzar GPT-5 este verano, que se dice que es "materialmente mejor". Si ese resulta ser el caso, es probable que OpenAI recupere su primera posición en la clasificación de Arena.

Más sobre los temas: Antrópico, Claude 3 Opus, GPT-4

Rahul

Periodista de tecnología

Rahul es un periodista tecnológico con años de experiencia en la cobertura de software, principalmente Windows y Android. También le encanta compartir sus opiniones sobre diversos temas tecnológicos.

Claude 3 Opus vence a GPT-4 y se convierte en el número uno

Deje un comentario