El próximo modelo Llama-3 400B de Meta podría vencer al GPT-4 Turbo y al Claude 3 Opus

No los supera, pero tiene potencial.

Icono de tiempo de lectura 2 minuto. leer

Icono de calendario Publicado el Abril 19, 2024

Publicado en Abril 19, 2024

Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces.

Notas clave

Meta presenta Llama-3, su modelo hasta ahora más potente con parámetros 700B
Llama-3 muestra potencial de mejora a pesar de estar en fase de entrenamiento
Números recientes sugieren que está cerca de Claude 3 Opus y GPT-4 Turbo en los puntos de referencia

Meta está listo para lanzar su modelo de IA más poderoso hasta ahora, el Llama-3 con parámetros 400B. En su anuncio El jueves, el modelo de código abierto pronto impulsará la herramienta asistente Meta AI que llegará a WhatsApp e Instagram.

Pero la verdad es que actualmente existen muchos modelos de IA potentes en el mercado. GPT-4 Turbo con una ventana de contexto de 128k de OpenAI existe desde hace bastante tiempo, y Claude 3 Opus de Anthropic es ahora disponible en Amazon Bedrock.

Entonces, ¿cómo se comparan estos modelos entre sí, según varios puntos de referencia? A continuación se muestra una comparación de cómo se probaron estos potentes modelos en varias opciones. Estas cifras están tomadas de información disponible públicamente y los de Meta anuncio.

	Llama 3 400B	Claude 3 Opus	GPT-4 Turbo	Géminis Ultra 1.0	Géminis Pro 1.5
MMLU	86.1	86.8	86.5	83.7	81.9
GPQA	48	50.4	49.1	–	–
evaluación humana	84.1	84.9	87.6	74.4	71.9
MATEMÁTICAS	57.8	60.1	72.2	53.2	58.5

Como puede ver, Llama-3 400B en realidad se queda un poco corto en estos puntos de referencia, con una puntuación de 86.1 en MMLU, 48 en GPQA, 84.1 en HumanEval y 57.8 en MATH.

Pero, dado que todavía se encuentra en la fase de entrenamiento, existe una buena posibilidad de realizar grandes mejoras una vez que esté completamente implementado. Y para un modelo de código abierto, eso es mucho más que impresionante.

MMLU prueba qué tan bien los modelos entienden diferentes temas sin enseñarlos directamente, cubriendo una amplia gama de temas. GPQA, por otro lado, clasifica los modelos según su desempeño en biología, física y química, mientras que HumanEval se centra en cómo codifican.

Rafly Gilang

Reportero técnico

Rafly es un reportero con años de experiencia periodística, que abarca desde tecnología, negocios, redes sociales y cultura. Actualmente informa noticias sobre productos, tecnología e inteligencia artificial relacionados con Microsoft en Windows Report y MSPowerUser. ¿Tienes un consejo? envíalo a [email protected].

Deje un comentario