El próximo modelo Llama-3 400B de Meta podría vencer al GPT-4 Turbo y al Claude 3 Opus

No los supera, pero tiene potencial.

Icono de tiempo de lectura 2 minuto. leer


Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces. Icono de información sobre herramientas

Lea nuestra página de divulgación para descubrir cómo puede ayudar a MSPoweruser a sostener el equipo editorial. Más información

Notas clave

  • Meta presenta Llama-3, su modelo hasta ahora más potente con parámetros 700B
  • Llama-3 muestra potencial de mejora a pesar de estar en fase de entrenamiento
  • Números recientes sugieren que está cerca de Claude 3 Opus y GPT-4 Turbo en los puntos de referencia
Compañía meta

Meta está listo para lanzar su modelo de IA más poderoso hasta ahora, el Llama-3 con parámetros 400B. En su anuncio El jueves, el modelo de código abierto pronto impulsará la herramienta asistente Meta AI que llegará a WhatsApp e Instagram. 

Pero la verdad es que actualmente existen muchos modelos de IA potentes en el mercado. GPT-4 Turbo con una ventana de contexto de 128k de OpenAI existe desde hace bastante tiempo, y Claude 3 Opus de Anthropic es ahora disponible en Amazon Bedrock.

Entonces, ¿cómo se comparan estos modelos entre sí, según varios puntos de referencia? A continuación se muestra una comparación de cómo se probaron estos potentes modelos en varias opciones. Estas cifras están tomadas de información disponible públicamente y los de Meta anuncio.

Llama 3 400BClaude 3 OpusGPT-4 TurboGéminis Ultra 1.0Géminis Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1
evaluación humana84.184.987.674.471.9
MATEMÁTICAS57.860.172.253.258.5

Como puede ver, Llama-3 400B en realidad se queda un poco corto en estos puntos de referencia, con una puntuación de 86.1 en MMLU, 48 en GPQA, 84.1 en HumanEval y 57.8 en MATH. 

Pero, dado que todavía se encuentra en la fase de entrenamiento, existe una buena posibilidad de realizar grandes mejoras una vez que esté completamente implementado. Y para un modelo de código abierto, eso es mucho más que impresionante. 

MMLU prueba qué tan bien los modelos entienden diferentes temas sin enseñarlos directamente, cubriendo una amplia gama de temas. GPQA, por otro lado, clasifica los modelos según su desempeño en biología, física y química, mientras que HumanEval se centra en cómo codifican. 

Foro de usuarios

mensajes de 0