El próximo modelo Llama-3 400B de Meta podría vencer al GPT-4 Turbo y al Claude 3 Opus
No los supera, pero tiene potencial.
2 minuto. leer
Publicado el
Lea nuestra página de divulgación para descubrir cómo puede ayudar a MSPoweruser a sostener el equipo editorial. Más información
Notas clave
- Meta presenta Llama-3, su modelo hasta ahora más potente con parámetros 700B
- Llama-3 muestra potencial de mejora a pesar de estar en fase de entrenamiento
- Números recientes sugieren que está cerca de Claude 3 Opus y GPT-4 Turbo en los puntos de referencia
Meta está listo para lanzar su modelo de IA más poderoso hasta ahora, el Llama-3 con parámetros 400B. En su anuncio El jueves, el modelo de código abierto pronto impulsará la herramienta asistente Meta AI que llegará a WhatsApp e Instagram.
Pero la verdad es que actualmente existen muchos modelos de IA potentes en el mercado. GPT-4 Turbo con una ventana de contexto de 128k de OpenAI existe desde hace bastante tiempo, y Claude 3 Opus de Anthropic es ahora disponible en Amazon Bedrock.
Entonces, ¿cómo se comparan estos modelos entre sí, según varios puntos de referencia? A continuación se muestra una comparación de cómo se probaron estos potentes modelos en varias opciones. Estas cifras están tomadas de información disponible públicamente y los de Meta anuncio.
Llama 3 400B | Claude 3 Opus | GPT-4 Turbo | Géminis Ultra 1.0 | Géminis Pro 1.5 | |
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | – | – |
evaluación humana | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
MATEMÁTICAS | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
Como puede ver, Llama-3 400B en realidad se queda un poco corto en estos puntos de referencia, con una puntuación de 86.1 en MMLU, 48 en GPQA, 84.1 en HumanEval y 57.8 en MATH.
Pero, dado que todavía se encuentra en la fase de entrenamiento, existe una buena posibilidad de realizar grandes mejoras una vez que esté completamente implementado. Y para un modelo de código abierto, eso es mucho más que impresionante.
MMLU prueba qué tan bien los modelos entienden diferentes temas sin enseñarlos directamente, cubriendo una amplia gama de temas. GPQA, por otro lado, clasifica los modelos según su desempeño en biología, física y química, mientras que HumanEval se centra en cómo codifican.
Foro de usuarios
mensajes de 0