¿Cómo se compara el modelo de código abierto OpenELM de Apple con el Phi-3 de Microsoft, en cuanto a parámetros?

¿Coincidencia?

Icono de tiempo de lectura 2 minuto. leer


Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces. Icono de información sobre herramientas

Lea nuestra página de divulgación para descubrir cómo puede ayudar a MSPoweruser a sostener el equipo editorial. Leer más

Notas clave

  • Apple lanzó OpenELM en HuggingFace con ocho variantes.
  • Cada modelo viene con diferentes parámetros: 270 millones, 450 millones, 1.1 mil millones y 3 mil millones.
  • El modelo Phi-3 de Microsoft, por otro lado, incluye versiones con 3.8 mil millones, 7 mil millones y 14 mil millones de parámetros.
Apple

Poco después de que Microsoft lanzara el familia phi-3, un conjunto de modelos pequeños de código abierto diseñados para un uso más ligero, Apple se unió al tren. Los fabricantes de iPhone han lanzado (silenciosamente) OpenELM, su último modelo de inteligencia artificial de código abierto. 

OpenELM, abreviatura de Open-source Efficient Language Models, viene en ocho variantes, cada una pre-entrenado y sintonizado con instrucciones obtiene cuatro. Los investigadores de Apple dijo que el modelo utiliza una estrategia de escalamiento por capas para distribuir eficientemente los parámetros dentro de cada capa del modelo del transformador, y puede usar estos modelos en AbrazandoCara.

"Por ejemplo, con un presupuesto de parámetros de aproximadamente mil millones de parámetros, OpenELM muestra una mejora del 2.36% en la precisión en comparación con OLMo y requiere 2 veces menos tokens de preentrenamiento", se lee en la documentación.

En cuanto a sus tamaños, cada modelo viene con parámetros diferentes: 270 millones, 450 millones, 1.1 mil millones y 3 mil millones. Y aunque no siempre es el mejor estándar de medición, los parámetros de los modelos de IA siempre son el comienzo para compararlos.

Francamente, OpenELM no es tan impresionante (en cuanto a parámetros) como otros modelos de código abierto: llamas 3, que impulsa Meta AI, viene con un recuento máximo de parámetros de 70 mil millones, y Mixtral, respaldado por Microsoft, lanzó su modelo 8x22B con parámetros 176B.

Phi-3-mini, la versión más pequeña del modelo Phi-3 de Microsoft, tiene 3.8 millones de parámetros y fue entrenado durante una semana utilizando las GPU H100 de Nvidia. En comparación, la versión mediana tiene 14 mil millones de parámetros y la versión pequeña tiene 7 mil millones de parámetros.