¿Cómo se compara el modelo de código abierto OpenELM de Apple con el Phi-3 de Microsoft, en cuanto a parámetros?

¿Coincidencia?

Icono de tiempo de lectura 2 minuto. leer

Icono de calendario Publicado el Abril 24, 2024

Publicado en Abril 24, 2024

Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces.

Notas clave

Apple lanzó OpenELM en HuggingFace con ocho variantes.
Cada modelo viene con diferentes parámetros: 270 millones, 450 millones, 1.1 mil millones y 3 mil millones.
El modelo Phi-3 de Microsoft, por otro lado, incluye versiones con 3.8 mil millones, 7 mil millones y 14 mil millones de parámetros.

Poco después de que Microsoft lanzara el familia phi-3, un conjunto de modelos pequeños de código abierto diseñados para un uso más ligero, Apple se unió al tren. Los fabricantes de iPhone han lanzado (silenciosamente) OpenELM, su último modelo de inteligencia artificial de código abierto.

OpenELM, abreviatura de Open-source Efficient Language Models, viene en ocho variantes, cada una pre-entrenado y sintonizado con instrucciones obtiene cuatro. Los investigadores de Apple dijo que el modelo utiliza una estrategia de escalamiento por capas para distribuir eficientemente los parámetros dentro de cada capa del modelo del transformador, y puede usar estos modelos en AbrazandoCara.

"Por ejemplo, con un presupuesto de parámetros de aproximadamente mil millones de parámetros, OpenELM muestra una mejora del 2.36% en la precisión en comparación con OLMo y requiere 2 veces menos tokens de preentrenamiento", se lee en la documentación.

En cuanto a sus tamaños, cada modelo viene con parámetros diferentes: 270 millones, 450 millones, 1.1 mil millones y 3 mil millones. Y aunque no siempre es el mejor estándar de medición, los parámetros de los modelos de IA siempre son el comienzo para compararlos.

Francamente, OpenELM no es tan impresionante (en cuanto a parámetros) como otros modelos de código abierto: llamas 3, que impulsa Meta AI, viene con un recuento máximo de parámetros de 70 mil millones, y Mixtral, respaldado por Microsoft, lanzó su modelo 8x22B con parámetros 176B.

Phi-3-mini, la versión más pequeña del modelo Phi-3 de Microsoft, tiene 3.8 millones de parámetros y fue entrenado durante una semana utilizando las GPU H100 de Nvidia. En comparación, la versión mediana tiene 14 mil millones de parámetros y la versión pequeña tiene 7 mil millones de parámetros.

Rafly Gilang

Reportero técnico

Rafly es un reportero con años de experiencia periodística, que abarca desde tecnología, negocios, redes sociales y cultura. Actualmente informa noticias sobre productos, tecnología e inteligencia artificial relacionados con Microsoft en Windows Report y MSPowerUser. ¿Tienes un consejo? envíalo a [email protected].