Los nuevos modelos de lenguaje de código abierto DBRX valorados en 10 millones de dólares de Databricks finalmente están aquí

Para un modelo de código abierto que costó 10 millones de dólares y 2 meses de entrenamiento, es impresionante.

Icono de tiempo de lectura 2 minuto. leer


Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces. Icono de información sobre herramientas

Lea nuestra página de divulgación para descubrir cómo puede ayudar a MSPoweruser a sostener el equipo editorial. Leer más

Notas clave

  • Databricks lanza DBRX, su conjunto de modelos de IA generativa en GitHub y Hugging Face.
  • DBRX incluye DBRX Base para tareas basadas en instrucciones y DBRX Instruct para personalización.
  • Requiere hardware potente para funcionar y supera a otros modelos como GPT-3.5.

Databricks acaba de anunciar recientemente que es lanzando DBRX, su conjunto de modelos de IA generativa que ahora está disponible en GitHub y Hugging Face. Está previamente entrenado en tokens 12T, usa GLU y GQA y no es multimodal (no puede ejecutar imágenes).

El modelo tiene dos versiones, DBRX Base, optimizado para tareas basadas en instrucciones, y DBRX Instruct, un modelo previamente entrenado adecuado para una mayor personalización. El modelo de parámetros 132B es de código abierto y está disponible en inglés, aunque afirma ser capaz de traducirse también al francés, alemán y español.

El vicepresidente de IA generativa de Databricks, Naveen Rao, reveló en un TechCrunch entrevista que la empresa invirtió 10 millones de dólares y dos meses en la formación de los modelos. Pero el problema es que ejecutar estos modelos requiere un hardware considerable, como un mínimo de 4 GPU Nvidia H100 o equivalente, con un total de 320 GB de memoria, o una nube de terceros con requisitos más o menos similares. 

De acuerdo con su comunicado de prensa, DBRX afirma que puede superar a los modelos de código abierto existentes como LLaMA2-70B, GPT-3.5, Mixtral y Grok-1 sobre ciertas cosas como matemáticas, lógica y más. Puede ponerlos a trabajar directamente con Databricks Model Serving o personalizarlos aún más para necesidades específicas, ya que tienen licencia para su uso con la licencia de modelo abierto de Databricks. 

Se pueden implementar directamente en Databricks Model Serving o utilizarse con fines de ajuste e inferencia por lotes.

Puede probar los modelos de código abierto DBRX de Databricks esta página.