Microsoft y NVIDIA anuncian el modelo de lenguaje más grande y poderoso entrenado hasta la fecha

Icono de tiempo de lectura 1 minuto. leer


Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces. Icono de información sobre herramientas

Lea nuestra página de divulgación para descubrir cómo puede ayudar a MSPoweruser a sostener el equipo editorial. Leer más

microsoft nvidia

microsoft nvidia

Microsoft y NVIDIA anunciaron hoy el modelo Megatron-Turing Natural Language Generation (MT-NLG) impulsado por DeepSpeed ​​y Megatron, el modelo de lenguaje transformador monolítico más grande y poderoso entrenado hasta la fecha. Este modelo incluye 530 mil millones de parámetros, 3 veces la cantidad de parámetros en comparación con el modelo más grande existente, GPT-3. Entrenar un modelo tan grande implica varios desafíos. NVIDIA y Microsoft trabajaron en muchas innovaciones y avances en todos los ejes de IA.

Por ejemplo, trabajando en estrecha colaboración, NVIDIA y Microsoft lograron una eficiencia de capacitación sin precedentes al hacer converger una infraestructura de capacitación acelerada por GPU de última generación con una pila de software de aprendizaje distribuido de vanguardia. Creamos corpus de capacitación en lenguaje natural de alta calidad con cientos de miles de millones de tokens y desarrollamos conjuntamente recetas de capacitación para mejorar la eficiencia y la estabilidad de la optimización.

Puede obtener más información sobre este proyecto en los enlaces a continuación.

Fuente: Microsoft, Nvidia

Más sobre los temas: microsoft, nvidia

Deje un comentario

Su dirección de correo electrónico no será publicada. Las areas obligatorias están marcadas como requeridas *