Microsoft y NVIDIA anuncian el modelo de lenguaje más grande y poderoso entrenado hasta la fecha

Icono de tiempo de lectura 1 minuto. leer

Icono de calendario Publicado el 11 de Octubre de 2021

Publicado en 11 de Octubre de 2021

Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces.

Microsoft y NVIDIA anunciaron hoy el modelo Megatron-Turing Natural Language Generation (MT-NLG) impulsado por DeepSpeed y Megatron, el modelo de lenguaje transformador monolítico más grande y poderoso entrenado hasta la fecha. Este modelo incluye 530 mil millones de parámetros, 3 veces la cantidad de parámetros en comparación con el modelo más grande existente, GPT-3. Entrenar un modelo tan grande implica varios desafíos. NVIDIA y Microsoft trabajaron en muchas innovaciones y avances en todos los ejes de IA.

Por ejemplo, trabajando en estrecha colaboración, NVIDIA y Microsoft lograron una eficiencia de capacitación sin precedentes al hacer converger una infraestructura de capacitación acelerada por GPU de última generación con una pila de software de aprendizaje distribuido de vanguardia. Creamos corpus de capacitación en lenguaje natural de alta calidad con cientos de miles de millones de tokens y desarrollamos conjuntamente recetas de capacitación para mejorar la eficiencia y la estabilidad de la optimización.

Puede obtener más información sobre este proyecto en los enlaces a continuación.

Fuente: Microsoft, Nvidia

Más sobre los temas: microsoft, nvidia

Pradeep Viswav

Experto en Software y Servicios

Pradeep es un graduado en ingeniería y ciencias de la computación. También fue socio estudiantil de Microsoft. Actualmente trabaja en una empresa líder en TI.

Deje un comentario