Microsoft e NVIDIA anunciam o maior e mais poderoso modelo de linguagem treinado até hoje

Ícone de tempo de leitura 1 minutos. ler

Ícone do calendário Publicado em 11 de outubro de 2021

publicado em 11 de outubro de 2021

Os leitores ajudam a oferecer suporte ao MSpoweruser. Podemos receber uma comissão se você comprar através de nossos links.

A Microsoft e a NVIDIA anunciaram hoje o modelo Megatron-Turing Natural Language Generation (MT-NLG) baseado em DeepSpeed e Megatron, o maior e mais poderoso modelo de linguagem de transformador monolítico treinado até hoje. Este modelo inclui 530 bilhões de parâmetros, 3x o número de parâmetros em comparação com o maior modelo existente, GPT-3. O treinamento de um modelo tão grande envolve vários desafios. A NVIDIA e a Microsoft trabalharam em muitas inovações e avanços em todos os eixos de IA.

Por exemplo, trabalhando em conjunto, a NVIDIA e a Microsoft alcançaram uma eficiência de treinamento sem precedentes ao convergir uma infraestrutura de treinamento acelerada por GPU de última geração com uma pilha de software de aprendizado distribuído de ponta. Construímos corpora de treinamento de linguagem natural de alta qualidade com centenas de bilhões de tokens e receitas de treinamento co-desenvolvidas para melhorar a eficiência e a estabilidade da otimização.

Você pode saber mais sobre este projeto nos links abaixo.

Fonte: Microsoft, Nvidia

Mais sobre os tópicos: microsoft, nvidia

Pradeep Viswav

Especialista em Software e Serviços

Pradeep é graduado em Ciência da Computação e Engenharia. Ele também foi um parceiro estudantil da Microsoft. Atualmente, ele trabalha em uma empresa líder de TI.

Deixe um comentário