Microsoft e NVIDIA anunciam o maior e mais poderoso modelo de linguagem treinado até hoje
1 minutos. ler
Publicado em
Leia nossa página de divulgação para descobrir como você pode ajudar o MSPoweruser a sustentar a equipe editorial Saiba mais
A Microsoft e a NVIDIA anunciaram hoje o modelo Megatron-Turing Natural Language Generation (MT-NLG) baseado em DeepSpeed e Megatron, o maior e mais poderoso modelo de linguagem de transformador monolítico treinado até hoje. Este modelo inclui 530 bilhões de parâmetros, 3x o número de parâmetros em comparação com o maior modelo existente, GPT-3. O treinamento de um modelo tão grande envolve vários desafios. A NVIDIA e a Microsoft trabalharam em muitas inovações e avanços em todos os eixos de IA.
Por exemplo, trabalhando em conjunto, a NVIDIA e a Microsoft alcançaram uma eficiência de treinamento sem precedentes ao convergir uma infraestrutura de treinamento acelerada por GPU de última geração com uma pilha de software de aprendizado distribuído de ponta. Construímos corpora de treinamento de linguagem natural de alta qualidade com centenas de bilhões de tokens e receitas de treinamento co-desenvolvidas para melhorar a eficiência e a estabilidade da otimização.
Você pode saber mais sobre este projeto nos links abaixo.
Fórum de usuários
Mensagens 0