Microsoft와 NVIDIA, 지금까지 훈련된 가장 크고 강력한 언어 모델 발표

독서 시간 아이콘 1 분. 읽다


독자들은 MSpoweruser를 지원하는 데 도움을 줍니다. 당사의 링크를 통해 구매하시면 수수료를 받을 수 있습니다. 툴팁 아이콘

공개 페이지를 읽고 MSPoweruser가 편집팀을 유지하는 데 어떻게 도움을 줄 수 있는지 알아보세요. 자세히 보기

마이크로소프트 엔비디아

마이크로소프트 엔비디아

Microsoft와 NVIDIA는 오늘 현재까지 훈련된 가장 크고 강력한 모놀리식 변환기 언어 모델인 DeepSpeed ​​및 Megatron 기반 Megatron-Turing MT-NLG(자연어 생성 모델)를 발표했습니다. 이 모델은 기존 최대 모델인 GPT-530에 비해 3배 많은 3억 개의 파라미터를 포함하고 있다. 이러한 대규모 모델을 훈련시키는 데는 다양한 문제가 수반됩니다. NVIDIA와 Microsoft는 모든 AI 축을 따라 많은 혁신과 돌파구를 마련했습니다.

예를 들어, NVIDIA와 Microsoft는 긴밀하게 협력하여 최첨단 GPU 가속 교육 인프라를 최첨단 분산 학습 소프트웨어 스택과 통합하여 전례 없는 교육 효율성을 달성했습니다. 우리는 수천억 개의 토큰을 사용하여 고품질의 자연어 교육 자료를 구축하고 최적화 효율성과 안정성을 개선하기 위해 교육 레시피를 공동 개발했습니다.

아래 링크에서 이 프로젝트에 대해 자세히 알아볼 수 있습니다.

출처: Microsoft, 엔비디아

주제에 대한 추가 정보: 마이크로 소프트, NVIDIA

댓글을 남겨주세요.

귀하의 이메일 주소는 공개되지 않습니다. *표시항목은 꼭 기재해 주세요. *