Microsoft와 NVIDIA, 지금까지 훈련된 가장 크고 강력한 언어 모델 발표

독서 시간 아이콘 1 분. 읽다

달력 아이콘 에 게시됨 2021 년 10 월 11 일

에 게시 2021 년 10 월 11 일

독자들은 MSpoweruser를 지원하는 데 도움을 줍니다. 당사의 링크를 통해 구매하시면 수수료를 받을 수 있습니다.

Microsoft와 NVIDIA는 오늘 현재까지 훈련된 가장 크고 강력한 모놀리식 변환기 언어 모델인 DeepSpeed 및 Megatron 기반 Megatron-Turing MT-NLG(자연어 생성 모델)를 발표했습니다. 이 모델은 기존 최대 모델인 GPT-530에 비해 3배 많은 3억 개의 파라미터를 포함하고 있다. 이러한 대규모 모델을 훈련시키는 데는 다양한 문제가 수반됩니다. NVIDIA와 Microsoft는 모든 AI 축을 따라 많은 혁신과 돌파구를 마련했습니다.

예를 들어, NVIDIA와 Microsoft는 긴밀하게 협력하여 최첨단 GPU 가속 교육 인프라를 최첨단 분산 학습 소프트웨어 스택과 통합하여 전례 없는 교육 효율성을 달성했습니다. 우리는 수천억 개의 토큰을 사용하여 고품질의 자연어 교육 자료를 구축하고 최적화 효율성과 안정성을 개선하기 위해 교육 레시피를 공동 개발했습니다.

아래 링크에서 이 프로젝트에 대해 자세히 알아볼 수 있습니다.

출처: Microsoft, 엔비디아

주제에 대한 추가 정보: 마이크로 소프트, NVIDIA

프라딥 비스와브

소프트웨어 및 서비스 전문가

Pradeep은 컴퓨터 과학 및 공학 졸업생입니다. 그는 또한 Microsoft 학생 파트너이기도 했습니다. 그는 현재 선도적인 IT 기업에 근무하고 있습니다.

댓글을 남겨주세요.