Microsoft и NVIDIA анонсируют самую большую и мощную языковую модель, обученную на сегодняшний день
1 минута. читать
Опубликовано
Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее
Сегодня Microsoft и NVIDIA анонсировали модель Megatron-Turing Natural Language Generation (MT-NLG) на базе DeepSpeed и Megatron, самую большую и мощную модель монолитного языка-трансформера, обученную на сегодняшний день. Эта модель включает 530 миллиардов параметров, что в 3 раза превышает количество параметров по сравнению с существующей крупнейшей моделью GPT-3. Обучение такой большой модели связано с различными проблемами. NVIDIA и Microsoft работали над многими инновациями и прорывами по всем направлениям ИИ.
Например, тесно сотрудничая, NVIDIA и Microsoft добились беспрецедентной эффективности обучения, объединив современную инфраструктуру обучения с ускорением на графическом процессоре с передовым стеком программного обеспечения для распределенного обучения. Мы создали высококачественные корпуса для обучения естественному языку с сотнями миллиардов токенов и совместно разработали рецепты обучения для повышения эффективности и стабильности оптимизации.
Вы можете узнать больше об этом проекте по ссылкам ниже.