Microsoft DeBERTa превзошла хилых людей в тесте на понимание прочитанного SuperGlue
2 минута. читать
Опубликовано
Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее
Недавно был достигнут значительный прогресс в обучении сетей с миллионами параметров. Microsoft недавно обновила модель DeBERTa (BERT с расширенным декодированием и распутанным вниманием), обучив более крупную версию, которая состоит из 48 слоев Transformer с 1.5 миллиардами параметров. Благодаря значительному повышению производительности единая модель DeBERTa впервые превзошла человеческую производительность при обработке и понимании языка SuperGLUE с точки зрения среднего макро-балла (89.9 против 89.8), значительно превзойдя базовый уровень человека (90.3 против 89.8). . Тест SuperGLUE состоит из широкого круга задач на понимание естественного языка, включая ответы на вопросы и вывод на естественном языке. Модель также находится на вершине рейтинга GLUE со средним макро-баллом 90.8.
DeBERTa улучшает предыдущие современные PLM (например, BERT, RoBERTa, UniLM), используя три новых метода: механизм распутанного внимания, усовершенствованный декодер маски и метод виртуального состязательного обучения для тонкой настройки.
По сравнению с моделью Google T5, состоящей из 11 миллиардов параметров, модель DeBERTa с 1.5 миллиардами параметров гораздо более энергоэффективна для обучения и обслуживания, а также ее легче сжимать и развертывать в приложениях с различными настройками.
DeBERTa, превзошедший возможности человека в SuperGLUE, знаменует собой важную веху на пути к общему ИИ. Несмотря на многообещающие результаты по SuperGLUE, модель ни в коем случае не достигает человеческого уровня интеллекта NLU. Люди очень хорошо умеют использовать знания, полученные в ходе выполнения различных задач, для решения новой задачи без демонстрации конкретной задачи или с небольшой ее демонстрацией.
Microsoft интегрирует эту технологию в следующую версию модели представления естественного языка Microsoft Turing, используемой в таких местах, как Bing, Office, Dynamics и Azure Cognitive Services, обеспечивая широкий спектр сценариев, включающих взаимодействие человека с машиной и человека с человеком через естественный язык (например, чат-бот, рекомендации, ответы на вопросы, поиск, личная помощь, автоматизация поддержки клиентов, генерация контента и другие). Кроме того, Microsoft опубликует модель DeBERTa с 1.5 миллиардами параметров и исходный код.
Прочтите все подробности в Microsoft здесь.