Microsoft DeBERTa перевершує слабких людей у ​​тесті SuperGlue на розуміння прочитаного

Значок часу читання 2 хв. читати


Читачі допомагають підтримувати MSpoweruser. Ми можемо отримати комісію, якщо ви купуєте через наші посилання. Значок підказки

Прочитайте нашу сторінку розкриття інформації, щоб дізнатися, як ви можете допомогти MSPoweruser підтримувати редакційну команду Читати далі

Microsoft Project OneFuzz

Останнім часом спостерігається величезний прогрес у навчальних мережах з мільйонами параметрів. Корпорація Майкрософт нещодавно оновила модель DeBERTa (Decoding-enhanced BERT with disentansed attention) шляхом навчання більшої версії, яка складається з 48 шарів Transformer з 1.5 мільярдами параметрів. Значне підвищення продуктивності робить єдину модель DeBERTa вперше перевершує людську продуктивність при обробці та розумінні мови SuperGLUE з точки зору середнього результату (89.9 проти 89.8), перевершуючи базовий рівень людини з пристойним відривом (90.3 проти 89.8). . Тест SuperGLUE складається з широкого спектру завдань на розуміння природної мови, включаючи відповіді на запитання, умовивід природної мови. Модель також займає перше місце в рейтингу тестів GLUE із середнім макросереднім балом 90.8.

DeBERTa покращує попередні сучасні PLM-системи (наприклад, BERT, RoBERTa, UniLM) за допомогою трьох нових методів: механізму роз'єднаної уваги, покращеного декодера маски та методу віртуального змагального навчання для точного налаштування.

Порівняно з моделлю T5 від Google, яка складається з 11 мільярдів параметрів, DeBERTa з 1.5 мільярдами параметрів є набагато більш енергоефективним у навчанні та обслуговуванні, його легше стискати та розгортати в додатках із різними налаштуваннями.

Перевершення DeBERTa продуктивності людини на SuperGLUE знаменує собою важливу віху на шляху до загального ШІ. Незважаючи на багатообіцяючі результати на SuperGLUE, модель аж ніяк не досягає рівня людського інтелекту NLU. Люди надзвичайно добре вміють використовувати знання, отримані під час виконання різних завдань, для вирішення нового завдання без демонстрації конкретного завдання або з невеликою кількістю демонстрацій.

Корпорація Майкрософт інтегрує цю технологію в наступну версію моделі представлення природної мови Microsoft Turing, яка використовується в таких місцях, як Bing, Office, Dynamics і Azure Cognitive Services, забезпечуючи широкий спектр сценаріїв, що передбачають взаємодію людина-машина та людина-людина через природна мова (наприклад, чат-бот, рекомендація, відповідь на запитання, пошук, особиста допомога, автоматизація підтримки клієнтів, генерація контенту тощо). Крім того, Microsoft випустить для громадськості модель DeBERTa з 1.5 мільярдами параметрів і вихідний код.

Прочитайте всі подробиці в Microsoft тут.

Детальніше про теми: ai, Microsoft

залишити коментар

Ваша електронна адреса не буде опублікований. Обов'язкові поля позначені * *