Microsoft i NVIDIA ogłaszają największy i najpotężniejszy model językowy wyszkolony do tej pory

Ikona czasu czytania 1 minuta. czytać

Ikona kalendarza Opublikowany 11 października 2021 r.

opublikowane w dniu 11 października 2021 r.

Czytelnicy pomagają wspierać MSpoweruser. Możemy otrzymać prowizję, jeśli dokonasz zakupu za pośrednictwem naszych linków.

Microsoft i NVIDIA ogłosiły dzisiaj model Megatron-Turing Natural Language Generation (MT-NLG) oparty na technologii DeepSpeed i Megatron, największy i najpotężniejszy model monolitycznego języka transformatora, jaki został do tej pory przeszkolony. Model ten zawiera 530 miliardów parametrów, czyli 3 razy więcej parametrów w porównaniu z istniejącym największym modelem GPT-3. Szkolenie tak dużego modelu wiąże się z różnymi wyzwaniami. NVIDIA i Microsoft pracowały nad wieloma innowacjami i przełomami we wszystkich osiach AI.

Na przykład, ściśle współpracując, firmy NVIDIA i Microsoft osiągnęły bezprecedensową wydajność szkolenia, łącząc najnowocześniejszą infrastrukturę szkoleniową akcelerowaną przez GPU z najnowocześniejszym stosem oprogramowania do rozproszonego uczenia się. Zbudowaliśmy wysokiej jakości korpusy szkoleniowe języka naturalnego z setkami miliardów tokenów i wspólnie opracowaliśmy przepisy szkoleniowe, aby poprawić wydajność i stabilność optymalizacji.

Możesz dowiedzieć się więcej o tym projekcie z poniższych linków.

Źródło: Microsoft, Nvidia

Więcej na tematy: Microsoft, nvidia

Pradeepa Viswava

Ekspert ds. oprogramowania i usług

Pradeep jest absolwentem informatyki i inżynierii. Był także partnerem studenckim firmy Microsoft. Obecnie pracuje w wiodącej firmie informatycznej.

Dodaj komentarz