Наконец-то появились новые языковые модели DBRX с открытым исходным кодом от Databricks стоимостью 10 миллионов долларов.

Для модели с открытым исходным кодом, стоимость обучения которой составляет 10 миллионов долларов и два месяца обучения, это впечатляет.

Значок времени чтения 2 минута. читать


Читатели помогают поддержать MSpoweruser. Мы можем получить комиссию, если вы совершите покупку по нашим ссылкам. Значок подсказки

Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее

Ключевые заметки

  • Databricks запускает DBRX, свой набор генеративных моделей искусственного интеллекта на GitHub и Hugging Face.
  • DBRX включает DBRX Base для задач на основе инструкций и DBRX Instruct для настройки.
  • Для работы требуется мощное оборудование, и он превосходит другие модели, такие как GPT-3.5.

Databricks совсем недавно объявила, что это запуск DBRX, набор генеративных моделей искусственного интеллекта, который теперь доступен на GitHub и Hugging Face. Он предварительно обучен на токенах 12T, использует GLU и GQA и не является мультимодальным (не может запускать изображения).

Модель имеет две версии: DBRX Base, оптимизированную для задач, основанных на инструкциях, и DBRX Instruct, предварительно обученную модель, подходящую для дальнейшей настройки. Модель параметров 132B имеет открытый исходный код и доступна на английском языке, хотя утверждается, что ее можно переводить также на французский, немецкий и испанский языки.

Об этом сообщил вице-президент Databricks по генеративному искусственному интеллекту Навин Рао. TechCrunch интервью о том, что компания вложила 10 миллионов долларов и два месяца в обучение моделей. Но загвоздка в том, что для работы этих моделей требуется мощное оборудование, например, как минимум 4 графических процессора Nvidia H100 или эквивалентных, общим объемом памяти 320 ГБ, или стороннее облако с более или менее схожими требованиями. 

Согласно его пресс-релизе, DBRX утверждает, что он может превзойти существующие модели с открытым исходным кодом, такие как LLaMA2-70B, GPT-3.5, Mixtral и Грок-1 по определенным вещам, таким как математика, логика и многое другое. Вы можете заставить их работать напрямую с обслуживанием модели Databricks или дополнительно настроить их для конкретных нужд, поскольку они лицензированы для использования с лицензией открытой модели Databricks. 

Их можно развернуть непосредственно в Databricks Model Serving или использовать для точной настройки и пакетного вывода.

Вы можете попробовать модели Databricks DBRX с открытым исходным кодом. здесь.