Microsoft анонсирует Azure Databricks для высокопроизводительных проектов потоковой аналитики
3 минута. читать
Опубликовано
Прочтите нашу страницу раскрытия информации, чтобы узнать, как вы можете помочь MSPoweruser поддержать редакционную команду. Читать далее
Databricks предоставляет унифицированную аналитическую платформу для групп специалистов по обработке и анализу данных, с помощью которой они могут сотрудничать с инженерами данных и подразделениями бизнеса для создания продуктов данных. Сегодня на мероприятии для разработчиков Connect() Microsoft объявило новый Служба Azure Databricks для высокопроизводительных проектов потоковой аналитики. Над созданием этой новой службы Microsoft работала с основателями Apache Spark. Azure Databricks — это аналитическая платформа на основе Apache Spark, которая обеспечивает настройку одним щелчком мыши, оптимизированные рабочие процессы и интерактивную рабочую область. Azure Databricks также имеет встроенную интеграцию с хранилищем данных SQL Azure, хранилищем Azure, Azure Cosmos DB, Azure Active Directory и Power BI. Читайте об этой интеграции ниже.
- Разнообразие типов виртуальных машин: клиенты могут использовать все существующие виртуальные машины, включая серию F для сценариев машинного обучения, серию M для сценариев с большим объемом памяти, серию D для общего назначения и т. д.
- Безопасность и конфиденциальность. В Azure владение данными и контроль над ними принадлежат клиенту. Мы создали Azure Databricks в соответствии с этими стандартами. Мы стремимся к тому, чтобы Azure Databricks предоставлял все сертификаты соответствия, которых придерживается остальная часть Azure.
- Гибкость сетевой топологии. У клиентов есть разнообразные потребности в сетевой инфраструктуре. Azure Databricks поддерживает развертывание в клиентских виртуальных сетях, которые могут контролировать доступ к источникам и приемникам и способ доступа к ним.
- Интеграция службы хранилища Azure и Azure Data Lake. Эти службы хранилища доступны пользователям Databricks через DBFS для обеспечения кэширования и оптимизированного анализа существующих данных.
- Azure Power BI: пользователи могут подключать Power BI напрямую к своим кластерам Databricks с помощью JDBC, чтобы интерактивно запрашивать данные в больших масштабах с помощью знакомых инструментов.
- Azure Active Directory обеспечивает контроль доступа к ресурсам и уже используется на большинстве предприятий. Рабочие области Azure Databricks развертываются в клиентских подписках, поэтому, естественно, AAD можно использовать для управления доступом к источникам, результатам и заданиям.
- Хранилище данных SQL Azure, база данных SQL Azure и Azure CosmosDB: Azure Databricks легко и эффективно загружает результаты в эти службы для дальнейшего анализа и обслуживания в режиме реального времени, что упрощает создание комплексных архитектур данных в Azure.
- Внутри мы используем службы контейнеров Azure для запуска плоскости управления Azure Databricks и плоскостей данных через контейнеры.
- Accelerated Networking обеспечивает самую быструю виртуализированную сетевую инфраструктуру в облаке. Azure Databricks использует это для дальнейшего повышения производительности Spark.
- Аппаратное обеспечение Azure последнего поколения (виртуальные машины Dv3) с твердотельными накопителями NvMe, обеспечивающими молниеносную задержку в 100 мкс при вводе-выводе. Это делает производительность ввода-вывода Databricks еще лучше.
В связи с этим Microsoft сегодня объявила, что они присоединяются к MariaDB Foundation в качестве платинового члена. Вскоре они выпустят предварительную версию базы данных Azure для MariaDB для полностью управляемой службы MariaDB в облаке. Они также объявили, что Apache Cassandra API поддерживает Cosmos DB. Они будут предлагать Cassandra в качестве услуги по глобальному распределению «под ключ», нескольким уровням согласованности и лучшим в отрасли соглашениям об уровне обслуживания.