微軟宣布用於最高性能流分析項目的 Azure Databricks

閱讀時間圖標 3分鐘讀


讀者幫助支持 MSpoweruser。如果您透過我們的連結購買,我們可能會獲得佣金。 工具提示圖標

請閱讀我們的揭露頁面,了解如何幫助 MSPoweruser 維持編輯團隊的發展 阅读更多

Databricks 為數據科學團隊提供了一個統一的分析平台,以與數據工程和業務線協作以構建數據產品。 在今天的 Connect() 開發者活動中,微軟 宣布 新的 Azure Databricks 服務 用於最高性能的流分析項目。 Microsoft 與 Apache Spark 的創始人合作開發這項新服務。 Azure Databricks 是一個基於 Apache Spark 的分析平台,可提供一鍵式設置、簡化的工作流和交互式工作區。 Azure Databricks 還與 Azure SQL 數據倉庫、Azure 存儲、Azure Cosmos DB、Azure Active Directory 和 Power BI 進行了本機集成。 在下面閱讀有關此集成的信息。

  • 虛擬機類型的多樣性:客戶可以使用所有現有的虛擬機,包括用於機器學習場景的 F 系列、用於海量內存場景的 M 系列、用於通用目的的 D 系列等。
  • 安全性和隱私:在 Azure 中,數據的所有權和控制權屬於客戶。 我們構建了 Azure Databricks 以遵守這些標準。 我們的目標是讓 Azure Databricks 提供 Azure 其餘部分遵守的所有合規性認證。
  • 網絡拓撲的靈活性:客戶有各種各樣的網絡基礎設施需求。 Azure Databricks 支持客戶 VNET 中的部署,這可以控制可以訪問哪些源和接收器以及如何訪問它們。
  • Azure 存儲和 Azure Data Lake 集成:這些存儲服務通過 DBFS 向 Databricks 用戶公開,以提供對現有數據的緩存和優化分析。
  • Azure Power BI:用戶可以使用 JDBC 將 Power BI 直接連接到他們的 Databricks 集群,以便使用熟悉的工具以大規模交互方式查詢數據。
  • Azure Active Directory 提供對資源的訪問控制,並且已在大多數企業中使用。 Azure Databricks 工作區部署在客戶訂閱中,因此 AAD 自然可用於控制對源、結果和作業的訪問。
  • Azure SQL 數據倉庫、Azure SQL DB 和 Azure CosmosDB:Azure Databricks 可以輕鬆高效地將結果上傳到這些服務中以進行進一步分析和實時服務,從而可以輕鬆地在 Azure 上構建端到端數據架構。
  • 在內部,我們使用 Azure 容器服務通過容器運行 Azure Databricks 控制平面和數據平面。
  • 加速網絡提供了雲中最快的虛擬化網絡基礎設施。 Azure Databricks 利用它來進一步提高 Spark 性能。
  • 最新一代的 Azure 硬件 (Dv3 VM),具有 NvMe SSD 能夠在 IO 上實現 100us 延遲。 這些使 Databricks I/O 性能更加出色。

在相關的說明中,微軟今天宣布他們將作為白金會員加入 MariaDB 基金會。 很快,他們將發布 Azure Database for MariaDB 的預覽版,用於在雲中提供完全託管的 MariaDB 服務。 他們還宣布 Apache Cassandra API 支持 Cosmos DB。 他們將通過交鑰匙全球分銷、多個一致性級別和行業領先的 SLA 提供 Cassandra 服務。

有關主題的更多資訊: 阿帕奇卡桑德拉 API, 阿帕奇火花, 天藍, Azure Cosmos數據庫, Azure數據塊, 微軟

發表評論

您的電子郵件地址將不會被發表。 必填字段標 *