微軟宣布面向 Azure HDInsight 的 Apache Spark 全面上市

閱讀時間圖標 3分鐘讀


讀者幫助支持 MSpoweruser。如果您透過我們的連結購買,我們可能會獲得佣金。 工具提示圖標

請閱讀我們的揭露頁面,了解如何幫助 MSPoweruser 維持編輯團隊的發展 阅读更多

火花

微軟今天宣布面向 Azure HDInsight 的 Apache Spark v1.6.1 全面上市。 微軟強調,Spark for HDInsight 自公開預覽期以來已獲得快速採用,現在已部署的所有新 HDInsight 群集的 50%。 Microsoft 還宣布對我們的託管 Spark 服務的可用性、可擴展性和生產力進行改進。

適用於 Azure HDInsight 的 Spark 功能:

  • 對於高可用性, Microsoft 與 Hortonworks 合作,為 YARN 資源管理器添加功能,並共同領導“李維計劃” 與 Cloudera 和其他組織創建開源 Apache 許可 REST Web 服務,用於管理長時間運行的 Spark 上下文和提交 Spark 作業。 這項新功能旨在使 Spark 成為運行交互式筆記本的更強大的後端,並允許其他應用程序利用 Spark 處理其交互式工作負載。 通過使用 Spark 確保高可用性,我們現在通過 99.9% 的服務級別協議為 Spark 提供市場上最高的保證。
  • 為了確保 Spark 能夠大規模運行,我們宣布將 Spark 和 Azure 數據湖存儲. 這將允許 Spark 存儲和處理在專為雲設計的存儲庫上構建的任何大小的數據,以捕獲任何大小、類型和速度的數據,而無需隨著數據擴展而強制更改您的應用程序。
  • 為了保護 Spark,我們通過集成 Spark 和 Data Lake Store 在存儲級別啟用基於角色的數據訪問。
  • 對於數據工程師和開發人員,我們深入介紹了 與 IntelliJ IDE 集成. 這允許開發人員使用對 Scala 和 Java 的本機創作支持、本地測試、遠程調試以及將 Spark 應用程序提交到 Azure 雲的能力進行編碼。
  • 對於數據科學家,我們引入了開箱即用的 與 Jupyter (iPython) 筆記本集成 允許您創建結合代碼、統計方程和可視化的敘述,講述有關數據的故事。 該環境非常適合從任何來源提取數據並迭代構建 ML 模型,同時編寫探索性查詢以可視化和理解數據的屬性。 我們通過與 Jupyter OSS 社區合作來增強內核以允許通過 REST 端點執行 Spark,從而實現了這一點。 因此,現在可以在 HDInsight 中開箱即用地訪問 Jupyter 筆記本。
  • 對於業務分析師,我們提供 與 Power BI 以及其他 BI 工具集成 点讚 畫面, SAP Lumira 和 QlikView。 這使您可以在任何大小的數據上構建交互式可視化。 除了傳統的儀表板之外,Power BI 還提供了一個與 Spark 集成的流連接器,允許您將實時事件從 Spark Streaming 直接發佈到 Power BI。

詳細了解它 点击這裡.

有關主題的更多資訊: Apache Spark, 天藍, Azure 洞察力, 一般可用性, 微軟, 窗口