微軟宣布面向 Azure HDInsight 的 Apache Spark 全面上市

主頁 » 天藍

3分鐘讀

發表於 2016 年 6 月 6 日

by 普拉迪普·維斯瓦夫

發表於 2016 年 6 月 6 日

分享此文章

改進本指南

讀者幫助支持 MSpoweruser。如果您透過我們的連結購買，我們可能會獲得佣金。

微軟今天宣布面向 Azure HDInsight 的 Apache Spark v1.6.1 全面上市。微軟強調，Spark for HDInsight 自公開預覽期以來已獲得快速採用，現在已部署的所有新 HDInsight 群集的 50%。 Microsoft 還宣布對我們的託管 Spark 服務的可用性、可擴展性和生產力進行改進。

適用於 Azure HDInsight 的 Spark 功能：

對於高可用性， Microsoft 與 Hortonworks 合作，為 YARN 資源管理器添加功能，並共同領導“李維計劃” 與 Cloudera 和其他組織創建開源 Apache 許可 REST Web 服務，用於管理長時間運行的 Spark 上下文和提交 Spark 作業。這項新功能旨在使 Spark 成為運行交互式筆記本的更強大的後端，並允許其他應用程序利用 Spark 處理其交互式工作負載。通過使用 Spark 確保高可用性，我們現在通過 99.9% 的服務級別協議為 Spark 提供市場上最高的保證。
為了確保 Spark 能夠大規模運行，我們宣布將 Spark 和 Azure 數據湖存儲. 這將允許 Spark 存儲和處理在專為雲設計的存儲庫上構建的任何大小的數據，以捕獲任何大小、類型和速度的數據，而無需隨著數據擴展而強制更改您的應用程序。
為了保護 Spark，我們通過集成 Spark 和 Data Lake Store 在存儲級別啟用基於角色的數據訪問。
對於數據工程師和開發人員，我們深入介紹了與 IntelliJ IDE 集成. 這允許開發人員使用對 Scala 和 Java 的本機創作支持、本地測試、遠程調試以及將 Spark 應用程序提交到 Azure 雲的能力進行編碼。
對於數據科學家，我們引入了開箱即用的與 Jupyter (iPython) 筆記本集成允許您創建結合代碼、統計方程和可視化的敘述，講述有關數據的故事。該環境非常適合從任何來源提取數據並迭代構建 ML 模型，同時編寫探索性查詢以可視化和理解數據的屬性。我們通過與 Jupyter OSS 社區合作來增強內核以允許通過 REST 端點執行 Spark，從而實現了這一點。因此，現在可以在 HDInsight 中開箱即用地訪問 Jupyter 筆記本。
對於業務分析師，我們提供與 Power BI 以及其他 BI 工具集成点讚畫面, SAP Lumira 和 QlikView。這使您可以在任何大小的數據上構建交互式可視化。除了傳統的儀表板之外，Power BI 還提供了一個與 Spark 集成的流連接器，允許您將實時事件從 Spark Streaming 直接發佈到 Power BI。