微软宣布面向 Azure HDInsight 的 Apache Spark 全面上市

3分钟读

发表于 2016 年 6 月 6 日

读者帮助支持 MSpoweruser。如果您通过我们的链接购买，我们可能会获得佣金。

微软今天宣布面向 Azure HDInsight 的 Apache Spark v1.6.1 全面上市。微软强调，Spark for HDInsight 自公开预览期以来已获得快速采用，现在已部署的所有新 HDInsight 群集的 50%。 Microsoft 还宣布对我们的托管 Spark 服务的可用性、可扩展性和生产力进行改进。

适用于 Azure HDInsight 的 Spark 功能：

对于高可用性， Microsoft 与 Hortonworks 合作，为 YARN 资源管理器添加功能，并共同领导“李维计划” 与 Cloudera 和其他组织创建开源 Apache 许可 REST Web 服务，用于管理长时间运行的 Spark 上下文和提交 Spark 作业。这项新功能旨在使 Spark 成为运行交互式笔记本的更强大的后端，并允许其他应用程序利用 Spark 处理其交互式工作负载。通过使用 Spark 确保高可用性，我们现在通过 99.9% 的服务级别协议为 Spark 提供市场上最高的保证。
为了确保 Spark 能够大规模运行，我们宣布将 Spark 和 Azure 数据湖存储. 这将允许 Spark 存储和处理在专为云设计的存储库上构建的任何大小的数据，以捕获任何大小、类型和速度的数据，而无需随着数据的扩展而强制更改您的应用程序。
为了保护 Spark，我们通过集成 Spark 和 Data Lake Store 在存储级别启用基于角色的数据访问。
对于数据工程师和开发人员，我们深入介绍了与 IntelliJ IDE 集成. 这允许开发人员使用对 Scala 和 Java 的本机创作支持、本地测试、远程调试以及将 Spark 应用程序提交到 Azure 云的能力进行编码。
对于数据科学家，我们推出了开箱即用的与 Jupyter (iPython) 笔记本集成允许您创建结合代码、统计方程和可视化的叙述，讲述有关数据的故事。该环境非常适合从任何来源提取数据并迭代构建 ML 模型，同时编写探索性查询以可视化和理解数据的属性。我们通过与 Jupyter OSS 社区合作来增强内核以允许通过 REST 端点执行 Spark，从而实现了这一点。因此，现在可以在 HDInsight 中开箱即用地访问 Jupyter 笔记本。
对于业务分析师，我们提供与 Power BI 以及其他 BI 工具集成喜欢画面, 树液 Lumira 和 QlikView。这使您可以在任何大小的数据上构建交互式可视化。除了传统的仪表板之外，Power BI 还提供了一个与 Spark 集成的流连接器，允许您将实时事件从 Spark Streaming 直接发布到 Power BI。