微软宣布面向 Azure HDInsight 的 Apache Spark 全面上市

阅读时间图标 3分钟读


读者帮助支持 MSpoweruser。如果您通过我们的链接购买,我们可能会获得佣金。 工具提示图标

阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多

火花

微软今天宣布面向 Azure HDInsight 的 Apache Spark v1.6.1 全面上市。 微软强调,Spark for HDInsight 自公开预览期以来已获得快速采用,现在已部署的所有新 HDInsight 群集的 50%。 Microsoft 还宣布对我们的托管 Spark 服务的可用性、可扩展性和生产力进行改进。

适用于 Azure HDInsight 的 Spark 功能:

  • 对于高可用性, Microsoft 与 Hortonworks 合作,为 YARN 资源管理器添加功能,并共同领导“李维计划” 与 Cloudera 和其他组织创建开源 Apache 许可 REST Web 服务,用于管理长时间运行的 Spark 上下文和提交 Spark 作业。 这项新功能旨在使 Spark 成为运行交互式笔记本的更强大的后端,并允许其他应用程序利用 Spark 处理其交互式工作负载。 通过使用 Spark 确保高可用性,我们现在通过 99.9% 的服务级别协议为 Spark 提供市场上最高的保证。
  • 为了确保 Spark 能够大规模运行,我们宣布将 Spark 和 Azure 数据湖存储. 这将允许 Spark 存储和处理在专为云设计的存储库上构建的任何大小的数据,以捕获任何大小、类型和速度的数据,而无需随着数据的扩展而强制更改您的应用程序。
  • 为了保护 Spark,我们通过集成 Spark 和 Data Lake Store 在存储级别启用基于角色的数据访问。
  • 对于数据工程师和开发人员,我们深入介绍了 与 IntelliJ IDE 集成. 这允许开发人员使用对 Scala 和 Java 的本机创作支持、本地测试、远程调试以及将 Spark 应用程序提交到 Azure 云的能力进行编码。
  • 对于数据科学家,我们推出了开箱即用的 与 Jupyter (iPython) 笔记本集成 允许您创建结合代码、统计方程和可视化的叙述,讲述有关数据的故事。 该环境非常适合从任何来源提取数据并迭代构建 ML 模型,同时编写探索性查询以可视化和理解数据的属性。 我们通过与 Jupyter OSS 社区合作来增强内核以允许通过 REST 端点执行 Spark,从而实现了这一点。 因此,现在可以在 HDInsight 中开箱即用地访问 Jupyter 笔记本。
  • 对于业务分析师,我们提供 与 Power BI 以及其他 BI 工具集成 喜欢 画面, 树液 Lumira 和 QlikView。 这使您可以在任何大小的数据上构建交互式可视化。 除了传统的仪表板之外,Power BI 还提供了一个与 Spark 集成的流连接器,允许您将实时事件从 Spark Streaming 直接发布到 Power BI。

详细了解它 此处.

有关主题的更多信息: Apache Spark, 天蓝色, Azure 洞察力, 一般可用性, 微软, 窗户