微软宣布用于最高性能流分析项目的 Azure Databricks
3分钟读
发表于
阅读我们的披露页面,了解如何帮助 MSPoweruser 维持编辑团队 查看更多
Databricks 为数据科学团队提供了一个统一的分析平台,以与数据工程和业务线协作以构建数据产品。 在今天的 Connect() 开发者活动中,微软 公布 全新 Azure Databricks 服务 用于最高性能的流分析项目。 Microsoft 与 Apache Spark 的创始人合作开发这项新服务。 Azure Databricks 是一个基于 Apache Spark 的分析平台,可提供一键式设置、简化的工作流和交互式工作区。 Azure Databricks 还与 Azure SQL 数据仓库、Azure 存储、Azure Cosmos DB、Azure Active Directory 和 Power BI 进行了本机集成。 在下面阅读有关此集成的信息。
- 虚拟机类型的多样性:客户可以使用所有现有的虚拟机,包括用于机器学习场景的 F 系列、用于海量内存场景的 M 系列、用于通用目的的 D 系列等。
- 安全性和隐私:在 Azure 中,数据的所有权和控制权属于客户。 我们构建了 Azure Databricks 以遵守这些标准。 我们的目标是让 Azure Databricks 提供 Azure 其余部分遵守的所有合规性认证。
- 网络拓扑的灵活性:客户有各种各样的网络基础设施需求。 Azure Databricks 支持客户 VNET 中的部署,这可以控制可以访问哪些源和接收器以及如何访问它们。
- Azure 存储和 Azure Data Lake 集成:这些存储服务通过 DBFS 向 Databricks 用户公开,以提供对现有数据的缓存和优化分析。
- Azure Power BI:用户可以使用 JDBC 将 Power BI 直接连接到他们的 Databricks 集群,以便使用熟悉的工具以大规模交互方式查询数据。
- Azure Active Directory 提供对资源的访问控制,并且已在大多数企业中使用。 Azure Databricks 工作区部署在客户订阅中,因此 AAD 自然可用于控制对源、结果和作业的访问。
- Azure SQL 数据仓库、Azure SQL DB 和 Azure CosmosDB:Azure Databricks 可以轻松高效地将结果上传到这些服务中以进行进一步分析和实时服务,从而可以轻松地在 Azure 上构建端到端数据架构。
- 在内部,我们使用 Azure 容器服务通过容器运行 Azure Databricks 控制平面和数据平面。
- 加速网络提供了云中最快的虚拟化网络基础设施。 Azure Databricks 利用它来进一步提高 Spark 性能。
- 最新一代的 Azure 硬件 (Dv3 VM),具有 NvMe SSD 能够在 IO 上实现 100us 延迟。 这些使 Databricks I/O 性能更加出色。
在相关的说明中,微软今天宣布他们将作为白金会员加入 MariaDB 基金会。 很快,他们将发布 Azure Database for MariaDB 的预览版,用于在云中提供完全托管的 MariaDB 服务。 他们还宣布 Apache Cassandra API 支持 Cosmos DB。 他们将通过交钥匙全球分销、多个一致性级别和行业领先的 SLA 提供 Cassandra 服务。
用户论坛
0消息