Microsoft anuncia Azure Databricks para proyectos de análisis de transmisión de mayor rendimiento

Icono de tiempo de lectura 3 minuto. leer


Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces. Icono de información sobre herramientas

Lea nuestra página de divulgación para descubrir cómo puede ayudar a MSPoweruser a sostener el equipo editorial. Leer más

Databricks proporciona una plataforma de análisis unificado para que los equipos de ciencia de datos colaboren con la ingeniería de datos y las líneas de negocios para crear productos de datos. En el evento para desarrolladores Connect() de hoy, Microsoft anunció el nuevo Servicio de Azure Databricks para proyectos de análisis de transmisión de alto rendimiento. Microsoft trabajó con los fundadores de Apache Spark para este nuevo servicio. Azure Databricks es una plataforma de análisis basada en Apache Spark que ofrece configuración con un solo clic, flujos de trabajo optimizados y un espacio de trabajo interactivo. Azure Databricks también viene con integración nativa con Azure SQL Data Warehouse, Azure Storage, Azure Cosmos DB, Azure Active Directory y Power BI. Lea acerca de esta integración a continuación.

  • Diversidad de tipos de VM: los clientes pueden usar todas las VM existentes, incluida la serie F para escenarios de aprendizaje automático, la serie M para escenarios de memoria masiva, la serie D para uso general, etc.
  • Seguridad y privacidad: en Azure, la propiedad y el control de los datos son del cliente. Hemos creado Azure Databricks para cumplir con estos estándares. Nuestro objetivo es que Azure Databricks proporcione todas las certificaciones de cumplimiento a las que se adhiere el resto de Azure.
  • Flexibilidad en la topología de la red: los clientes tienen una diversidad de necesidades de infraestructura de red. Azure Databricks admite implementaciones en redes virtuales de clientes, que pueden controlar a qué orígenes y receptores se puede acceder y cómo se accede a ellos.
  • Integración de Azure Storage y Azure Data Lake: estos servicios de almacenamiento están expuestos a los usuarios de Databricks a través de DBFS para proporcionar almacenamiento en caché y análisis optimizado sobre los datos existentes.
  • Azure Power BI: los usuarios pueden conectar Power BI directamente a sus clústeres de Databricks mediante JDBC para consultar datos de forma interactiva a gran escala mediante herramientas conocidas.
  • Azure Active Directory proporciona controles de acceso a los recursos y ya está en uso en la mayoría de las empresas. Los espacios de trabajo de Azure Databricks se implementan en las suscripciones de los clientes, por lo que, naturalmente, AAD se puede usar para controlar el acceso a los orígenes, los resultados y los trabajos.
  • Azure SQL Data Warehouse, Azure SQL DB y Azure CosmosDB: Azure Databricks carga los resultados de manera fácil y eficiente en estos servicios para un mayor análisis y servicio en tiempo real, lo que simplifica la creación de arquitecturas de datos de un extremo a otro en Azure.
  • Internamente, usamos Azure Container Services para ejecutar el plano de control y los planos de datos de Azure Databricks a través de contenedores.
  • Accelerated Networking proporciona la infraestructura de red virtualizada más rápida en la nube. Azure Databricks utiliza esto para mejorar aún más el rendimiento de Spark.
  • La última generación de hardware de Azure (máquinas virtuales Dv3), con SSD NvMe capaces de alcanzar una latencia de 100us en IO. Estos hacen que el rendimiento de E/S de Databricks sea aún mejor.

En una nota relacionada, Microsoft anunció hoy que se unirá a la Fundación MariaDB como miembro platino. Pronto lanzarán una vista previa de Azure Database for MariaDB para un servicio de MariaDB completamente administrado en la nube. También anunciaron que la API de Apache Cassandra es compatible con Cosmos DB. Ofrecerán Cassandra como un servicio de distribución global llave en mano, múltiples niveles de consistencia y SLA líderes en la industria.

Más sobre los temas: API de Apache Cassandra, chispas apache, azur, Azure Cosmos DB, Ladrillos de datos de Azure, microsoft

Deje un comentario

Su dirección de correo electrónico no será publicada. Las areas obligatorias están marcadas como requeridas *