Microsoft anuncia la disponibilidad general de Apache Spark para Azure HDInsight

Icono de tiempo de lectura 3 minuto. leer


Los lectores ayudan a respaldar a MSpoweruser. Es posible que obtengamos una comisión si compra a través de nuestros enlaces. Icono de información sobre herramientas

Lea nuestra página de divulgación para descubrir cómo puede ayudar a MSPoweruser a sostener el equipo editorial. Leer más

Spark

Microsoft anunció hoy la disponibilidad general de Apache Spark v1.6.1 para Azure HDInsight. Microsoft destacó que Spark para HDInsight se ha adoptado rápidamente desde el período de vista previa pública y ahora representa el 50 % de todos los nuevos clústeres de HDInsight implementados. Microsoft también anuncia mejoras en la disponibilidad, escalabilidad y productividad de nuestro servicio Spark administrado.

Funciones de Spark para Azure HDInsight:

  • Para alta disponibilidad, Microsoft trabajó con Hortonworks para agregar capacidades al administrador de recursos de YARN y codirigió “Proyecto Livio” con Cloudera y otras organizaciones para crear un servicio web REST con licencia de Apache de código abierto para administrar contextos de Spark de ejecución prolongada y enviar trabajos de Spark. Esta nueva capacidad se diseñó para hacer de Spark un back-end más sólido para ejecutar cuadernos interactivos y permitir que otras aplicaciones aprovechen Spark para sus cargas de trabajo interactivas. Al garantizar una alta disponibilidad con Spark, ahora ofrecemos la garantía más alta para Spark en el mercado con un acuerdo de nivel de servicio del 99.9 %.
  • Para garantizar que Spark funcione a escala, anunciamos la integración entre Spark y Tienda de Azure Data Lake. Esto permitirá que Spark almacene y procese datos de cualquier tamaño creados en un repositorio diseñado para que la nube capture datos de cualquier tamaño, tipo y velocidad sin forzar cambios en su aplicación a medida que se escalan los datos.
  • Para asegurar Spark, estamos habilitando el acceso a datos basado en roles en el nivel de almacenamiento a través de la integración de Spark y Data Lake Store.
  • Para el ingeniero de datos y los desarrolladores, presentamos deep integración con el IDE de IntelliJ. Esto permite a los desarrolladores codificar con soporte nativo de creación para Scala y Java, pruebas locales, depuración remota y la capacidad de enviar aplicaciones Spark a la nube de Azure.
  • Para los científicos de datos, introdujimos soluciones listas para usar integración con portátiles Jupyter (iPython) lo que le permite crear narraciones que combinan código, ecuaciones estadísticas y visualizaciones que cuentan una historia sobre los datos. Este entorno es ideal para extraer datos de cualquier fuente y construir iterativamente modelos ML mientras se escriben consultas exploratorias para visualizar y comprender las propiedades de los datos. Hicimos esto posible al trabajar con la comunidad Jupyter OSS para mejorar el kernel para permitir la ejecución de Spark a través de un punto final REST. Como resultado, ahora se puede acceder a los notebooks de Jupyter dentro de HDInsight listos para usar.
  • Para los analistas de negocio, ofrecemos integración con Power BI junto con otras herramientas de BI como Cuadro, SAP Lumira y QlikView. Esto le permite crear visualizaciones interactivas sobre datos de cualquier tamaño. Además de los paneles tradicionales, Power BI ofrece un conector de transmisión que se integra con Spark, lo que le permite publicar eventos en tiempo real desde Spark Streaming directamente en Power BI.

Lea más sobre esto en detalle esta página.

Más sobre los temas: Apache Spark, azur, Azure HDInsight, Disponibilidad general, microsoft, ventanas