Microsoft kündigt die allgemeine Verfügbarkeit von Apache Spark für Azure HDInsight an

Symbol für die Lesezeit 3 Minute. lesen


Leser unterstützen MSpoweruser. Wir erhalten möglicherweise eine Provision, wenn Sie über unsere Links kaufen. Tooltip-Symbol

Lesen Sie unsere Offenlegungsseite, um herauszufinden, wie Sie MSPoweruser dabei helfen können, das Redaktionsteam zu unterstützen Mehr erfahren

Spark

Microsoft hat heute die allgemeine Verfügbarkeit von Apache Spark v1.6.1 für Azure HDInsight bekannt gegeben. Microsoft betonte, dass Spark für HDInsight seit der Public Preview-Phase schnell angenommen wurde und nun 50 % aller neuen HDInsight-Cluster bereitgestellt werden. Microsoft kündigt außerdem Verbesserungen der Verfügbarkeit, Skalierbarkeit und Produktivität unseres verwalteten Spark-Dienstes an.

Funktionen von Spark für Azure HDInsight:

  • Für Hochverfügbarkeit, Microsoft arbeitete mit Hortonworks zusammen, um dem YARN-Ressourcenmanager Funktionen hinzuzufügen, und leitete gemeinsam „Projekt Livius“ mit Cloudera und anderen Organisationen zusammen, um einen Open-Source-Apache-lizenzierten REST-Webdienst für die Verwaltung lang laufender Spark-Kontexte und die Übermittlung von Spark-Jobs zu erstellen. Diese neue Funktion wurde entwickelt, um Spark zu einem robusteren Back-End für die Ausführung interaktiver Notebooks zu machen und es anderen Anwendungen zu ermöglichen, Spark für ihre interaktiven Workloads zu nutzen. Indem wir mit Spark eine hohe Verfügbarkeit sicherstellen, bieten wir jetzt die höchste Garantie für Spark auf dem Markt mit einer Vereinbarung zum Servicelevel von 99.9 %.
  • Um sicherzustellen, dass Spark in großem Umfang ausgeführt wird, kündigen wir die Integration zwischen Spark und an Azure Data Lake-Speicher. Auf diese Weise kann Spark Daten jeder Größe speichern und verarbeiten, die auf einem Repository aufgebaut sind, das für die Cloud entwickelt wurde, um Daten jeder Größe, Art und Geschwindigkeit zu erfassen, ohne Änderungen an Ihrer Anwendung zu erzwingen, wenn Daten skaliert werden.
  • Zur Sicherung von Spark ermöglichen wir rollenbasierten Datenzugriff auf Speicherebene durch die Integration von Spark und Data Lake Store.
  • Für Dateningenieure und Entwickler haben wir Deep eingeführt Integration mit der IntelliJ IDE. Dies ermöglicht Entwicklern das Programmieren mit nativer Authoring-Unterstützung für Scala und Java, lokales Testen, Remote-Debugging und die Möglichkeit, Spark-Anwendungen an die Azure-Cloud zu übermitteln.
  • Für Data Scientists haben wir Out-of-the-Box eingeführt Integration mit Jupyter (iPython)-Notebooks So können Sie Erzählungen erstellen, die Code, statistische Gleichungen und Visualisierungen kombinieren, die eine Geschichte über die Daten erzählen. Diese Umgebung ist ideal zum Extrahieren von Daten aus beliebigen Quellen und zum iterativen Erstellen von ML-Modellen, während explorative Abfragen geschrieben werden, um die Eigenschaften der Daten zu visualisieren und zu verstehen. Wir haben dies ermöglicht, indem wir mit der Jupyter OSS-Community zusammengearbeitet haben, um den Kernel so zu verbessern, dass die Ausführung von Spark über einen REST-Endpunkt möglich ist. Daher ist der Zugriff auf Jupyter-Notebooks jetzt sofort in HDInsight möglich.
  • Für die Business Analysten bieten wir an Integration mit Power BI zusammen mit anderen BI-Tools Gefällt mir Tableau, SAP Lumira und QlikView. Auf diese Weise können Sie interaktive Visualisierungen über Daten beliebiger Größe erstellen. Zusätzlich zu den herkömmlichen Dashboards bietet Power BI einen Streaming-Konnektor mit Integration in Spark, mit dem Sie Echtzeitereignisse aus Spark-Streaming direkt in Power BI veröffentlichen können.

Lesen Sie mehr darüber im Detail HIER.

Benutzerforum

0 Nachrichten