Microsoft anunță disponibilitatea generală a Apache Spark pentru Azure HDInsight

3 min. citit

Publicat în data de 6 Iunie, 2016

publicat pe 6 Iunie, 2016

Cititorii ajută la sprijinirea MSpoweruser. Este posibil să primim un comision dacă cumpărați prin link-urile noastre.

Microsoft a anunțat astăzi disponibilitatea generală a Apache Spark v1.6.1 pentru Azure HDInsight. Microsoft a subliniat că Spark pentru HDInsight a câștigat o adoptare rapidă începând cu perioada de previzualizare publică și acum reprezintă 50% din toate clusterele noi HDInsight implementate. Microsoft anunță, de asemenea, îmbunătățiri ale disponibilității, scalabilității și productivității serviciului nostru Spark gestionat.

Caracteristicile Spark pentru Azure HDInsight:

Pentru disponibilitate ridicată, Microsoft a lucrat cu Hortonworks pentru a adăuga capabilități managerului de resurse YARN și a co-condus „Proiectul Livy” împreună cu Cloudera și alte organizații pentru a crea un serviciu web REST cu licență Apache cu sursă deschisă pentru gestionarea contextelor Spark cu funcționare lungă și trimiterea de joburi Spark. Această nouă capacitate a fost concepută pentru a face din Spark un back-end mai robust pentru rularea notebook-urilor interactive și pentru a permite altor aplicații să folosească Spark pentru sarcinile lor de lucru interactive. Asigurând o disponibilitate ridicată cu Spark, oferim acum cea mai mare garanție pentru Spark de pe piață, cu un acord de nivel de servicii de 99.9%.
Pentru a ne asigura că Spark va funcționa la scară, anunțăm integrarea între Spark și Magazin Azure Data Lake. Acest lucru va permite Spark să stocheze și să proceseze date de orice dimensiune construite pe un depozit proiectat pentru cloud pentru a capta date de orice dimensiune, tip și viteză, fără a forța modificări ale aplicației dvs. pe măsură ce datele se scad.
Pentru securizarea Spark, permitem accesul la date bazat pe roluri la nivel de stocare prin integrarea Spark și Data Lake Store.
Pentru inginerul de date și dezvoltatori, am introdus deep integrare cu IntelliJ IDE. Acest lucru permite dezvoltatorilor să codifice cu suport nativ de creație pentru Scala și Java, testare locală, depanare de la distanță și capacitatea de a trimite aplicații Spark în cloud Azure.
Pentru oamenii de știință de date, am introdus ieșit din cutie integrare cu notebook-uri Jupyter (iPython). permițându-vă să creați narațiuni care combină cod, ecuații statistice și vizualizări care spun o poveste despre date. Acest mediu este ideal pentru extragerea datelor din orice sursă și construirea iterativă de modele ML în timp ce scrieți interogări exploratorii pentru a vizualiza și înțelege proprietățile datelor. Am făcut acest lucru posibil lucrând cu comunitatea Jupyter OSS pentru a îmbunătăți nucleul pentru a permite execuția Spark printr-un punct final REST. Ca rezultat, notebook-urile Jupyter sunt acum accesibile în HDInsight, din momentul în care este disponibil.
Pentru analiștii de afaceri, oferim integrare cu Power BI alături de alte instrumente BI ca Tablou, SAP Lumira și QlikView. Acest lucru vă permite să construiți vizualizări interactive peste date de orice dimensiune. Pe lângă tablourile de bord tradiționale, Power BI oferă un conector de streaming care are integrare cu Spark, permițându-vă să publicați evenimente în timp real din Spark Streaming direct în Power BI.