Microsoft annonce la disponibilité générale d'Apache Spark pour Azure HDInsight

3 minute. lis

Publié le Le 6 juin 2016

publié sur Le 6 juin 2016

Les lecteurs aident à prendre en charge MSpoweruser. Nous pouvons recevoir une commission si vous achetez via nos liens.

Microsoft a annoncé aujourd'hui la disponibilité générale d'Apache Spark v1.6.1 pour Azure HDInsight. Microsoft a souligné que Spark pour HDInsight a été adopté rapidement depuis la période de prévisualisation publique et représente désormais 50 % de tous les nouveaux clusters HDInsight déployés. Microsoft annonce également des améliorations de la disponibilité, de l'évolutivité et de la productivité de notre service Spark géré.

Fonctionnalités de Spark pour Azure HDInsight :

Pour une haute disponibilité, Microsoft a travaillé avec Hortonworks pour ajouter des fonctionnalités au gestionnaire de ressources YARN et a codirigé "Projet Tite-Live” avec Cloudera et d'autres organisations pour créer un service Web REST open source sous licence Apache pour gérer les contextes Spark de longue durée et soumettre des tâches Spark. Cette nouvelle fonctionnalité a été conçue pour faire de Spark un back-end plus robuste pour l'exécution de blocs-notes interactifs et permettre à d'autres applications d'exploiter Spark pour leurs charges de travail interactives. En garantissant une haute disponibilité avec Spark, nous offrons désormais la garantie Spark la plus élevée du marché avec un accord de niveau de service de 99.9 %.
Pour garantir que Spark fonctionnera à grande échelle, nous annonçons l'intégration entre Spark et Magasin de lac de données Azure. Cela permettra à Spark de stocker et de traiter des données de n'importe quelle taille construites sur un référentiel conçu pour le cloud afin de capturer des données de n'importe quelle taille, type et vitesse sans forcer les modifications de votre application à mesure que les données évoluent.
Pour sécuriser Spark, nous activons l'accès aux données basé sur les rôles au niveau du stockage grâce à l'intégration de Spark et Data Lake Store.
Pour l'ingénieur de données et les développeurs, nous avons introduit des intégration avec l'IDE IntelliJ. Cela permet aux développeurs de coder avec une prise en charge native de la création pour Scala et Java, des tests locaux, un débogage à distance et la possibilité de soumettre des applications Spark au cloud Azure.
Pour les data scientists, nous avons introduit des solutions prêtes à l'emploi intégration avec les blocs-notes Jupyter (iPython) vous permettant de créer des récits qui combinent du code, des équations statistiques et des visualisations qui racontent une histoire sur les données. Cet environnement est idéal pour extraire des données de n'importe quelle source et créer de manière itérative des modèles ML tout en écrivant des requêtes exploratoires pour visualiser et comprendre les propriétés des données. Nous avons rendu cela possible en travaillant avec la communauté Jupyter OSS pour améliorer le noyau afin de permettre l'exécution de Spark via un point de terminaison REST. Par conséquent, les blocs-notes Jupyter sont désormais accessibles dans HDInsight prêts à l'emploi.
Pour les analystes d'affaires, nous offrons intégration avec Power BI aux côtés d'autres outils de BI comme Tableau, SAP Lumira et QlikView. Cela vous permet de créer des visualisations interactives sur des données de n'importe quelle taille. En plus des tableaux de bord traditionnels, Power BI propose un connecteur de streaming intégré à Spark vous permettant de publier des événements en temps réel depuis Spark Streaming directement vers Power BI.

En savoir plus en détail ici.

En savoir plus sur les sujets : Apache Spark, azur, Azure HD Insight, Disponibilité générale, microsoft, fenêtres

Pradeep Viswav

Expert en logiciels et services

Pradeep est diplômé en informatique et en ingénierie. Il était également partenaire étudiant Microsoft. Il travaille actuellement dans une entreprise informatique leader.