Microsoftは、Apache Spark for AzureHDInsightの一般提供を発表しました

読書時間アイコン 3分。 読んだ


読者は MSpoweruser のサポートを支援します。私たちのリンクを通じて購入すると、手数料が発生する場合があります。 ツールチップアイコン

MSPoweruser の編集チームの維持にどのように貢献できるかについては、開示ページをお読みください。 続きを読む

スパーク

Microsoftは本日、AzureHDInsight向けのApacheSparkv1.6.1の一般提供を発表しました。 Microsoftは、Spark for HDInsightが公開プレビュー期間から急速に採用され、現在、展開されているすべての新しいHDInsightクラスターの50%になっていることを強調しました。 マイクロソフトは、マネージドSparkサービスの可用性、スケーラビリティ、および生産性の向上も発表しています。

Spark for Azure HDInsightの機能:

  • 高可用性のために、 MicrosoftはHortonworksと協力して、YARNリソースマネージャーに機能を追加し、「プロジェクトリビー」Clouderaや他の組織と協力して、長時間実行されるSparkコンテキストを管理し、Sparkジョブを送信するためのオープンソースのApacheライセンスRESTWebサービスを作成します。 この新機能は、Sparkをインタラクティブノートブックを実行するためのより堅牢なバックエンドにし、他のアプリケーションがインタラクティブワークロードにSparkを活用できるようにするために設計されました。 Sparkで高可用性を確保することにより、99.9%のサービスレベル契約で市場で最高のSparkの保証を提供します。
  • Sparkが大規模に実行されるようにするために、Sparkと Azure データ レイク ストア。 これにより、Sparkは、クラウド用に設計されたリポジトリに構築された任意のサイズのデータ​​を保存および処理して、データの規模に応じてアプリケーションに変更を加えることなく、任意のサイズ、タイプ、速度のデータをキャプチャできます。
  • Sparkを保護するために、SparkとData Lake Storeの統合により、ストレージレベルでの役割ベースのデータアクセスを可能にします。
  • データエンジニアと開発者のために、私たちは深く紹介しました IntelliJIDEとの統合。 これにより、開発者は、ScalaとJavaのネイティブオーサリングサポート、ローカルテスト、リモートデバッグ、およびSparkアプリケーションをAzureクラウドに送信する機能を使用してコーディングできます。
  • データサイエンティスト向けに、すぐに使用できるものを導入しました Jupyter(iPython)ノートブックとの統合 コード、統計方程式、およびデータについてのストーリーを伝える視覚化を組み合わせたナラティブを作成できます。 この環境は、任意のソースからデータを抽出し、データのプロパティを視覚化して理解するための探索的クエリを記述しながら、MLモデルを繰り返し構築するのに理想的です。 これを可能にしたのは、Jupyter OSSコミュニティと協力してカーネルを拡張し、RESTエンドポイントを介してSparkを実行できるようにすることです。 その結果、JupyterノートブックはHDInsight内ですぐにアクセスできるようになりました。
  • ビジネスアナリスト向けに、 他のBIツールと一緒にPowerBIと統合 ような タブロー, SAP Lumira、およびQlikView。 これにより、任意のサイズのデータ​​に対してインタラクティブな視覚化を構築できます。 従来のダッシュボードに加えて、Power BIは、Sparkと統合されたストリーミングコネクタを提供し、SparkStreamingからPowerBIに直接リアルタイムイベントを公開できるようにします。

詳細を読む こちら.

トピックの詳細: Apache Spark, 紺碧, Azure HDInsight, 一般提供, マイクロソフト, ウィンドウズ