Microsoft оголошує про загальну доступність Apache Spark для Azure HDInsight

3 хв. читати

Опубліковано 6 Червня, 2016.

опубліковано на 6 Червня, 2016.

Читачі допомагають підтримувати MSpoweruser. Ми можемо отримати комісію, якщо ви купуєте через наші посилання.

Сьогодні Microsoft оголосила про загальну доступність Apache Spark v1.6.1 для Azure HDInsight. Корпорація Майкрософт підкреслила, що Spark для HDInsight отримав швидке поширення з періоду загальнодоступного попереднього перегляду і зараз становить 50% усіх нових кластерів HDInsight. Microsoft також оголошує про покращення доступності, масштабованості та продуктивності нашої керованої служби Spark.

Функції Spark для Azure HDInsight:

Для високої доступності, Microsoft співпрацювала з Hortonworks, щоб додати можливості до менеджера ресурсів YARN і спільно керувала «Проект Лівій” з Cloudera та іншими організаціями для створення веб-сервісу REST з відкритим вихідним кодом Apache для керування тривалими контекстами Spark та надсилання завдань Spark. Ця нова можливість була розроблена, щоб зробити Spark більш надійним сервером для роботи з інтерактивними ноутбуками та дозволити іншим програмам використовувати Spark для своїх інтерактивних робочих навантажень. Забезпечуючи високу доступність за допомогою Spark, ми тепер пропонуємо найвищу гарантію для Spark на ринку з угодою про рівень обслуговування на 99.9%.
Щоб забезпечити масштабну роботу Spark, ми оголошуємо про інтеграцію між Spark і Azure Data Lake Store. Це дозволить Spark зберігати та обробляти дані будь-якого розміру, побудовані на сховищі, розробленому для хмари, щоб фіксувати дані будь-якого розміру, типу та швидкості без примусового внесення змін у вашу програму як масштабування даних.
Для захисту Spark ми забезпечуємо доступ до даних на основі ролей на рівні сховища завдяки інтеграції Spark і Data Lake Store.
Для інженера даних і розробників ми представили deep інтеграція з IntelliJ IDE. Це дозволяє розробникам кодувати з підтримкою вбудованого авторства для Scala і Java, локального тестування, віддаленого налагодження та можливості надсилати програми Spark в хмару Azure.
Для науковців даних ми представили готовий варіант інтеграція з ноутбуками Jupyter (iPython). дозволяє створювати наративи, які поєднують код, статистичні рівняння та візуалізації, які розповідають історію про дані. Це середовище ідеально підходить для вилучення даних з будь-якого джерела та ітераційної побудови моделей машинного навчання під час написання дослідницьких запитів для візуалізації та розуміння властивостей даних. Ми зробили це можливим завдяки співпраці зі спільнотою Jupyter OSS, щоб покращити ядро, щоб дозволити виконання Spark через кінцеву точку REST. Як наслідок, блокноти Jupyter тепер доступні в HDInsight «з коробки».
Для бізнес-аналітиків ми пропонуємо інтеграція з Power BI разом з іншими інструментами BI як Жива картина, SAP Lumira та QlikView. Це дозволяє створювати інтерактивні візуалізації над даними будь-якого розміру. На додаток до традиційних інформаційних панелей Power BI пропонує потоковий конектор, який інтегрований зі Spark, що дозволяє публікувати події в реальному часі зі Spark Streaming безпосередньо в Power BI.