Microsoft anuncia disponibilidade geral do Apache Spark para Azure HDInsight

Ícone de tempo de leitura 3 minutos. ler


Os leitores ajudam a oferecer suporte ao MSpoweruser. Podemos receber uma comissão se você comprar através de nossos links. Ícone de dica de ferramenta

Leia nossa página de divulgação para descobrir como você pode ajudar o MSPoweruser a sustentar a equipe editorial Saiba mais

Faísca

A Microsoft anunciou hoje a disponibilidade geral do Apache Spark v1.6.1 para Azure HDInsight. A Microsoft destacou que o Spark para HDInsight ganhou adoção rápida desde o período de visualização pública e agora é 50% de todos os novos clusters HDInsight implantados. A Microsoft também está anunciando melhorias na disponibilidade, escalabilidade e produtividade de nosso serviço Spark gerenciado.

Recursos do Spark para Azure HDInsight:

  • Para alta disponibilidade, A Microsoft trabalhou com a Hortonworks para adicionar recursos ao gerenciador de recursos YARN e co-liderou “Projeto Lívio” com Cloudera e outras organizações para criar um serviço web REST de código aberto licenciado pelo Apache para gerenciar contextos de longa execução do Spark e enviar trabalhos do Spark. Esse novo recurso foi projetado para tornar o Spark um back-end mais robusto para executar notebooks interativos e permitir que outros aplicativos aproveitem o Spark para suas cargas de trabalho interativas. Ao garantir alta disponibilidade com o Spark, agora oferecemos a mais alta garantia para o Spark no mercado com um acordo de nível de serviço de 99.9%.
  • Para garantir que o Spark funcione em escala, estamos anunciando a integração entre o Spark e Loja do Azure Data Lake. Isso permitirá que o Spark armazene e processe dados de qualquer tamanho construído em um repositório projetado para a nuvem para capturar dados de qualquer tamanho, tipo e velocidade sem forçar alterações em seu aplicativo à medida que os dados são dimensionados.
  • Para proteger o Spark, estamos habilitando o acesso a dados baseado em função no nível de armazenamento por meio da integração do Spark e do Data Lake Store.
  • Para o engenheiro de dados e desenvolvedores, introduzimos integração com o IDE IntelliJ. Isso permite que os desenvolvedores codifiquem com suporte de autoria nativa para Scala e Java, testes locais, depuração remota e a capacidade de enviar aplicativos Spark para a nuvem do Azure.
  • Para cientistas de dados, apresentamos soluções prontas para uso integração com notebooks Jupyter (iPython) permitindo que você crie narrativas que combinam código, equações estatísticas e visualizações que contam uma história sobre os dados. Esse ambiente é ideal para extrair dados de qualquer fonte e construir modelos de ML de forma iterativa enquanto escreve consultas exploratórias para visualizar e entender as propriedades dos dados. Tornamos isso possível trabalhando com a comunidade Jupyter OSS para aprimorar o kernel para permitir a execução do Spark por meio de um endpoint REST. Como resultado, os notebooks Jupyter agora estão acessíveis no HDInsight pronto para uso.
  • Para os analistas de negócios, oferecemos integração com o Power BI juntamente com outras ferramentas de BI como Quadro, SAP Lumira e QlikView. Isso permite que você crie visualizações interativas sobre dados de qualquer tamanho. Além dos painéis tradicionais, o Power BI oferece um conector de streaming que possui integração com o Spark, permitindo que você publique eventos em tempo real do Spark Streaming diretamente no Power BI.

Leia mais sobre isso em detalhes aqui.

Fórum de usuários

Mensagens 0