Technologie Microsoft
Azure Databricks
Azure Databricks
Une plateforme analytique optimisée pour l’infonuagique Azure
Azure Databricks est une plate-forme d’analyse basée sur Apache Spark optimisée pour la plate-forme de services cloud Microsoft Azure. Conçu avec les fondateurs d’Apache Spark, Databricks est intégré à Azure pour fournir une configuration en un clic, des flux de travail rationalisés et un espace de travail interactif qui permet la collaboration entre les scientifiques des données, les ingénieurs de données et les analystes commerciaux.
Analyse de Mégadonnées et IA avec Apache Spark optimisé
Libérez des informations de toutes vos données et créez des solutions d’intelligence artificielle (AI) avec Azure Databricks, configurez votre environnement Apache Spark ™ en quelques minutes, mettez à l’échelle automatiquement et collaborez sur des projets partagés dans un espace de travail interactif. Azure Databricks prend en charge Python, Scala, R, Java et SQL, ainsi que les cadres et bibliothèques de science des données, notamment TensorFlow, PyTorch et scikit-learn.
Azure Databricks est un service d’analyse basé sur Apache Spark qui est à la fois rapide, facile et collaboratif. Pour un pipeline de Big Data, les données (brutes ou structurées) sont ingérées dans Azure via Azure Data Factory par lots, ou diffusées en temps réel à l’aide de Kafka, Event Hub ou IoT Hub. Ces données atterrissent dans un lac de données pour un stockage persistant à long terme, dans Azure Blob Storage ou Azure Data Lake Storage.
Dans le cadre de votre flux de travail d’analyse, vous pouvez utiliser Azure Databricks pour lire les données de plusieurs sources de données telles que Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB, ou Azure SQL Data Warehouse et les transformer en information révolutionnaire à l’aide de Spark.
Plateforme d’analyse basée sur Apache Spark
- Spark SQL et trames de données
Spark SQL est le module Spark pour travailler avec des données structurées. Une trame de données une collection distribuée de données organisée en colonnes nommées. Elle est conceptuellement équivalente à une table dans une base de données relationnelle ou à une trame de données dans R / Python. - Diffusion en continu
Traitement et analyse des données en temps réel pour des applications analytiques et interactives. S’intègre à HDFS, Flume et Kafka. - MLlib
Bibliothèque d’apprentissage automatique composée d’algorithmes et d’utilitaires d’apprentissage communs, y compris la classification, la régression, le clustering, le filtrage collaboratif, la réduction de dimensionnalité, ainsi que les primitives d’optimisation sous-jacentes. - GraphX
Graphiques et calcul de graphiques pour un large éventail de cas d’utilisation, de l’analyse cognitive à l’exploration de données. - API Spark Core
Inclut la prise en charge de R, SQL, Python, Scala et Java.
Azure Databricks s’appuie sur les capacités de Spark en fournissant une plateforme infonuagique à gestion zéro qui comprend :
- Groupes Spark entièrement gérés;
- Un espace de travail interactif pour l’exploration et la visualisation;
- Une plateforme pour alimenter vos applications Spark préférées.
Groupes Apache Spark entièrement gérés dans le nuage
Azure Databricks dispose d’un environnement de production sécurisé et fiable dans le nuage, géré et pris en charge par des experts Spark. Vous pouvez :
- Créer des groupes en quelques secondes;
- Échelonner automatiquement les groups de haut en bas, y compris les groups sans serveur, et les partager entre les équipes;
- Utiliser des groupes par programmation à l’aide des API REST;
- Utiliser des capacités d’intégration de données sécurisées basées sur Spark qui vous permettent d’unifier vos données sans centralisation;
- Obtener un accès instantané aux dernières fonctionnalités Apache Spark avec chaque version.
Databricks Runtime
Databricks Runtime est construit au-dessus d’Apache Spark et est nativement conçu pour le cloud Azure.
Avec l’option sans serveur, Azure Databricks résume complètement la complexité de l’infrastructure et le besoin d’expertise spécialisée pour installer et configurer votre infrastructure de données. L’option sans serveur aide les scientifiques des données à itérer rapidement en équipe.
Pour les ingénieurs de données, soucieux des performances des travaux de production, Azure Databricks fournit un moteur Spark plus rapide et plus performant grâce à diverses optimisations au niveau de la couche d’E / S et de la couche de traitement (E / S Databricks).
Espace de travail pour la collaboration
Grâce à un environnement collaboratif et intégré, Azure Databricks rationalise le processus d’exploration des données, de prototypage et d’exécution d’applications basées sur les données dans Spark.
- Déterminez comment utiliser les données avec une exploration facile des données;
- Documentez votre progression dans des blocs-notes en R, Python, Scala ou SQL;
- Visualisez les données en quelques clics et utilisez des outils familiers comme Matplotlib, ggplot ou d3;
- Utilisez des tableaux de bord interactifs pour créer des rapports dynamiques;
- Utilisez Spark et interagissez avec les données simultanément.
Pour en savoir plus sur Azure Databricks, visitez le site de Microsoft