Pré-requis
Avoir une expérience dans la programmation via R. Posséder des connaissances sur les méthodes statistiques courantes et les meilleures pratiques d’analyse des données. La connaissance du système d’exploitation Windows et ses fonctionnalités principales ainsi que des bases de données relationnelles est recommandée.
Objectif de la formation
Déployer les clusters HDInsight
Autoriser les utilisateurs pour accéder aux ressources
Charger les données dans HDInsight
Dépanner HDInsight
Mettre en œuvre les solutions Batch
Concevoir les solutions de Batch ETL pour la Big Data avec Spark
Analyser les données avec Spark SQL
Analyser les données avec Hive et Phoenix
Décrire l’analyse de flux
Mettre en œuvre l’analyse de flux via l’API DStream
Développer des solutions de traitement de la Big Data en temps réel avec Apache StormCréer des solutions qui utilisent Kafka et Hbase
Public concerné
Cette formation s’adresse aux architectes de données, aux Data Scientists et aux développeurs.
Profil du formateur
Formateur consultant, expert, pédagogue et certifié dans son domaine
Méthode pédagogique
La formation est constituée d’apports théoriques et d’exercices pratiques. Chaque stagiaire dispose d’un poste de travail et la gestion en petit groupe (jusqu’à 8 stagiaires) permet un suivi individualisé et adapté. Durant les sessions de formation, un support pédagogique est remis aux stagiaires.
Suivi, évaluation, sanction
Des tours de table permettent de suivre la progression du stagiaire au fur et à mesure de la formation. Un suivi de la formation est réalisé par une feuille de présence émargée par demi-journée par les stagiaires et le formateur. Un questionnaire de satisfaction et une validation des acquis sont complétés par chaque stagiaire en fin de formation.
Formation sans certification.
Plan du cours
Introduction à HD Insight
- Qu’est-ce que la Big Data ?
- Introduction à Hadoop
- Travailler avec la fonction MapReduce
- Introduction à HDInsight
Déploiement des clusters HDInsight
- Identifier les types de clusters HDInsight
- Gérer les clusters HDInsight via le portail Azure
- Gérer les clusters HDINsight via Azure Powershell
Autorisation des utilisateurs pour l’accès aux ressources
- Clusters non joints aux domaines
- Configurer les clusters HDInsight joints aux domaines
- Gérer les clusters HDInsight joints aux domaines
Chargement des données dans HDInsight
- Stockage des données pour le traitement HDInsight
- Utiliser les outils de chargement des données
- Valoriser les données stockées
Dépannage de HDInsight
- Analyser les journaux HDInsight
- Journaux YARN
- Dump de tas (Heap Dump)
- Operations Management Suite
Mettre en oeuvre les
solutions Batch
- Stockage Apache Hive
- Requêtes de données HDInsight via Hive et Pig
- Mise en œuvre de HDInsight
Conception des solutions
Batch ETL
- Qu’est-ce que SPARK ?
- ETL avec SPARK
- Performance de SPARK
Analyse des données avec SPARK SQL
- Mettre en œuvre des requêtes itératives et interactives
- Réaliser des analyses de données exploratoires
Analyse des données avec Hive
et Phoenix
- Mettre en œuvre les requêtes interactives pour la Big Data avec Hive interactive
- Réaliser des analyses de données exploratoires via Hive
- Réaliser un traitement interactif via Apache Phoenix
Analyse de flux
- Analyse de flux
- Process de diffusion des données à partir de l’analyse de flux
- Gérer les travaux d’analyse de flux
Mettre en œuvre les solutions de diffusion avec Kafka et HBase
- Créer et déployer un cluster Kafka
- Publier, consommer et traiter les données via le cluster Kafka
- Utiliser HBase pour stocker des données et effectuer des requêtes
Développement des solutions de traitement Big Data en temps réel
- Conserver des données à long terme
- Flux de données avec Storm
- Créer des topologies Storm
Création des applications
Spark Streaming
- Travailler avec Spark Streaming
- Créer des applications structurées Spark Streaming
- Stockage et Visualisation