Charger et analyser des données Big Data avec Microsoft HD Insight

Charger et analyser des données Big Data avec Microsoft HD Insight

Charger et analyser des données Big Data avec Microsoft HD Insight

Type(s) : P
Durée : 5 Jours – 35 Heures

Pré-requis

Avoir une expérience dans la programmation via R. Posséder des connaissances sur les méthodes statistiques courantes et les meilleures pratiques d’analyse des données. La connaissance du système d’exploitation Windows et ses fonctionnalités principales ainsi que des bases de données relationnelles est recommandée.

Objectif de la formation

Déployer les clusters HDInsight

Autoriser les utilisateurs pour accéder aux ressources

Charger les données dans HDInsight

Dépanner HDInsight

Mettre en œuvre les solutions  Batch

Concevoir les solutions de Batch ETL pour la Big Data avec Spark

Analyser les données avec Spark SQL

Analyser les données avec Hive et Phoenix

Décrire l’analyse de flux

Mettre en œuvre l’analyse de flux via l’API DStream

Développer des solutions de traitement de la Big Data en temps réel avec Apache StormCréer des solutions qui utilisent Kafka et Hbase

Public concerné

Cette formation s’adresse aux architectes de données, aux Data Scientists et aux développeurs.

 

Profil du formateur

Formateur consultant, expert, pédagogue et certifié dans son domaine

Méthode pédagogique

La formation est constituée d’apports théoriques et d’exercices pratiques. Chaque stagiaire dispose d’un poste de travail et la gestion en petit groupe (jusqu’à 8 stagiaires) permet un suivi individualisé et adapté. Durant les sessions de formation, un support pédagogique est remis aux stagiaires.

Suivi, évaluation, sanction

Des tours de table permettent de suivre la progression du stagiaire au fur et à mesure de la formation. Un suivi de la formation est réalisé par une feuille de présence émargée par demi-journée par les stagiaires et le formateur. Un questionnaire de satisfaction et une validation des acquis sont complétés par chaque stagiaire en fin de formation.

Formation sans certification.

Plan du cours

Introduction à HD Insight

  • Qu’est-ce que la Big Data ?
  • Introduction à Hadoop
  • Travailler avec la fonction MapReduce
  • Introduction à HDInsight

Déploiement des clusters HDInsight

  • Identifier les types de clusters HDInsight
  • Gérer les clusters HDInsight via le portail Azure
  • Gérer les clusters HDINsight via Azure Powershell

Autorisation des utilisateurs pour l’accès aux ressources

  • Clusters non joints aux domaines
  • Configurer les clusters HDInsight joints aux domaines
  • Gérer les clusters HDInsight joints aux domaines

Chargement des données dans HDInsight

  • Stockage des données pour le traitement HDInsight
  • Utiliser les outils de chargement des données
  • Valoriser les données stockées

Dépannage de HDInsight

  • Analyser les journaux HDInsight
  • Journaux YARN
  • Dump de tas (Heap Dump)
  • Operations Management Suite

Mettre en oeuvre les
solutions Batch

  • Stockage Apache Hive
  • Requêtes de données HDInsight via Hive et Pig
  • Mise en œuvre de HDInsight

Conception des solutions
Batch ETL

  • Qu’est-ce que SPARK ?
  • ETL avec SPARK
  • Performance de SPARK

Analyse des données avec SPARK SQL

  • Mettre en œuvre des requêtes itératives et interactives
  • Réaliser des analyses de données exploratoires

Analyse des données avec Hive
et Phoenix

  • Mettre en œuvre les requêtes interactives pour la Big Data avec Hive interactive
  • Réaliser des analyses de données exploratoires via Hive
  • Réaliser un traitement interactif via Apache Phoenix

Analyse de flux

  • Analyse de flux
  • Process de diffusion des données à partir de l’analyse de flux
  • Gérer les travaux d’analyse de flux

Mettre en œuvre les solutions de diffusion avec Kafka et HBase

  • Créer et déployer un cluster Kafka
  • Publier, consommer et traiter les données via le cluster Kafka
  • Utiliser HBase pour stocker des données et effectuer des requêtes

Développement des solutions de traitement Big Data en temps réel

  • Conserver des données à long terme
  • Flux de données avec Storm
  • Créer des topologies  Storm

Création des applications
Spark Streaming

  • Travailler avec Spark Streaming
  • Créer des applications structurées Spark Streaming
  • Stockage et Visualisation

Nous contacter

AMS Formation (France)
03 83 67 63 05
22 Rue de Medreville
54000 Nancy – France

AMS Formation (Luxembourg)
00 352 26 10 22 58
145, route de Pétange
L-4645 Niederkorn – Luxembourg

ams-formation@ams-training.com

Suivez-nous

Retrouvez toute l'actualité d'AMS Formation sur les réseaux sociaux.