Durée
3 jours
Réf.
B-D-AS
Prix
1875€ HT
PROGRAMME
Vous trouverez ci-dessous le programme détaillé de la formation « Mise en oeuvre des traitements Big Data avec Spark« . Cette formation de 3 jours vous permet de comprendre et mettre en oeuvre le développement d’une application avec Spark.
Objectifs pédagogiques
• Développer une application s’appuyant sur Spark
• Connaître les concepts sous-jacents et les APIs
• Exécuter, tester, optimiser une application utilisant Spark
• Appréhender les problématiques de machine learning avec SparkML
Programme détaillé
Présentation de Spark
• Spark vs MapReduce
• Le modèle in-memory
• Composants : Jobs, Stages, Tasks
• Les différentes interfaces : API Python, shell…
• Atelier : Installation de l’environnement de développement et manipulation Spark
Objectif opérationnel : Maîtriser l’installation de l’environnement pour Spark
Moyen d’évaluation : QCM
Resilient Distributed Datasets
• Principe des DAG
• Les transformations : Filter, map, reduce, …
• Les actions
• Cache et persistance
• Atelier : Effectuer des statistiques sur des données météorologiques
Objectif opérationnel : Comprendre les RDD sur Spark
Moyen d’évaluation : QCM
Dataframes
• Les requêtes
• Les formats
• Spark SQL
• Atelier : Observer et optimiser l’exécution de l’analyse de texte
Objectif opérationnel : Optimiser les RDD avec les dataframes
Moyen d’évaluation : QCM
Application : Exécution et debug
• Structure d’une application
• Exécuter une application
• WebUI
• Optimisation
• Atelier : Observer et optimiser l’exécution de l’analyse de textes
Objectif opérationnel : Maîtriser d’exécution d’une application Spark
Moyen d’évaluation : QCM
Streaming
• Présentation de DStream
• Découverte de Sqoop
• Utilisation de Kafka
• Atelier : Exploiter des données via sqoop en temps réel
Objectif opérationnel : Comprendre le traitement en temps réel des données avec Spark
Moyen d’évaluation : QCM
SparkML
• Présentation de ML et MLlib
• Composants : Estimators, Transformers, Evaluators
• Pipeline
• Utilisation de Kafka
• Atelier : Prédire la race d’un chien présent dans une image
Objectif opérationnel : Appréhender les problématiques du machine learning avec SparkML
Moyen d’évaluation : QCM
PROCHAINES SESSIONS
Session garantie à partir de 2 personnes.
PUBLICS & PRÉ-REQUIS
Développeurs Backend et Architectes SI ayant des connaissances sur Python.
INFOS PRATIQUES
- THÉORIE : 40%
- PRATIQUE : 60%
- LIEUX : NANTES, LYON, À DISTANCE
NOTRE FORMATEUR
Consultant et formateur. Ingénieur développeur depuis 5 ans, notre formateur intervient durant tout le processus du développement d’applications.
NOS PROCHAINES SESSIONS DATA / IA
Hadoop – Développer des applications pour le Big Data
Écosystème de l’Intelligence Artificielle
Ecosystème du Big Data
État de l’art des Bases NoSQL
Hadoop – Présentation de l’écosystème
Intelligence artificielle – Les fondamentaux
FORMONS ENSEMBLE !
ou vous même soient parfaitement formés et prêts pour de nouveaux challenges !