0

Mise en œuvre des traitements Big Data avec Spark

Développer une application s’appuyant sur Spark
Connaître les différents concepts sous-jascents et les APIs
Exécuter, tester, optimiser une application utilisant Spark
Appréhender les problématiques de machine learning avec SparkML

Durée

3 jours

Réf.

B-D-AS

Prix

1875€ HT

PROGRAMME

Vous trouverez ci-dessous le programme détaillé de la formation « Mise en oeuvre des traitements Big Data avec Spark« . Cette formation de 3 jours vous permet de comprendre et mettre en oeuvre le développement d’une application avec Spark.


Objectifs pédagogiques


• Développer une application s’appuyant sur Spark

 Connaître les concepts sous-jacents et les APIs

 Exécuter, tester, optimiser une application utilisant Spark

 Appréhender les problématiques de machine learning avec SparkML


Programme détaillé


Présentation de Spark


 Spark vs MapReduce

 Le modèle in-memory

 Composants : Jobs, Stages, Tasks

 Les différentes interfaces : API Python, shell…

 Atelier : Installation de l’environnement de développement et manipulation Spark

Objectif opérationnel : Maîtriser l’installation de l’environnement pour Spark

Moyen d’évaluation : QCM


Resilient Distributed Datasets


 Principe des DAG

 Les transformations : Filter, map, reduce, …

 Les actions 

 Cache et persistance

 Atelier : Effectuer des statistiques sur des données météorologiques

Objectif opérationnel : Comprendre les RDD sur Spark

Moyen d’évaluation : QCM


Dataframes


 Les requêtes

 Les formats 

 Spark SQL

 Atelier : Observer et optimiser l’exécution de l’analyse de texte

Objectif opérationnel : Optimiser les RDD avec les dataframes

Moyen d’évaluation : QCM


Application : Exécution et debug


 Structure d’une application 

 Exécuter une application 

 WebUI

 Optimisation

 Atelier : Observer et optimiser l’exécution de l’analyse de textes

Objectif opérationnel : Maîtriser d’exécution d’une application Spark

Moyen d’évaluation : QCM


Streaming


 Présentation de DStream

 Découverte de Sqoop

 Utilisation de Kafka

 Atelier : Exploiter des données via sqoop en temps réel

Objectif opérationnel : Comprendre le traitement en temps réel des données avec Spark

Moyen d’évaluation : QCM


SparkML


 Présentation de ML et MLlib

 Composants : Estimators, Transformers, Evaluators

 Pipeline

 Utilisation de Kafka

 Atelier : Prédire la race d’un chien présent dans une image

Objectif opérationnel : Appréhender les problématiques du machine learning avec SparkML

Moyen d’évaluation : QCM

PROCHAINES SESSIONS

Session garantie à partir de 2 personnes.

Aucun événement trouvé !

PUBLICS & PRÉ-REQUIS

Développeurs Backend et Architectes SI ayant des connaissances sur Python.

INFOS PRATIQUES

NOTRE FORMATEUR

Consultant et formateur. Ingénieur développeur depuis 5 ans, notre formateur intervient durant tout le processus du développement d’applications.

NOS PROCHAINES SESSIONS DATA / IA

Aucun événement trouvé !

FORMONS ENSEMBLE !

N'hésitez pas à nous contacter, nous mettrons tout en oeuvre afin que vos collaborateurs
ou vous même soient parfaitement formés et prêts pour de nouveaux challenges !
JE ME LANCE