Mise en œuvre des traitements Big Data avec Spark

Vous trouverez ci-dessous le programme détaillé de la formation "Mise en oeuvre des traitements Big Data avec Spark" . Cette formation de 3 jours vous permet de comprendre et mettre en oeuvre le développement d’une application avec Spark.

En résumé

Catégorie :
Technologie
Durée :
3 jours (21h)
Ref :
B-D-AS
Prix :
1875€ HT
Publics :
Développeurs Backend et Architectes SI.
Pré-requis :

Connaissances sur Python.

Prochaines sessions :
20/3/2024
25/6/2024

Programme de la formation

Objectifs pédagogiques

  • Développer une application s’appuyant sur Spark
  • Connaître les concepts sous-jacents et les APIs
  • Exécuter, tester, optimiser une application utilisant Spark
  • Appréhender les problématiques de machine learning avec SparkML


Programme détaillé


Présentation de Spark

  • Spark vs MapReduce
  • Le modèle in-memory
  • Composants : Jobs, Stages, Tasks
  • Les différentes interfaces : API Python, shell…

Atelier : Installation de l’environnement de développement et manipulation Spark

Objectif opérationnel : Maîtriser l’installation de l’environnement pour Spark

Moyen d’évaluation : QCM



Resilient Distributed Datasets

  • Principe des DAG
  • Les transformations : Filter, map, reduce, …
  • Les actions
  • Cache et persistance

Atelier : Effectuer des statistiques sur des données météorologiques

Objectif opérationnel : Comprendre les RDD sur Spark

Moyen d’évaluation : QCM



Dataframes

  • Les requêtes
  • Les formats
  • Spark SQL


Atelier : Observer et optimiser l’exécution de l’analyse de texte

Objectif opérationnel : Optimiser les RDD avec les dataframes

Moyen d’évaluation : QCM


Application : Exécution et debug

  • Structure d’une application
  • Exécuter une application
  • WebUI
  • Optimisation

Atelier : Observer et optimiser l’exécution de l’analyse de textes

Objectif opérationnel : Maîtriser d’exécution d’une application Spark

Moyen d’évaluation : QCM



Streaming

  • Présentation de DStream
  • Découverte de Sqoop
  • Utilisation de Kafka

Atelier : Exploiter des données via sqoop en temps réel

Objectif opérationnel : Comprendre le traitement en temps réel des données avec Spark

Moyen d’évaluation : QCM



SparkML


  • Présentation de ML et MLlib
  • Composants : Estimators, Transformers, Evaluators
  • Pipeline
  • Utilisation de Kafka

Atelier : Prédire la race d’un chien présent dans une image

Objectif opérationnel : Appréhender les problématiques du machine learning avec SparkML

Moyen d’évaluation : QCM

Informations pratiques

  • THÉORIE : 40%
  • PRATIQUE : 60%
  • LIEUX : CENTRE DE NANTES, CLASSE A DISTANCE, DANS VOS LOCAUX

Votre formateur

Consultant et formateur. Ingénieur développeur depuis 5 ans, notre formateur intervient durant tout le processus du développement d’applications.

Personnes en situation de handicap

Nos formations sont accessibles aux personnes en situation de handicap. Afin de nous permettre d’organiser le déroulement de la formation dans les meilleures conditions possibles, contactez-nous. Un entretien avec notre référent.e handicap pourra être programmé afin d’identifier les besoins et aménagements nécessaires.

Demander un devis

Dates des prochaines sessions

Session garantie à partir de 2 personnes.

March

Du
20.3.24
au
22.3.24
Centre de Nantes / Classe à Distance / Dans vos locaux

June

Du
25.6.24
au
27.6.24
Centre de Nantes / Classe à Distance / Dans vos locaux