Ce que vous apprendrez ?

  • Optimiser les performances des applications Spark en ajustant les configurations du cluster et en utilisant les techniques de partitionnement et de diffusion de données.
  • Entraîner et évaluer des modèles d'apprentissage automatique courants (régression linéaire, classification) à l'aide de Spark MLlib.
  • Construire des pipelines d'ingénierie de données avec Spark pour le nettoyage, la transformation et le chargement de données volumineuses.
  • Implémenter des transformations et des actions de base sur des RDD et des DataFrames Spark en utilisant Python ou Scala.
  • Décrire les architectures de traitement de données distribuées et expliquer le rôle d'Apache Spark dans ce contexte.

Prérequis

  • Connaissance des concepts fondamentaux du Big Data et des architectures distribuées Maîtrise d’un langage de programmation (Python, Scala ou Java) Expérience en manipulation de données avec SQL et Pandas Compréhension du modèle de programmation Spark (RDD, DataFrame, Dataset) Notions en stockage et gestion de données massives (HDFS, Parquet, ORC, etc.) Bases en Machine Learning et statistiques (MLlib, Scikit-Learn, TensorFlow, etc.) Expérience en traitement de flux de données en temps réel (Spark Streaming, Kafka, etc.) Familiarité avec les outils d’orchestration et de gestion des workflows (Airflow, Oozie, etc.)

Contenu de la Formation

Total: 20 Chapitres Total hours: 6-12
  • Présentation de Spark et son architecture
  • Les différents composants de Spark (Spark Core, SQL, Streaming, MLlib, GraphX)
  • Installation et configuration de Spark
  • Premiers pas avec Spark : création d'un SparkContext et RDDs
  • Création et manipulation de RDDs
  • Transformations de données (map, filter, flatMap, etc.)
  • Actions de données (count, collect, reduce, etc.)
  • Optimisation des performances des transformations
  • Introduction à Spark SQL et DataFrames
  • Création et manipulation de DataFrames
  • Requêtes SQL sur les DataFrames
  • Intégration avec des sources de données externes (JDBC, CSV, Parquet)
  • Introduction à Spark Streaming
  • Traitement de flux de données en temps réel
  • Opérations de windowing et d'agrégation
  • Intégration avec Kafka et d'autres sources de streaming
  • Introduction à Spark MLlib
  • Algorithmes de Machine Learning (régression, classification, clustering)
  • Préparation des données pour le Machine Learning
  • Évaluation des modèles et optimisation des hyperparamètres

À TÉLÉCHARGER

À propos de l'instructeur

Avatar image
IDRISSI

nouhaila.idrissi@openskillroom.com

Nouhaila IDRISSI est Maître de conférences en Informatique et en Intelligence Artificielle. Après avoir terminé ses études à l’ENSIAS, elle a obtenu un doctorat en informatique et en apprentissage profond de l’École Mohammadia d'ingénieurs (EMI). Notre formatrice dispose de compétences pluridisciplinaires et complémentaires en IA, Big Data, Machine Learning, Deep Learning, NLP, Data Warehousing, BI et Cloud computing. Parallèlement à ses activités académiques, Dr IDRISSI est une collaboratrice active dans le milieu industriel, contribuant à combler le fossé entre la recherche académique et les applications du monde réel.

Retour des Apprenants

Avis

Pour ajouter un avis sur le cours, vous devez d'abord vous connecter. Connectez-vous ici

Caractéristiques du cours

  • Durée 6-12 hour
  • Language Français
  • Niveau de compétence.
  • CertificateNon
  • Nombre maximum d'inscrits
  • Type de formation

Devenir enseignant, Partagez vos connaissances

Rejoignez OpenskillRoom, la plateforme de formations synchrones qui valorise votre expertise.