Ce que vous apprendrez ?

  • Évaluer et comparer les performances de différentes approches de traitement de données avec Spark.
  • Appliquer des techniques d'analyse prédictive avec Spark MLlib pour résoudre des problèmes concrets.
  • Construire et optimiser des pipelines de traitement de données avec Spark pour des ensembles de données volumineux.
  • Implémenter des transformations et des actions de base en utilisant les APIs RDD et DataFrame de Spark.
  • Décrire les architectures Big Data et le rôle de Spark dans leur traitement.

Prérequis

  • Connaissance des bases du Big Data et des architectures distribuées Expérience en programmation Python ou Scala Compréhension du modèle de programmation Spark (RDD, DataFrame, Dataset) Notions en manipulation et analyse de données (Pandas, SQL, etc.) Familiarité avec les systèmes de stockage distribués (HDFS, Parquet, ORC, etc.) Notions en Machine Learning et statistiques (MLlib, Scikit-Learn, etc.) Expérience en traitement de flux en temps réel (Spark Streaming, Kafka, Flink, etc.)

Contenu de la Formation

Total: 20 Chapitres Total hours: 6-12
  • Qu'est-ce que le Big Data ?
  • Introduction à Apache Spark
  • Architecture de Spark
  • Installation et configuration de Spark
  • Création de RDDs
  • Transformations de base (map, filter, flatMap)
  • Actions de base (collect, count, reduce)
  • Broadcasting et accumulation
  • Introduction aux DataFrames
  • Manipulation de DataFrames (sélection, filtrage, agrégation)
  • Introduction aux Datasets
  • Performance et optimisation des DataFrames et Datasets
  • Spark SQL : Introduction et requêtes
  • Intégration de données externes
  • Introduction au Machine Learning avec Spark MLlib
  • Algorithmes de Machine Learning avec Spark
  • Introduction à Spark Streaming
  • Traitement en temps réel de données
  • Cas d'utilisation et exemples
  • Optimisation et déploiement d'applications Spark

À TÉLÉCHARGER

À propos de l'instructeur

Avatar image
IDRISSI

nouhaila.idrissi@openskillroom.com

Nouhaila IDRISSI est Maître de conférences en Informatique et en Intelligence Artificielle. Après avoir terminé ses études à l’ENSIAS, elle a obtenu un doctorat en informatique et en apprentissage profond de l’École Mohammadia d'ingénieurs (EMI). Notre formatrice dispose de compétences pluridisciplinaires et complémentaires en IA, Big Data, Machine Learning, Deep Learning, NLP, Data Warehousing, BI et Cloud computing. Parallèlement à ses activités académiques, Dr IDRISSI est une collaboratrice active dans le milieu industriel, contribuant à combler le fossé entre la recherche académique et les applications du monde réel.

Retour des Apprenants

Avis

Pour ajouter un avis sur le cours, vous devez d'abord vous connecter. Connectez-vous ici

Caractéristiques du cours

  • Durée 6-12 hour
  • Language Français
  • Niveau de compétence.
  • CertificateNon
  • Nombre maximum d'inscrits
  • Type de formation

Devenir enseignant, Partagez vos connaissances

Rejoignez OpenskillRoom, la plateforme de formations synchrones qui valorise votre expertise.