Ce que vous apprendrez ?

  • Comparer et contraster les performances et les cas d'utilisation de Spark et Hadoop pour le traitement de données volumineuses.
  • Utiliser Pig et Hive pour effectuer des requêtes et des transformations de données sur des données stockées dans HDFS.
  • Concevoir et mettre en œuvre des schémas de données pour HBase et optimiser les requêtes.
  • Implémenter des applications MapReduce pour traiter de grands ensembles de données.
  • Décrire l'architecture et les fonctionnalités clés de Hadoop, HDFS, MapReduce, HBase, Pig, Spark, Hive et Kafka.

Prérequis

  • Connaissance des concepts fondamentaux du Big Data et des architectures distribuées Notions de base en administration et gestion des systèmes Linux Maîtrise des bases de données relationnelles et NoSQL (SQL, HBase, Cassandra, MongoDB, etc.) Compréhension des modèles de traitement de données distribuées (MapReduce, Spark, Flink, etc.) Expérience en manipulation de données avec Hive, Pig et Spark SQL Notions en gestion et stockage des données massives (HDFS, Parquet, ORC, etc.) Familiarité avec les systèmes de messagerie et de streaming (Kafka, RabbitMQ, etc.) Expérience en orchestration et gestion des workflows Big Data (Oozie, Airflow, NiFi, etc.)

Contenu de la Formation

Total: 20 Chapitres Total hours: 6-12
  • Introduction aux données massives et aux défis associés
  • Présentation de Hadoop et de son architecture
  • HDFS: Fonctionnement et gestion du stockage distribué
  • MapReduce: Principe de fonctionnement et exemples pratiques
  • Approfondissement sur MapReduce: Optimisation et cas d'utilisation
  • Introduction à Pig: Langage de script pour Hadoop
  • Exemples pratiques de scripts Pig pour le traitement de données
  • Mise en œuvre et optimisation de scripts Pig
  • HBase: Base de données NoSQL distribuée pour Hadoop
  • Modélisation des données avec HBase
  • Introduction à Hive: entrepôt de données sur Hadoop
  • Requêtes SQL sur Hive et optimisation des performances
  • Introduction à Spark: traitement distribué rapide et in-memory
  • Spark SQL et DataFrames pour l'analyse de données
  • Introduction à Kafka: système de messagerie distribué pour le streaming
  • Intégration de Spark et Kafka pour le traitement de flux de données
  • Architecture globale d'un système Big Data
  • Cas d'études concrets d'intégration des technologies abordées
  • Meilleures pratiques et optimisation des performances
  • Tendances futures dans le domaine du Big Data

À TÉLÉCHARGER

À propos de l'instructeur

Avatar image
IDRISSI

nouhaila.idrissi@openskillroom.com

Nouhaila IDRISSI est Maître de conférences en Informatique et en Intelligence Artificielle. Après avoir terminé ses études à l’ENSIAS, elle a obtenu un doctorat en informatique et en apprentissage profond de l’École Mohammadia d'ingénieurs (EMI). Notre formatrice dispose de compétences pluridisciplinaires et complémentaires en IA, Big Data, Machine Learning, Deep Learning, NLP, Data Warehousing, BI et Cloud computing. Parallèlement à ses activités académiques, Dr IDRISSI est une collaboratrice active dans le milieu industriel, contribuant à combler le fossé entre la recherche académique et les applications du monde réel.

Retour des Apprenants

Avis

Pour ajouter un avis sur le cours, vous devez d'abord vous connecter. Connectez-vous ici

Caractéristiques du cours

  • Durée 6-12 hour
  • Language Français
  • Niveau de compétence.
  • CertificateNon
  • Nombre maximum d'inscrits
  • Type de formation

Devenir enseignant, Partagez vos connaissances

Rejoignez OpenskillRoom, la plateforme de formations synchrones qui valorise votre expertise.