Comparer et contraster les différents services AWS d'analyse de données en fonction de leurs forces et faiblesses pour une tâche donnée.
Analyser des données à l'aide de services AWS tels que Amazon Athena, Amazon Redshift ou Amazon EMR, en produisant des visualisations et des rapports significatifs.
Implémenter des pipelines de traitement de données à l'aide de services AWS tels que AWS Glue, AWS Data Pipeline ou AWS Step Functions.
Décrire et appliquer des techniques de transformation de données sur AWS, incluant le nettoyage, la transformation et l'enrichissement des données.
Identifier et sélectionner les services AWS appropriés pour le stockage, le traitement et l'analyse de différents types de données.
Prérequis
Connaissance des fondamentaux du Cloud AWS (IAM, VPC, S3, EC2)
Bases en manipulation et structuration des données (formats JSON, CSV, Parquet)
Notions en bases de données relationnelles et NoSQL (RDS, DynamoDB, Redshift)
Familiarité avec les services AWS pour l’analyse de données (Glue, Athena, Kinesis, EMR)
Bases en SQL et en programmation avec Python ou Scala
Compréhension des concepts d’ETL (Extract, Transform, Load)
Notions de Big Data et traitement distribué (Hadoop, Spark sur AWS)
Contenu de la Formation
Total:
20 Chapitres
Total hours:
10
Présentation d'AWS et de ses services de données
Importation et préparation des données sur AWS
Introduction à AWS Glue et AWS Data Pipeline
Exploration des données avec Amazon Athena
Création de jobs ETL avec AWS Glue
Utilisation de scripts Python avec AWS Glue
Transformation des données avec Spark sur AWS Glue
Gestion des données et monitoring des jobs
Stockage des données dans Amazon S3
Chargement des données dans Amazon Redshift
Optimisation des performances de Amazon Redshift
Gestion des données et sécurité sur Amazon Redshift
Visualisation des données avec Amazon QuickSight
Création de dashboards interactifs
Analyse de données avec Amazon EMR et Spark
Traitement de données volumineuses avec Amazon EMR
Etudes de cas de transformation et d'analyse de données
Meilleures pratiques pour l'architecture de données sur AWS