- Sur openclassrooms.com
Réalisez des calculs distribués sur des données massives
- À son rythme
- Accès libre
- Certificat payant
- 4 séquences
- Niveau Introductif
Détails du cours
Déroulé
Partie 1 - Au fond, c’est quoi le Big Data ?
1. Prenez vos marques dans le monde du Big Data
2. Voyagez dans l’écosystème du Big Data
3. Initiez-vous au calcul distribué
Quiz : Quiz 1
Partie 2 - Réalisez des calculs massivement parallèles avec MapReduce
1. Divisez (et distribuez) pour régner
2. Parcourez les principaux algorithmes MapReduce
3. Familiarisez-vous avec Hadoop
Activité : Recréez le cœur de Google avec Hadoop : la pondération tf-idf et le PageRank
Partie 3 - Effectuez des calculs distribués sous forme de graphes avec Spark
1. Allez au-delà de MapReduce avec Spark
2. Prenez Spark en main
3. Domptez les Resilient Distributed Datasets
4. Mettez Spark au service des Data Scientists
5. Apprenez à débugger une application Spark
Activité : Mettez en place une application Spark
Partie 4 - Passez à l'échelle dans le cloud
1. Découvrez Amazon Web Services
2. Stockez des données sur S3
3. Déployez un cluster de calcul distribué
4. Réalisez la maintenance d'un cluster
Quiz : Quiz 4
Certificat de réussite
Prérequis
Intervenants
Régis Behmo
Expert en machine learning, développeur fullstack, grimpeur invétéré et gros, très gros amateur de nouilles chinoises.
Céline Hudelot
Professeur des Universités en Informatique à CentraleSupélec.
Éditeur
Plateforme
OpenClassrooms (anciennement le Site du Zéro ou SdZ), est un site web qui propose des cours autour de l'informatique, des sciences et de l'entrepreneuriat.
Les cours en ligne peuvent être réalisés aussi bien par l'équipe du site, des professeurs d'universités ou de grandes écoles partenaires que par ses membres.
Aujourd'hui, les cours sont disponibles dans plusieurs format : MOOC (Massive Open Online Course), texte web, e-book, livre et en vidéo. L'entreprise délivre des certifications pour certains cours, dont une reconnue par l'état, en partenariat avec IESA multimédia.