list 4 séquences
assignment Niveau : Introductif
label Informatique & Programmation
chat_bubble_outline Langue : Français
card_giftcard 36 points
- /5
Avis de la communauté
0 avis

Les infos clés

credit_card Formation gratuite
verified_user Certification payante
timer 60 heures de cours

En résumé

Que faire lorsque la complexité de vos applications dépasse votre capacité de calcul ? La solution consiste à distribuer les calculs sur un cluster constitué de plusieurs machines, mais faut-il pour cela avoir un supercalculateur dans son garage ? Non ! Aujourd'hui, le cluster computing est à la portée de tous grâce à MapReduce, qui permet de créer facilement des applications distribuées, et au cloud, qui fournit des ressources de calculs pratiquement infinies pour un coût modique.

C'est le rôle des Data Architects de déployer des clusters de calculs permettant de réaliser des analyses complexes sur des données massives. Pour cela, nous verrons ensemble comment écrire des applications distribuées avec Hadoop MapReduce et Spark, éléments essentiels de la boîte à outil des Data Architects. À l'issue de ce cours, vous serez en mesure de lancer des calculs distribués sur des clusters contenant des dizaines de machines à l'aide d'Amazon Web Services.

Vous voulez faire du Big Data sans blabla ? Alors on y va !

Objectifs pédagogiques :

  • Dans ce cours d’introduction au Big Data et au calcul distribué, vous allez apprendre à…
  • Distribuer des calculs avec MapReduce
  • Utiliser Spark pour distribuer des calculs sous forme de graphes
  • Formaliser un problème sous forme distribuée en comprenant le concept de Resilient Distributed Dataset
  • Déployer, administrer et débugger une plateforme de calcul distribué avec Amazon Web Services

Prérequis :

  • Algorithmique
  • Estimation et optimisation de complexité en temps et espace, notation asymptotique
  • Structures de données (listes, piles, files, ensembles, tas, arbres binaires de recherche, tables de hachage)
  • Théorie des graphes (parcours, plus court chemin)
  • Conception d'algorithmes (diviser pour régner, force brute)
  • Programmation
  • Solides connaissances en programmation objet (Java, Scala, Python, Ruby, C++ ou autre)
  • Structures de données
  • Notions de parallélisation
  • Ingénierie informatique
  • Solides connaissances de l'environnement UNIX
  • Gestion de la mémoire et des transferts de données
  • Connaissances  élémentaires des réseaux

more_horiz Lire plus
more_horiz Lire moins
dns

Le programme

Partie 1 - Au fond, c’est quoi le Big Data ?
1. Prenez vos marques dans le monde du Big Data
2. Voyagez dans l’écosystème du Big Data
3. Initiez-vous au calcul distribué
Quiz : Quiz 1

Partie 2 - Réalisez des calculs massivement parallèles avec MapReduce
1. Divisez (et distribuez) pour régner
2. Parcourez les principaux algorithmes MapReduce
3. Familiarisez-vous avec Hadoop
Activité : Recréez le cœur de Google avec Hadoop : la pondération tf-idf et le PageRank

Partie 3 - Effectuez des calculs distribués sous forme de graphes avec Spark
1. Allez au-delà de MapReduce avec Spark
2. Prenez Spark en main
3. Domptez les Resilient Distributed Datasets
4. Mettez Spark au service des Data Scientists
5. Apprenez à débugger une application Spark
 Activité : Mettez en place une application Spark

Partie 4 - Passez à l'échelle dans le cloud
1. Découvrez Amazon Web Services
2. Stockez des données sur S3
3. Déployez un cluster de calcul distribué
4. Réalisez la maintenance d'un cluster
Quiz : Quiz 4

Certificat de réussite

record_voice_over

Les intervenants

Régis Behmo
Expert en machine learning, développeur fullstack, grimpeur invétéré et gros, très gros amateur de nouilles chinoises.

Céline Hudelot
Professeur des Universités en Informatique à CentraleSupélec.

store

Le concepteur

CentraleSupélec is the result of the merger of the Ecole Centrale Paris and the Supélec. The collaboration between the two Colleges of engineering begun in 1969 with the introduction of the joint competitive entrance exam. Since 2009, the Ecole Centrale Paris and Supélec have continually strengthened their partnerships and collaborations with the aim of encompassing the whole of their activities (engineering education, research and post graduate programs) and confirmed their shared values of excellence, innovation, entrepreneurship, internationalization and leadership. Today CentraleSupélec aims to become a reference in the field of engineering and systems sciences and a leading engineering College in the area of higher education and research, ranked amongst the best institutions in the world.
assistant

La plateforme

OpenClassrooms (anciennement le Site du Zéro ou SdZ), est un site web qui propose des cours autour de l'informatique, des sciences et de l'entrepreneuriat.

Les cours en ligne peuvent être réalisés aussi bien par l'équipe du site, des professeurs d'universités ou de grandes écoles partenaires que par ses membres.

Aujourd'hui, les cours sont disponibles dans plusieurs format : MOOC (Massive Open Online Course), texte web, e-book, livre et en vidéo. L'entreprise délivre des certifications pour certains cours, dont une reconnue par l'état, en partenariat avec IESA multimédia.

Quelle note donnez-vous à cette ressource ?
Contenu
0/5
Plateforme
0/5
Animation
0/5