list 2 séquences
assignment Niveau : Introductif
label Informatique & Programmation
chat_bubble_outline Langue : Français
card_giftcard 4.8 points
- /5
Avis de la communauté
0 avis

Les infos clés

credit_card Formation gratuite
verified_user Certification payante
timer 8 heures de cours

En résumé

Lors de la conception d’une architecture Big Data, la première question concerne le stockage pur et simple des données brutes.

Où stocker les données ? Selon quel format ? Selon quelle hiérarchie ? Les solutions choisies doivent répondre à des impératifs de passage à l’échelle puisque la quantité de données à stocker va toujours croissant. Mais il ne s’agit pas pour autant d’archivage car il faut établir un accès aisé aux données pour permettre leur exploitation par des applications tierces.

Dans ce cours, vous apprendrez à concevoir un Data Lake : il s’agit d’un dépôt de données brutes accessible en lecture seule qui doit être la source de données de référence utilisée par les autres applications de traitement de données. C’est donc un composant fondamental de toute architecture Big Data !

Vous trouviez le stockage de données boring ? Vous allez changer d’avis !

Objectifs pédagogiques :

  • Concevoir un data lake
  • Stocker des quantités massives de données avec HDFS
  • Représenter des données semi-structurées avec Avro
  • Mettre en place des outils d’analyse de données par lot

 Prérequis :

  • Programmation : Connaissances en programmation objet (Java, Scala, Python, Ruby, C++ ou autre) et en structures de données.
  • Ingénierie informatique :
  • - Solides connaissances de l'environnement Unix.
  • - Gestion de la mémoire et des transferts de données.
  • - Connaissances réseau élémentaires.

more_horiz Lire plus
more_horiz Lire moins
dns

Le programme

Partie 1 - Stockez vos données de manière distribuée avec HDFS

1. Identifiez les besoins de votre data lake
2. Découvrez le système de fichiers distribué HDFS
3. Mettez les mains dans le cambouis avec HDFS
4. Déployez HDFS en production et passez à l’échelle
Quiz : Devenez incollables sur l'administration d'un cluster HDFS

Partie 2 - Sérialisez vos données avec Avro

1. Créez vos premiers schémas de données avec Avro
2. Faites évoluer vos schémas de données
3. Réalisez des analyses sur votre master dataset
Activité : Mangez des nouilles !

Certificat de réussite

record_voice_over

Les intervenants

Régis Behmo
Expert en machine learning, développeur fullstack, grimpeur invétéré et gros, très gros amateur de nouilles chinoises.

store

Le concepteur

CentraleSupélec is the result of the merger of the Ecole Centrale Paris and the Supélec. The collaboration between the two Colleges of engineering begun in 1969 with the introduction of the joint competitive entrance exam. Since 2009, the Ecole Centrale Paris and Supélec have continually strengthened their partnerships and collaborations with the aim of encompassing the whole of their activities (engineering education, research and post graduate programs) and confirmed their shared values of excellence, innovation, entrepreneurship, internationalization and leadership. Today CentraleSupélec aims to become a reference in the field of engineering and systems sciences and a leading engineering College in the area of higher education and research, ranked amongst the best institutions in the world.
assistant

La plateforme

OpenClassrooms (anciennement le Site du Zéro ou SdZ), est un site web qui propose des cours autour de l'informatique, des sciences et de l'entrepreneuriat.

Les cours en ligne peuvent être réalisés aussi bien par l'équipe du site, des professeurs d'universités ou de grandes écoles partenaires que par ses membres.

Aujourd'hui, les cours sont disponibles dans plusieurs format : MOOC (Massive Open Online Course), texte web, e-book, livre et en vidéo. L'entreprise délivre des certifications pour certains cours, dont une reconnue par l'état, en partenariat avec IESA multimédia.

Quelle note donnez-vous à cette ressource ?
Contenu
0/5
Plateforme
0/5
Animation
0/5