Les infos clés
En résumé
Dans le cours Initiez-vous au machine learning, vous avez découvert comment transformer une question que vous avez sur vos données en un problème d’apprentissage automatique non supervisé. Dans ce cours, vous apprendrez à choisir et utiliser les principaux algorithmes qui permettent de résoudre ces problèmes.
Vous découvrirez comment réduire la dimension de vos données grâce à des techniques linéaires comme l’analyse en composantes principales (ACP), ou des techniques non linéaires comme le très populaire t-SNE. Vous découvrirez aussi comment fonctionnent trois familles d’algorithmes de clustering : le clustering hiérarchique, k-means et le clustering par densité.
Suivez ce cours pour apprendre à réduire la dimension de vos données, mieux les visualiser ou pour rendre vos algorithmes plus efficaces, et pour découvrir comment segmenter automatiquement vos données, sans avoir à définir des classes a priori.
Le programme
Objectifs pédagogiques :
- Comprendre à quelles questions un algorithme d’apprentissage non supervisé permet de répondre,
- Utiliser les principaux algorithmes de réduction de dimension non supervisé classique (ACP, analyse factorielle, factorisation de matrice non négative, MDS, tSNE),
- Choisir un algorithme de réduction de dimension non supervisé en fonction de vos besoins et des caractéristiques des données,
- Utiliser les principaux algorithmes de clustering (k-means, DBSCAN, clustering hiérarchique),
- Choisir un algorithme de clustering en fonction de vos besoins et des caractéristiques des données.
Prérequis :
Ce cours de Data Science se situe au croisement des mathématiques et de l'informatique. Pour en profiter pleinement, n'hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :
- Python pour le calcul numérique (numpy) et la création de graphiques (pyplot), que nous utiliserons dans les parties TP du cours,
- Quelques notions d'algèbre linéaire : manipulation de vecteurs, multiplications de matrices, normes, et valeurs/vecteurs propres,
- Quelques notions de probabilités et statistiques, telles que distribution de loi de probabilité et variance.
Les intervenants
Yannis Chaouche
Data scientist & professeur chez OpenClassrooms
Chloé-Agathe Azencott
Chargée de recherche au CBIO de MINES ParisTech & Institut Curie. Enseignante à CentraleSupélec. Machine learning & bioinformatique.
Le concepteur

La plateforme

OpenClassrooms (anciennement le Site du Zéro ou SdZ), est un site web qui propose des cours autour de l'informatique, des sciences et de l'entrepreneuriat.
Les cours en ligne peuvent être réalisés aussi bien par l'équipe du site, des professeurs d'universités ou de grandes écoles partenaires que par ses membres.
Aujourd'hui, les cours sont disponibles dans plusieurs format : MOOC (Massive Open Online Course), texte web, e-book, livre et en vidéo. L'entreprise délivre des certifications pour certains cours, dont une reconnue par l'état, en partenariat avec IESA multimédia.