Key Information
About the content
Dans le MOOC Initiez-vous au machine learning, vous avez découvert les fondements de l'analyse de donnée automatisée. Dans ce deuxième cours, vous apprendrez à évaluer vos algorithmes pour les rendre plus performants.
De nombreux choix d'algorithmes d'apprentissage et de leurs hyperparamètres s'offrent aux Data Scientists. La nature du problème à résoudre permet en partie de guider ce choix. Par exemple, on n'appliquera pas un algorithme de classification à un problème de régression.
Néanmoins, il est nécessaire de savoir évaluer n'importe quel algorithme d'apprentissage sur son jeu de données, en évitant au mieux le biais de sur-apprentissage. Une évaluation rigoureuse des performances d'un algorithme est une étape indispensable à son déploiement.
Suivez ce cours pour apprendre à évaluer un modèle d'apprentissage supervisé afin de choisir le bon modèle pour votre problème, en évitant de tomber dans un des principaux pièges qui guettent les Data Scientists.
Objectifs pédagogiques :
- Choisir une ou plusieurs mesures de la performance d'un algorithme d'apprentissage supervisé, adaptées à la question posée
- Mettre en place une procédure de validation qui réduise le risque d'apprentissage (séparation du jeu d'apprentissage et de validation, validation croisée)
- Mettre en place une procédure de grille de recherche (grid search) pour choisir les hyperparamètres d'un algorithme
Prérequis :
- Ce cours de Data Science se situe au croisement des mathématiques et de l'informatique. Pour en profiter pleinement, n'hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :
- Python pour le calcul numérique que nous utiliserons dans la partie TP du cours (librairie numpy et création de graphes avec pyplot)
- Quelques notions d'algèbre linéaire, telles que manipulation de vecteurs, multiplications de matrices, normes
- Quelques notions de probabilités et statistiques, telles que distribution de loi de probabilité et variance
Syllabus
Partie 1 - Évaluez vos modèles sans sur-apprentissage
1. Comprenez ce qui fait un bon modèle d’apprentissage
2. Mettez en place un cadre de validation croisée
3. TP – Sélectionnez le nombre de voisins dans un kNN
Activité : Implémentez une validation croisée
Partie 2 - Évaluez un modèle de classification
1. Évaluez un algorithme de classification qui retourne des valeurs binaires
2. Évaluez un algorithme de classification qui retourne des scores
3. Comparez votre algorithme à des approches de classification naïves
Quiz : Evaluez un modèle de classification
Partie 3 - Évaluez un modèle de régression
1. Évaluez un algorithme de régression
2. Comparez votre algorithme à des approches de régression naïves
Activité : Sélectionnez le nombre de voisins dans un kNN pour une régression
Certificat de réussite
Instructors
Chloé-Agathe Azencott
Chargée de recherche au CBIO de MINES ParisTech & Institut Curie. Enseignante à CentraleSupélec. Machine learning & bioinformatique.
Content Designer

Platform

OpenClassrooms (formerly Le site du Zéro or SdZ) is a website that offers courses about computer science and entrepreneurship. Online courses can be made both by site staff, professors of universities or colleges partner as by its members.
Today, courses are available in several formats: MOOC (Massive Open Online Course), web text, e-book, book and video. The company delivers certifications for certain courses, including one recognized by the state in partnership with IESA multimedia.
Beaucoup plus accessible que le Mooc d'initiation (paradoxalement), ce mooc permet de comprendre comment tester et évaluer correctement un modèle de machine learning, en se basant sur des modèles simples et faciles à appréhender, comme la régression linéaire. Le fait de réimplémenter les calculs permet de bien comprendre comment ils fonctionnent et en quoi il sont pertinents pour vérifier son modèle. Petit bémol, indépendamment du contenu, les temps de correction des exercices sont assez longs.


Beaucoup plus accessible que le Mooc d'initiation (paradoxalement), ce mooc permet de comprendre comment tester et évaluer correctement un modèle de machine learning, en se basant sur des modèles simples et faciles à appréhender, comme la régression linéaire. Le fait de réimplémenter les calculs permet de bien comprendre comment ils fonctionnent et en quoi il sont pertinents pour vérifier son modèle. Petit bémol, indépendamment du contenu, les temps de correction des exercices sont assez longs.