list 3 séquences
assignment Niveau : Introductif
chat_bubble_outline Langue : Français
card_giftcard 18 points
Envie de partager ce MOOC dans votre entreprise ?
My Mooc
For Business
3.7 /5
Avis de la communauté
1 avis

Les infos clés

credit_card Formation gratuite
verified_user Certification payante
timer 30 heures de cours

En résumé

Dans le MOOC Initiez-vous au machine learning, vous avez découvert les fondements de l'analyse de donnée automatisée. Dans ce deuxième cours, vous apprendrez à évaluer vos algorithmes pour les rendre plus performants. 

De nombreux choix d'algorithmes d'apprentissage et de leurs hyperparamètres s'offrent aux Data Scientists. La nature du problème à résoudre permet en partie de guider ce choix. Par exemple, on n'appliquera pas un algorithme de classification à un problème de régression.

Néanmoins, il est nécessaire de savoir évaluer n'importe quel algorithme d'apprentissage sur son jeu de données, en évitant au mieux le biais de sur-apprentissage. Une évaluation rigoureuse des performances d'un algorithme est une étape indispensable à son déploiement.

Suivez ce cours pour apprendre à évaluer un modèle d'apprentissage supervisé afin de choisir le bon modèle pour votre problème, en évitant de tomber dans un des principaux pièges qui guettent les Data Scientists.

Objectifs pédagogiques :

  • Choisir une ou plusieurs mesures de la performance d'un algorithme d'apprentissage supervisé, adaptées à la question posée
  • Mettre en place une procédure de validation qui réduise le risque d'apprentissage (séparation du jeu d'apprentissage et de validation, validation croisée)
  • Mettre en place une procédure de grille de recherche (grid search) pour choisir les hyperparamètres d'un algorithme

Prérequis :

  • Ce cours de Data Science se situe au croisement des mathématiques et de l'informatique. Pour en profiter pleinement, n'hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :
  • Python pour le calcul numérique que nous utiliserons dans la partie TP du cours (librairie numpy et création de graphes avec pyplot)
  • Quelques notions d'algèbre linéaire, telles que manipulation de vecteurs, multiplications de matrices, normes
  • Quelques notions de probabilités et statistiques, telles que distribution de loi de probabilité et variance

more_horiz Lire plus
more_horiz Lire moins
dns

Le programme

Partie 1 - Évaluez vos modèles sans sur-apprentissage
1. Comprenez ce qui fait un bon modèle d’apprentissage
2. Mettez en place un cadre de validation croisée
3. TP – Sélectionnez le nombre de voisins dans un kNN
Activité : Implémentez une validation croisée

Partie 2 - Évaluez un modèle de classification
1. Évaluez un algorithme de classification qui retourne des valeurs binaires
2. Évaluez un algorithme de classification qui retourne des scores
3. Comparez votre algorithme à des approches de classification naïves
Quiz : Evaluez un modèle de classification

Partie 3 - Évaluez un modèle de régression
1. Évaluez un algorithme de régression
2. Comparez votre algorithme à des approches de régression naïves
Activité : Sélectionnez le nombre de voisins dans un kNN pour une régression

Certificat de réussite

record_voice_over

Les intervenants

Chloé-Agathe Azencott
Chargée de recherche au CBIO de MINES ParisTech & Institut Curie. Enseignante à CentraleSupélec. Machine learning & bioinformatique.

store

Le concepteur

CentraleSupélec is the result of the merger of the Ecole Centrale Paris and the Supélec. The collaboration between the two Colleges of engineering begun in 1969 with the introduction of the joint competitive entrance exam. Since 2009, the Ecole Centrale Paris and Supélec have continually strengthened their partnerships and collaborations with the aim of encompassing the whole of their activities (engineering education, research and post graduate programs) and confirmed their shared values of excellence, innovation, entrepreneurship, internationalization and leadership. Today CentraleSupélec aims to become a reference in the field of engineering and systems sciences and a leading engineering College in the area of higher education and research, ranked amongst the best institutions in the world.
assistant

La plateforme

OpenClassrooms (anciennement le Site du Zéro ou SdZ), est un site web qui propose des cours autour de l'informatique, des sciences et de l'entrepreneuriat.

Les cours en ligne peuvent être réalisés aussi bien par l'équipe du site, des professeurs d'universités ou de grandes écoles partenaires que par ses membres.

Aujourd'hui, les cours sont disponibles dans plusieurs format : MOOC (Massive Open Online Course), texte web, e-book, livre et en vidéo. L'entreprise délivre des certifications pour certains cours, dont une reconnue par l'état, en partenariat avec IESA multimédia.

Avis de la communauté
3.7 /5 Moyenne
0
1
0
0
0
Contenu
5/5
Plateforme
2/5
Animation
4/5
Le meilleur avis

Beaucoup plus accessible que le Mooc d'initiation (paradoxalement), ce mooc permet de comprendre comment tester et évaluer correctement un modèle de machine learning, en se basant sur des modèles simples et faciles à appréhender, comme la régression linéaire. Le fait de réimplémenter les calculs permet de bien comprendre comment ils fonctionnent et en quoi il sont pertinents pour vérifier son modèle. Petit bémol, indépendamment du contenu, les temps de correction des exercices sont assez longs.

Vous êtes le concepteur de ce MOOC ?
Quelle note donnez-vous à cette ressource ?
Contenu
0/5
Plateforme
0/5
Animation
0/5

Beaucoup plus accessible que le Mooc d'initiation (paradoxalement), ce mooc permet de comprendre comment tester et évaluer correctement un modèle de machine learning, en se basant sur des modèles simples et faciles à appréhender, comme la régression linéaire. Le fait de réimplémenter les calculs permet de bien comprendre comment ils fonctionnent et en quoi il sont pertinents pour vérifier son modèle. Petit bémol, indépendamment du contenu, les temps de correction des exercices sont assez longs.