link Source: openclassrooms.com
list 3 sequences
assignment Level : Introductory
chat_bubble_outline Language : French
card_giftcard 240 points
Logo My Mooc Business

Their employees are learning daily with Edflex

Get started
Users' reviews
3.7
starstarstarstar
Read review

Key Information

credit_card Free access
verified_user Fee-based Certificate
timer 30 hours in total

About the content

Dans le MOOC Initiez-vous au machine learning, vous avez découvert les fondements de l'analyse de donnée automatisée. Dans ce deuxième cours, vous apprendrez à évaluer vos algorithmes pour les rendre plus performants. 

De nombreux choix d'algorithmes d'apprentissage et de leurs hyperparamètres s'offrent aux Data Scientists. La nature du problème à résoudre permet en partie de guider ce choix. Par exemple, on n'appliquera pas un algorithme de classification à un problème de régression.

Néanmoins, il est nécessaire de savoir évaluer n'importe quel algorithme d'apprentissage sur son jeu de données, en évitant au mieux le biais de sur-apprentissage. Une évaluation rigoureuse des performances d'un algorithme est une étape indispensable à son déploiement.

Suivez ce cours pour apprendre à évaluer un modèle d'apprentissage supervisé afin de choisir le bon modèle pour votre problème, en évitant de tomber dans un des principaux pièges qui guettent les Data Scientists.

Objectifs pédagogiques :

  • Choisir une ou plusieurs mesures de la performance d'un algorithme d'apprentissage supervisé, adaptées à la question posée
  • Mettre en place une procédure de validation qui réduise le risque d'apprentissage (séparation du jeu d'apprentissage et de validation, validation croisée)
  • Mettre en place une procédure de grille de recherche (grid search) pour choisir les hyperparamètres d'un algorithme

Prérequis :

  • Ce cours de Data Science se situe au croisement des mathématiques et de l'informatique. Pour en profiter pleinement, n'hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :
  • Python pour le calcul numérique que nous utiliserons dans la partie TP du cours (librairie numpy et création de graphes avec pyplot)
  • Quelques notions d'algèbre linéaire, telles que manipulation de vecteurs, multiplications de matrices, normes
  • Quelques notions de probabilités et statistiques, telles que distribution de loi de probabilité et variance

more_horiz Read more
more_horiz Read less
dns

Syllabus

Partie 1 - Évaluez vos modèles sans sur-apprentissage
1. Comprenez ce qui fait un bon modèle d’apprentissage
2. Mettez en place un cadre de validation croisée
3. TP – Sélectionnez le nombre de voisins dans un kNN
Activité : Implémentez une validation croisée

Partie 2 - Évaluez un modèle de classification
1. Évaluez un algorithme de classification qui retourne des valeurs binaires
2. Évaluez un algorithme de classification qui retourne des scores
3. Comparez votre algorithme à des approches de classification naïves
Quiz : Evaluez un modèle de classification

Partie 3 - Évaluez un modèle de régression
1. Évaluez un algorithme de régression
2. Comparez votre algorithme à des approches de régression naïves
Activité : Sélectionnez le nombre de voisins dans un kNN pour une régression

Certificat de réussite

record_voice_over

Instructors

Chloé-Agathe Azencott
Chargée de recherche au CBIO de MINES ParisTech & Institut Curie. Enseignante à CentraleSupélec. Machine learning & bioinformatique.

store

Content Designer

CentraleSupélec
CentraleSupélec is the result of the merger of the Ecole Centrale Paris and the Supélec. The collaboration between the two Colleges of engineering begun in 1969 with the introduction of the joint competitive entrance exam. Since 2009, the Ecole Centrale Paris and Supélec have continually strengthened their partnerships and collaborations with the aim of encompassing the whole of their activities (engineering education, research and post graduate programs) and confirmed their shared values of excellence, innovation, entrepreneurship, internationalization and leadership. Today CentraleSupélec aims to become a reference in the field of engineering and systems sciences and a leading engineering College in the area of higher education and research, ranked amongst the best institutions in the world.
assistant

Platform

OpenClassrooms

OpenClassrooms (formerly Le site du Zéro or SdZ) is a website that offers courses about computer science and entrepreneurship. Online courses can be made both by site staff, professors of universities or colleges partner as by its members.

Today, courses are available in several formats: MOOC (Massive Open Online Course), web text, e-book, book and video. The company delivers certifications for certain courses, including one recognized by the state in partnership with IESA multimedia.

Reviews
3.7 /5 Average
starstarstarstarstar
0
starstarstarstarstar
1
starstarstarstarstar
0
starstarstarstarstar
0
starstarstarstarstar
0
Content
5/5
Platform
2/5
Animation
4/5
Best Review

Beaucoup plus accessible que le Mooc d'initiation (paradoxalement), ce mooc permet de comprendre comment tester et évaluer correctement un modèle de machine learning, en se basant sur des modèles simples et faciles à appréhender, comme la régression linéaire. Le fait de réimplémenter les calculs permet de bien comprendre comment ils fonctionnent et en quoi il sont pertinents pour vérifier son modèle. Petit bémol, indépendamment du contenu, les temps de correction des exercices sont assez longs.

Anonymous
Anonymous,
Published on May 31, 2018
You are the designer of this MOOC?
What is your opinion on this resource ?
Content
5/5
Platform
5/5
Animation
5/5
Anonymous,
May 31, 2018
starstarstarstar

Beaucoup plus accessible que le Mooc d'initiation (paradoxalement), ce mooc permet de comprendre comment tester et évaluer correctement un modèle de machine learning, en se basant sur des modèles simples et faciles à appréhender, comme la régression linéaire. Le fait de réimplémenter les calculs permet de bien comprendre comment ils fonctionnent et en quoi il sont pertinents pour vérifier son modèle. Petit bémol, indépendamment du contenu, les temps de correction des exercices sont assez longs.