list 3 séquences
assignment Niveau : Intermédiaire
chat_bubble_outline Langue : Français
card_giftcard 80 points
Avis de la communauté
-
starstarstarstarstar

Les infos clés

credit_card Formation gratuite
verified_user Certification payante
timer 8 heures de cours

En résumé

Bienvenue dans ce cours de traitement du langage naturel. L’objectif de ce cours est de comprendre les méthodes qui permettent de transformer le texte en features exploitables par des algorithmes de machine learning, et les architectures et modèles qui correspondent le mieux à ce type de données. En l’occurence un ensemble de documents texte non-structurés.

Ce cours est divisé en 3 parties : une première qui traite de l'exploration, du nettoyage et de la normalisation du texte. Une seconde partie dédiée au différents types de transformations qui vont vous permettre de mieux comprendre vos données textuelles et de créer des features que vous pourrez utiliser dans vos algorithmes de machine learning. La dernière partie sera consacrée à la classification du texte à l'aide de l'apprentissage automatique sous forme de réseau de neurones.

Objectifs pédagogiques :

  • Effectuez un pré-traitement de corpus de texte
  • Maîtrisez les techniques de bag-of-words et de plongements de mots (word embeddings)
  • Modélisez des sujets de manière non-supervisée (LDA, etc.)
  • Classer des corpus de texte avec des méthodes supervisées (réseaux de neurones)

more_horiz Lire plus
more_horiz Lire moins
report_problem

Les prérequis

Pour en profiter pleinement, n'hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :

  • Python pour le calcul numérique (numpy) et la création de graphiques (pyplot), que nous utiliserons dans les parties TP du cours,

  • Quelques notions d'algèbre linéaire : manipulation de vecteurs, multiplications de matrices, normes, et valeurs/vecteurs propres,

  • Quelques notions de probabilités et statistiques, telles que distribution de loi de probabilité et variance,

  • Les modèles non-supervisées permettront de modéliser des features automatiquement à partir du texte

  • Les modèles supervisées non-linéaires sont indispensables au traitement du texte, notamment les réseaux de neurones séquentiels

dns

Le programme

Partie 1 - Prétraitez des données textuelles
1. Récupérez et explorez le corpus de textes
2. Nettoyez et normalisez les données
Activité : Prétraitez un corpus en vue de créer un moteur de résumés

Partie 2 - Transformez des données textuelles
1. Représentez votre corpus en "bag of words"
2. Effectuez des plongements de mots (word embeddings)
3. Modélisez des sujets avec des méthodes non supervisées
Quiz : Partie 2

Partie 3 - Détectez automatiquement les sentiments de commentaires clients
1. Opérez une première classification naïve de sentiments
2. Allez plus loin dans la classification de mots
3. Traitez le corpus de textes à l'aide de réseaux de neurones
Activité : Classifiez du texte

Certificat de réussite

record_voice_over

Les intervenants

Yannis Chaouche
Lead Formateur @ Machine Learning Academy & AI Black Belt

store

Le concepteur

CentraleSupélec
CentraleSupélec is the result of the merger of the Ecole Centrale Paris and the Supélec. The collaboration between the two Colleges of engineering begun in 1969 with the introduction of the joint competitive entrance exam. Since 2009, the Ecole Centrale Paris and Supélec have continually strengthened their partnerships and collaborations with the aim of encompassing the whole of their activities (engineering education, research and post graduate programs) and confirmed their shared values of excellence, innovation, entrepreneurship, internationalization and leadership. Today CentraleSupélec aims to become a reference in the field of engineering and systems sciences and a leading engineering College in the area of higher education and research, ranked amongst the best institutions in the world.
assistant

La plateforme

OpenClassrooms

OpenClassrooms (anciennement le Site du Zéro ou SdZ), est un site web qui propose des cours autour de l'informatique, des sciences et de l'entrepreneuriat.

Les cours en ligne peuvent être réalisés aussi bien par l'équipe du site, des professeurs d'universités ou de grandes écoles partenaires que par ses membres.

Aujourd'hui, les cours sont disponibles dans plusieurs format : MOOC (Massive Open Online Course), texte web, e-book, livre et en vidéo. L'entreprise délivre des certifications pour certains cours, dont une reconnue par l'état, en partenariat avec IESA multimédia.

Vous êtes le concepteur de ce MOOC ?
Quelle note donnez-vous à cette ressource ?
Contenu
0/5
Plateforme
0/5
Animation
0/5