link Источник: openclassrooms.com
list 3 последовательности
assignment Уровень : Средний
chat_bubble_outline Язык : французский
card_giftcard 80 баллы
Logo My Mooc Business

Топ-компании выбирают Edflex для развития перспективных навыков

Узнать больше
Мнение сообщества
-
starstarstarstarstar
0 отзывы

Важная информация

credit_card Обучение платное
verified_user Сертификация платная
timer 8 час(ы) курса

Резюме

Bienvenue dans ce cours de traitement du langage naturel. L’objectif de ce cours est de comprendre les méthodes qui permettent de transformer le texte en features exploitables par des algorithmes de machine learning, et les architectures et modèles qui correspondent le mieux à ce type de données. En l’occurence un ensemble de documents texte non-structurés.

Ce cours est divisé en 3 parties : une première qui traite de l'exploration, du nettoyage et de la normalisation du texte. Une seconde partie dédiée au différents types de transformations qui vont vous permettre de mieux comprendre vos données textuelles et de créer des features que vous pourrez utiliser dans vos algorithmes de machine learning. La dernière partie sera consacrée à la classification du texte à l'aide de l'apprentissage automatique sous forme de réseau de neurones.

Objectifs pédagogiques :

  • Effectuez un pré-traitement de corpus de texte
  • Maîtrisez les techniques de bag-of-words et de plongements de mots (word embeddings)
  • Modélisez des sujets de manière non-supervisée (LDA, etc.)
  • Classer des corpus de texte avec des méthodes supervisées (réseaux de neurones)

more_horiz Подробнее
more_horiz Свернуть
report_problem

Специальные требования

Pour en profiter pleinement, n'hésitez pas à vous rafraîchir la mémoire, avant ou pendant le cours, sur :

  • Python pour le calcul numérique (numpy) et la création de graphiques (pyplot), que nous utiliserons dans les parties TP du cours,

  • Quelques notions d'algèbre linéaire : manipulation de vecteurs, multiplications de matrices, normes, et valeurs/vecteurs propres,

  • Quelques notions de probabilités et statistiques, telles que distribution de loi de probabilité et variance,

  • Les modèles non-supervisées permettront de modéliser des features automatiquement à partir du texte

  • Les modèles supervisées non-linéaires sont indispensables au traitement du texte, notamment les réseaux de neurones séquentiels

dns

Программа

Partie 1 - Prétraitez des données textuelles
1. Récupérez et explorez le corpus de textes
2. Nettoyez et normalisez les données
Activité : Prétraitez un corpus en vue de créer un moteur de résumés

Partie 2 - Transformez des données textuelles
1. Représentez votre corpus en "bag of words"
2. Effectuez des plongements de mots (word embeddings)
3. Modélisez des sujets avec des méthodes non supervisées
Quiz : Partie 2

Partie 3 - Détectez automatiquement les sentiments de commentaires clients
1. Opérez une première classification naïve de sentiments
2. Allez plus loin dans la classification de mots
3. Traitez le corpus de textes à l'aide de réseaux de neurones
Activité : Classifiez du texte

Certificat de réussite

record_voice_over

Пользователи

Yannis Chaouche
Lead Formateur @ Machine Learning Academy & AI Black Belt

store

Разработчик

CentraleSupélec
CentraleSupélec is the result of the merger of the Ecole Centrale Paris and the Supélec. The collaboration between the two Colleges of engineering begun in 1969 with the introduction of the joint competitive entrance exam. Since 2009, the Ecole Centrale Paris and Supélec have continually strengthened their partnerships and collaborations with the aim of encompassing the whole of their activities (engineering education, research and post graduate programs) and confirmed their shared values of excellence, innovation, entrepreneurship, internationalization and leadership. Today CentraleSupélec aims to become a reference in the field of engineering and systems sciences and a leading engineering College in the area of higher education and research, ranked amongst the best institutions in the world.
assistant

Платформа

OpenClassrooms

OpenClassrooms (anciennement le Site du Zéro ou SdZ), est un site web qui propose des cours autour de l'informatique, des sciences et de l'entrepreneuriat.

Les cours en ligne peuvent être réalisés aussi bien par l'équipe du site, des professeurs d'universités ou de grandes écoles partenaires que par ses membres.

Aujourd'hui, les cours sont disponibles dans plusieurs format : MOOC (Massive Open Online Course), texte web, e-book, livre et en vidéo. L'entreprise délivre des certifications pour certains cours, dont une reconnue par l'état, en partenariat avec IESA multimédia.

Вы разработчик этого МООК ?
Какую оценку вы бы дали этому ресурсу ?
Содержание
5/5
Платформа
5/5
Анимация
5/5