关键信息
关于内容
Le MOOC «Fondamentaux pour le big data» permet d'acquérir efficacement le niveau prérequis en informatique et en statistiques pour suivre des formations dans le domaine du big data et data science.
Le big data offre de nouvelles opportunités d’emplois au sein des entreprises et des administrations. De nombreuses formations préparant à ces opportunités de métiers existent.
Le suivi de ces formations nécessite des connaissances de base en statistiques et en informatique que ce MOOC vous propose d’acquérir dans les domaines de l’analyse, algèbre, probabilités, statistiques, programmation Python et bases de données.
À la fin de ce cours, vous serez capable de :
- Pourquoi les bases de données relationnelles ne sont pas toujours adaptées aux systèmes de données massives qui sont déployées dans les contextes big data.
- Pourquoi le langage Python est un langage très utilisé dans le domaine du traitement des masses de données. Ce cours vous initie à la programmation avec ce langage, particulièrement en utilisant la bibliothèque Numpy.
- Quelles analyses statistiques nécessitent le traitement des données massives et la prédiction.
Cette formation vous fournit les concepts élémentaires en statistiques tels que :
- les variables aléatoires,
- le calcul différentiel,
- les fonctions convexes,
- les problèmes d'optimisation,
- les modèles de régression.
Ces bases sont appliquées sur un algorithme de classification le Perceptron.
前提
Ce MOOC s'adresse à un public ayant des bases en mathématiques et en algorithmique (niveau L2 validé) nécessitant un rafraichissement de ces connaissances pour suivre des formations en data science et big data.
Il peut être suivi en préparation du Mastère Spécialisé « Big data : Gestion et analyse des données massives », du Certificat d’Etudes Spécialisées « Data Scientist » et de la formation courte «Data Science : Introduction au Machine Learning».
课程大纲
Semaine 0 : Introduction - Les enjeux du Big Data et de ce MOOC
Semaine 1 : Python Partie 1 / Algèbre Partie 1
Semaine 2 : Limites des bases de données relationnelles / Python Partie 2/ Algèbre Partie 2
Semaine 3 : Probabilités Partie 1 / Analyse Partie 1
Semaine 4 : Probabilités Partie 2 / Analyse Partie 2
Semaine 5 : Statistique
Semaine 6 : Le classifieur Perceptron
教师
Stéphan Clémençon
Professeur au département Traitement du Signal et de l'Image de Télécom ParisTech. Ses recherches portent sur la théorie statistique de l'apprentissage. Il a récemment encadré des projets de recherche nationaux théoriques et appliqués sur ce thème. Il est responsable du Mastère Spécialisé «Big data : Gestion et analyse des données massives» et du Certificat d’Etudes Spécialisées «Data Scientist».
Pierre Senellart
Professeur à l'École normale supérieure et responsable de l'équipe Valda d'Inria Paris, anciennement professeur à Télécom ParisTech. Ses intérêts de recherche portent sur les aspects pratiques et théoriques de la gestion de données du Web, en particulier le crawl et l'archivage du Web, l'extraction d'informations depuis le Web, la gestion de l'incertitude, la fouille du Web, et la gestion de données intensionnelles.
Anne Sabourin
Enseignant-chercheur au département Traitement du Signal et de l'Image de Télécom ParisTech. Ses recherches portent sur l'apprentissage statistique et les méthodes bayésiennes, en particulier pour l'analyse des valeurs extrêmes et la détection d'anomalies.
Joseph Salmon
Enseignant-chercheur au département Traitement du Signal et de l'Image de Télécom ParisTech. Il est spécialisé en traitement statistique des images et en apprentissage statistique. Ses recherches portent sur la création et l'étude d'algorithmes pour le traitement de données en grande dimension.
Alexandre Gramfort
Chercheur à l'INRIA. Ses recherches portent sur le traitement du signal, l'apprentissage statistique et le calcul scientifique avec pour application principale la modélisation et l'analyse de données en neurosciences. Il est un des principaux contributeurs du projet logiciel open source Scikit-Learn qui est la librairie standard pour l'apprentissage statistique en Python.
Ons Jelassi
Enseignante à la formation continue de Télécom ParisTech, responsable des formations Big Data. Elle est coordonnatrice de ce MOOC.
内容设计师

Mines-Télécom 研究所是工程和管理领域高等教育、研究和创新的主要公共机构。
它由 10 所矿业和电信大学校(阿尔比矿业大学、阿莱矿业大学、杜埃矿业大学、南特矿业大学、巴黎高科矿业大学、圣埃蒂安矿业大学、布列塔尼电信学院、管理学院、巴黎高科电信学院、南巴黎电信学院)和两所附属学校(里尔电信学院和尤里电信学院)组成,隶属于生产复兴部。它与两个战略合作伙伴有着特殊的关系,一个是隶属于洛林大学的南锡矿业大学,另一个是 Armines 公司。
矿业电信学院走在教育创新的前沿。它是法国领先的工程师学校集团,每年有 8%的工程师毕业。
其开放式在线课程是创建和领导初始和终身学习社区运动的一部分。矿业电信学院将为这一运动做出贡献,并让其所有利益相关者参与其中:教师-研究人员、学生和未来的学生、毕业生、企业,以及更广泛意义上的所有对学院专业领域感兴趣的学习者。
平台

France Université Numérique est le diffuseur des cours en ligne des établissements d’enseignement supérieur français et de leurs partenaires.
Il opère plusieurs plateformes de diffusion, dont la plus connue, FUN MOOC, est la première plateforme académique francophone mondiale. Grâce à de nombreux établissements partenaires, cette plateforme propose un vaste catalogue de cours s’enrichissant de jour en jour avec des thématiques variées et d’actualité.
Fondamentaux pour le Big Data n'est pas réellement un Mooc mais plutôt une occasion de découvrir les cours de Big Data donnés par ParisTech. Ce cours permet donc de vérifier que vous avez l'ensemble des pré-requis en statistiques, analyse, algèbre linéaire, base de données relationnelle pour intégrer un parcours de ce type et vous permettre le cas échéant de les réviser/apprendre grâce aux livres recommandés. Intéressant pour les étudiants, il leurs permettra de se faire une meilleure idée de ce qu'est un cursus Big Data, vérifier qu'ils ont le niveau nécessaire dans les différentes matières qui le compose et enfin que cela correspond à leurs attentes et envies. A recommander pour tous les étudiants qui souhaitent découvrir ce qu'est un cursus Big Data et hésitent encore. Peu recommandé pour les professionnels en recherche d'une introduction au Big Data.
