Важная информация
Резюме
Обработка и анализ больших данных представляет собой новую практическую задачу, требующую навыков работы с современным инструментарием. В настоящее время данные называют «нефтью 21 века», они накапливаются в корпоративных и государственных информационных системах, социальных сетях, веб-блогах и сайтах и потенциально являются ценным ресурсом для извлечения новых знаний, инсайтов для научных исследований, повышения эффективности и конкурентоспособности предприятий. Методы интеллектуального анализа больших данных, таким образом, представляют собой тот необходимый инструмент для высвобождения этого потенциала.
Курс «Математические и инструментальные методы машинного обучения» входит в число базовых при подготовке современных экономистов-математиков на уровне магистров. Изучение дисциплины позволит студентам получить и развивать навыки анализа и диагностики проблем экономики, современных методов их решения, а также ознакомиться с современной спецификой исследования операций в зарубежных и отечественных организациях.
Целями и задачами курса являются: формирование фундаментальных общеэкономических и естественнонаучных знаний; освоение математических и инструментальных методов машинного обучения; использование современных информационно-коммуникационных технологий в профессиональной деятельности; закрепление профессиональных навыков в области прогнозирования основных социально-экономических показателей деятельности предприятия, отрасли, региона и экономики в целом.
Компетенции по решению задач в анализе данных с помощью методов машинного обучения, будут получены студентами после прохождения курса «Математические и инструментальные методы машинного обучения». Изучение дисциплины позволит выработать навыки постановки и решения проблем развития организации, развить творческое мышление специалистов в области системного анализа и бизнес-моделирования, выработать умение решать управленческие проблемы в конкретной экономической ситуации.
- математические и инструментальные методы машинного обучения;
- использование современных информационно-коммуникационных технологий в профессиональной деятельности;
- закрепление профессиональных навыков в области прогнозирования основных социально-экономических показателей деятельности предприятия, отрасли, региона и экономики в целом.
Программа
Неделя 1. Задачи и методологии анализа данных
Урок 1. Введение в задачи анализа данных. Описание стандартов CRISP-DM, KDD, SEMMA. Основные понятия и методы анализа данных.
Урок 2. Среда интеллектуального анализа данных RapidMiner.
Неделя 2. Подготовка данных
Урок 3. Очистка, и обогащение данных.
Урок 4. Метод главных компонент. Матрица нагрузок и матрица счетов. График собственных значений. Критерий Кайзера. Вращение методом Варимакс. Интерпретация результатов факторного анализа.
Неделя 3. Визуализация данных
Урок 5. Визуализация данных. Понятие и основные задачи визуализации.
Урок 6. Подходы к визуализации: геометрический, древовидный.
Неделя 4. Понятие описательных статистик
Урок 7. Подходы к визуализации: геометрический, древовидный.
Понятие описательных статистик. Вычисление основных показателей положения и вариации. Построение частотных полигонов и гистограмм.
Неделя 5. Анализ связей
Урок 8. Корреляционный анализ/Понятие корреляционной связи. Коэффициент корреляции Пирсона. Ранговые коэффициенты. Коэффициенты корреляции для дихотомических и номинальных переменных.
Урок 9. Регрессионный анализ/Простая линейная регрессия. Проверка значимости уравнения линейной регрессии. Оценка качества уравнения линейной регрессии. Коэффициент детерминации. Доверительный интервал линейной регрессии.
Неделя 6. Кластеризация
Урок 10. Постановка задачи кластеризации/Понятие кластера. Обзор прикладных задач с использованием методов кластеризации. Обзор основных понятий и методов кластерного анализа.
Урок 11. Иерархические и итеративные методы кластеризации/Иерархическая агломеративная кластеризация. Дендрограммы. Дивизимные методы кластеризации. Метод МакКуина (к-средних).
Неделя 7. Мягкая и жёсткая кластеризация
Урок 12. Критерии качества кластеризации.
Неделя 8. Классификация
Урок 13. Постановка задачи классификации/Задача классификации с учителем. Понятие и свойства класса. Обзор основных методов классификации. Байесовская наивная классификация/Понятие байесовского классификатора.
Урок 14. Деревья решений в задачах классификации/Понятие деревьев решений. Примеры.
Неделя 9. Методы поиска ассоциативных правил
Урок 15. Понятие правил ассоциации. Метод Apriori. Метод FP-Growth. Примеры.
Урок 16. Понятие шаблона последовательных событий. Метод Apriori. Метод GSP.
Неделя 10. Интеллектуальный анализ текста
Урок 17. Токенизация. Векторизация. Регулярные выражения.
Урок 18. Стемминг. Лемматизация. Удаление стоп-слов. Анализ тональности.
Пользователи
Василий Киреев
Кандидат технических наук, Доцент
National Research Nuclear University MEPhI
Платформа

EdX est une plateforme d'apprentissage en ligne (dite FLOT ou MOOC). Elle héberge et met gratuitement à disposition des cours en ligne de niveau universitaire à travers le monde entier. Elle mène également des recherches sur l'apprentissage en ligne et la façon dont les utilisateurs utilisent celle-ci. Elle est à but non lucratif et la plateforme utilise un logiciel open source.
EdX a été fondée par le Massachusetts Institute of Technology et par l'université Harvard en mai 2012. En 2014, environ 50 écoles, associations et organisations internationales offrent ou projettent d'offrir des cours sur EdX. En juillet 2014, elle avait plus de 2,5 millions d'utilisateurs suivant plus de 200 cours en ligne.
Les deux universités américaines qui financent la plateforme ont investi 60 millions USD dans son développement. La plateforme France Université Numérique utilise la technologie openedX, supportée par Google.
ььььььььььььььььььььььььььььььььььььььььььььььььььььььььььььььь
ььььььььььььььььььььььььььььььььььььььььььььььььььььььььььььььь