Сертифікаційна програма Data Analytics (Аналіз Даних) складається з трьох окремих частин, вступ на кожну з яких відбувається окремо:
- Data Analytics 1 (Intro) – 10 тижнів + 4 тижні робота над проєктом
- Data Analytics 2 – 10 тижнів + 4 тижні робота над проєктом
- Вибіркові курси для вузької спеціалізації (1-2 місяці)
Всі навчальні курси на перших двох рівнях програми можна розділити за наступними основними темами:
- Математика. Це набір курсів, який забезпечить базові знання статистики, теорії ймовірностей та економетрики.
- Бази даних. Блок курсів, який забезпечує спектр компетенцій, що відповідають за розуміння баз даних та вміння працювати з ними.
- Інструменти. Це набір курсів, який забезпечить практичні навички користування інструментами для аналізу даних
Про факультет
Важлива інформація
Контактна інформація
Data Analytics 1 (Intro)
Перша частина сертифікаційної програми Data Analytics триває 10 тижнів, 3 навчальні дні на тиждень (відеозаписи + заняття в zoom у вечірні години), близько 60 годин загалом. Дана частина не передбачає в учасників значних попередніх знань, окрім базової обізнаності Microsoft Excel, знань шкільної математики та знання англійської мови на рівні розуміння технічних текстів.
Курси Data Analytics 1 (Intro)
- Основи теорії ймовірностей
- Ймовірність та її властивості
- Функція розподілу
- Умовна ймовірність
- Описова статистика
- Популяція, вибірка
- Види змінних
- Характеристики вибірки
- Ймовірність на основі вибірки
- Зв’язок між двома вибірками, кореляції
- Вивідна статистики
- Оцінка параметрів
- Теорема великих чисел та центральна гранична теорема
- Інтервали довіри
- Статистичні тести
- Комбінаторика
Тривалість курсу: 14 годин
Викладачка: Наталія Новосад, Senior Analyst у Deloitte. Працює у напрямку моделювання активів та створення оптимального інвестиційного портфелю. Має великий досвід в клієнтській аналітиці та прогнозуванні часових рядів завдяки роботі у ПриватБанку як Data Scientist. Отримала ступінь магістра Data Science в Українському Католицькому Університеті та ступінь бакалавра прикладної математики в Львівському національному університеті імені Івана Франка.
- Основи теорії ймовірностей
- Робота з електронними таблицями
- Основні елементи
- Типи даних та формати клітинок
- Автозаповнення
- Формули та функції
- Принцип «охайних даних», «вузькі» та «широкі» формати
- Очищення та трансформація даних
- Отримання зовнішніх даних
- Сортування, фільтрування
- Текстові функції
- Створення нових змінних
- Поєднання різних масивів даних (VLOOKUP)
- Зведені таблиці (pivot tables)
- Аналіз та візуалізація даних
- Цілі та завдання аналізу даних
- Умовне форматування (як швидко побачити особливості в даних)
- Основні типи діаграм
- Підготовка даних для різних типів діаграм
- Основні функції для аналізу даних: середнє, медіана, мода
- Візуалізація як інструмент аналізу
- Комбіновані діаграми
- Зведені діаграми
Тривалість курсу: 18 годин
Викладач: Оксана Сидорук, консультант Українського центру суспільних даних, 15 років професійного досвіду соціальних та маркетингових досліджень
- Знайомство з SQL (короткий нарис історії, потреби, задачі які розв’язує)
- Основні поняття (таблиця, рядок, атрибу/колонка/поле, ключ, індекс …)
- TABLE і поняття нормалізації (з прикладами)
- Основні типи даних
- Структура запиту SQL. Логічна побудова запиту
- Конструкції SELECT / TOP (LIMIT) / ORDER BY
- Конструкція WHERE та предикати (IN, LIKE, BETWEEN, …)
- Групування даних. Конструкції GROUP BY, агрегатори (SUM, COUNT, AVG …)
- Очищення даних за допомогою функцій
- Конструкції UNION, EXCEPT, INTERSECT
- Конструкція JOIN
- Табличні вирази, підзапити
Тривалість курсу: 20 годин
Викладач: Тарас Фостяк, Data Team Lead at N-iX. В IT з 2017, працював більш ніж на 10-ти проектах в різних галузях (медицини, агробізнесу, кібер безпеки, нафти та газу, ті ін.). Основні технології, які викостовував на проекті – від Microsoft. В більшості робота з SQL Server (2008-2019), Azure, Power BI. На даний момент працює з Azure Databricks (Spark 3.x) and Python, Azure Data Factory та Delta Lake.
- Моделювання даних
- Візуалізації та інформаційні панелі
- Спільний доступ до звітів у хмарах та ліцензування
Тривалість курсу: 10 годин
Викладач: Olga Nazarenko, Lead DW/BI Engineer at SoftServe. Працювала з Sisense, Tableau, Power BI, ClicData, SQL, Python for ETL and storage with relevant dashboards and data visualization, machine learning applications: customer churn prediction, events prediction and classification, recommendation tools development.
Викладачі Data Analytics 1
Data Analytics 2
Друга частина сертифікаційної програми Data Analytics триває 10 тижнів, 3 навчальні дні на тиждень (матеріали у відеозаписах + заняття/вебінари в zoom) та 4 тижні роботи над фінальним проєктом.
Дана частина передбачає в учасників базові знання мови програмування Python (прості типи даних, алгоритмічні структури, структури даних, ітератори та генератори, функції); Базові знання SQL (Основні поняття, Основні типи даних, структура запиту SQL, логічна побудова запиту, групування даних, очищення даних за допомогою функцій, Конструкції UNION, EXCEPT, INTERSECT, JOIN, табличні вирази, підзапити); Основи статистики та теорії ймовірностей (обрахунок імовірності, розуміння випадкової змінної, описова статистика, інтервали довіри)
Курси Data Analytics 2
I Основи статистики і робота з Python
1.Вибірка та типи колонок, опис вибірки за допомогою описової статистики та діаграм
2.Випадкова змінна. Її властивості, функція густини, функція розподілу
3.Інтервали довіри та центральна гранична теорема
II Лінійна та логістична регресії
1.Обробка даних перед моделюванням
2.Побудова моделей
3.Визначення аутлаєрів за допомогою лінійної регресії
4.Оцінки точності моделей та інтерпретація моделей
III A/B тестування
1.Принципи побудови експерименту. Кроки. Компоненти тесту.
2.Основні види тестів.
3.Виведення висновків з експериментів. Типи помилок. Статистична потужність.
IV Аналіз часових рядів і прогнозування
1.Що таке часові ряди, візуалізація часових рядів
2.Патерни часових рядів
3.Моделі на основі експоненційного згладжування та декомпозииції
4.Прогнозування на основі лінійної регресії, трансформація часових рядів
5.Метрики точності
Тривалість курсу: 14-16 годин (7 відео + 5-7 годин консультацій)
Викладачка: Наталія Новосад, Senior Analyst у Deloitte. Працює у напрямку моделювання активів та створення оптимального інвестиційного портфелю. Має великий досвід в клієнтській аналітиці та прогнозуванні часових рядів завдяки роботі у ПриватБанку як Data Scientist. Отримала ступінь магістра Data Science в Українському Католицькому Університеті та ступінь бакалавра прикладної математики в Львівському національному університеті імені Івана Франка.
- Тимчасові об’єкти. Тимчасові таблиці. Programibilities (Function, Views, Stored Procedures)
- Транзакції. Індекси. Основне розуміння плану запиту – читання даних
- Основне розуміння плану запиту – Обробка даних
- Методи оптимізації запитів
- Робота з різними типами даних (Regexp, Datetime formats, implicit conversions)
- Window functions для аналізу даних
Тривалість курсу: 12 годин (заняття в zoom)
Викладач: Тарас Фостяк, Data Team Lead at N-iX.. В IT з 2017, працював більш ніж на 10-ти проектах в різних галузях (медицини, агробізнесу, кібер безпеки, нафти та газу, ті ін.). Основні технології, які викостовував на проекті – від Microsoft. В більшості робота з SQL Server (2008-2019), Azure, Power BI. На даний момент працює з Azure Databricks (Spark 3.x) and Python, Azure Data Factory та Delta Lake.
I Open Source tool Jupyter Notebooks
Перевірка інструментів/Основи (автодоповнення, інтроспекція, завершення);
Історія команд, змінні/Хронометраж та протоколювання;
Відладка/HTML-блокнот iPython;
II Loading, Querying & Filtering data with CSV Module
Огляд формату/Читання/Запис CSV;
Діалекти; Функції модуля CSV. Використання namedtuples;
Фільтрація CSV;
III NumPy
Створення/типи даних/арифметичні операції;
Індексація, булева індексація, fancy Indexing;
Функції (унарні, бінарні);
Векторизація/генерація;
Математичні та статистичні операції та інші методи масивів;
IV Polars
Структури даних /імпорт/експорт;
Об’єкт Series/створення/
вибірка/фільтрація;
Застосування функцій, mapping;
Сортування, агрегація;
Зведені статистики;
Описові статистики, унікальні значення, лічильники;
Lazy / Eager API;
V AWS access / Data Management
Підключення до екземпляру AWS RDS;
Робота з базою даних;
Управління даними, огляд;
Складові процесу управління даними;
VI Data Visualisation
Мова опису графів DOT;
Побудова графів за допомогою Graphviz;
Matplotlib API;
Seaborn як обгортка для Matplotlib/функції Seaborn;
Побудова графіків за допомогою Seaborn;
Тривалість курсу: 24 години (матеріали у відеозаписах + вебінари в zoom)
Викладач: Ренат Насрідінов, аналітик Українського центру суспільних даних, учасник Національної мережі тренерів з відкритих даних. З 2016 року працює над проєктами у галузі електоральної, судової та медичної статистики
I Why NoSQL
– Relational data model
– Normalized vs “Denormalized” data model
– Aggregate orientation and Schema-less
– NoSQL propertiesII Types of NoSQL databases
– Key-Value
– Document
– Column-Family
– GraphIII NoSQL DB features
– Scalability via sharding– Reliability and availability via replication– CAP theoremТривалість курсу: 6 годин
Викладач: Андрій Родіонов, Software Engineer at Oracle, National Technical University of Ukraine “Kyiv Polytechnic Institute”