Перелік курсів програми «Аналіз даних»

Sorry, this entry is only available in Ukrainian.

Data Analytics 1 (Intro)

Перша частина сертифікаційної програми Data Analytics триває 10 тижнів по 3 двогодинних заняття на щотижня (близько 60 годин загалом). Дана частина не передбачає в учасників значних попередніх знань, окрім базової обізнаності Microsoft Excel, знань шкільної математики та знання англійської мови на рівні розуміння технічних текстів.

Курси Data Analytics 1 (Intro)

  • Основи теорії ймовірностей
    • Ймовірність та її властивості
    • Функція розподілу
    • Умовна ймовірність
  • Описова статистика
    • Популяція, вибірка
    • Види змінних
    • Характеристики вибірки
    • Ймовірність на основі вибірки
    • Зв’язок між двома вибірками, кореляції
  • Вивідна статистики
    • Оцінка параметрів
    • Теорема великих чисел та центральна гранична теорема
    • Інтервали довіри
    • Статистичні тести
  • Лінійна та логістична регресії
    • Оцінка якості регресії
    • Обробка даних перед регресією
    • Інтерпретація параметрів регресії
    • Відбір параметрів
    • Проблеми мільтиколінеарності, пропущених даних та викидів

Тривалість курсу: 14 годин

Викладачка: Наталія Новосад, Data Scientist у Приватбанку. Має великий досвід в клієнтській аналітиці та прогнозуванні часових рядів. Також співпрацює із зовнішніми проектами як експерт-консультант. Отримала ступінь магістра Data Science в Українському Католицькому Університеті та ступінь бакалавра прикладної математики в Львівському національному університеті ім. Івана Франка.

  • Робота з електронними таблицями
    • Основні елементи
    • Типи даних та формати клітинок
    • Автозаповнення
    • Формули та функції
    • Принцип «охайних даних», «вузькі» та «широкі» формати
  • Очищення та трансформація даних
    • Отримання зовнішніх даних
    • Сортування, фільтрування
    • Текстові функції
    • Створення нових змінних
    • Поєднання різних масивів даних (VLOOKUP)
    • Зведені таблиці (pivot tables)
  • Аналіз та візуалізація даних
    • Цілі та завдання аналізу даних
    • Умовне форматування (як швидко побачити особливості в даних)
    • Основні типи діаграм
    • Підготовка даних для різних типів діаграм
    • Основні функції для аналізу даних: середнє, медіана, мода
    • Візуалізація як інструмент аналізу
    • Комбіновані діаграми
    • Зведені діаграми

Тривалість курсу: 18 годин

Викладач: Андрій Горбаль, виконавчий директор Українського центру суспільних даних. Магістр соціології та медіа-менеджменту, понад 20 років професійного досвіду управління проектами — дослідницькими, інформаційно-просвітницькими, створення веб-проектів, тренінгів та навчання. В Українському центрі суспільних даних координував ряд навчальних проектів щодо роботи з даними, а також дослідницьких проектів з аналізом відкритих даних, у сферах електоральних даних, судової статистики, медичних та демографічних даних.

  • Знайомство з SQL (короткий нарис історії, потреби, задачі які розв’язує)
  • Основні поняття (таблиця, рядок, атрибу/колонка/поле, ключ, індекс …)
  • TABLE і поняття нормалізації (з прикладами)
  • Основні типи даних
  • Структура запиту SQL. Логічна побудова запиту
  • Конструкції SELECT / TOP (LIMIT) / ORDER BY
  • Конструкція WHERE та предикати (IN, LIKE, BETWEEN, …)
  • Групування даних. Конструкції GROUP BY, агрегатори (SUM, COUNT, AVG …)
  • Очищення даних за допомогою функцій
  • Конструкції UNION, EXCEPT, INTERSECT
  • Конструкція JOIN
  • Табличні вирази, підзапити

Тривалість курсу: 20 годин

Викладач: Тарас Фостяк, Data Team Lead at Epam. В IT з 2017, працював більш ніж на 10-ти проектах в різних галузях (медицини, агробізнесу, кібер безпеки, нафти та газу, ті ін.). Основні технології, які викостовував на проекті – від Microsoft. В більшості робота з SQL Server (2008-2019), Azure, Power BI. На даний момент працює з Azure Databricks (Spark 3.x) and Python, Azure Data Factory та Delta Lake.

  • Моделювання даних
  • Візуалізації та інформаційні панелі
  • Спільний доступ до звітів у хмарах та ліцензування

Тривалість курсу: 10 годин

Викладач: Тарас Озарків, Lead DW/BI Engineer у SoftServe. Понад 6 років працює у сфері ІТ. Основна спеціалізація Тараса – Design/Development, DW, BI та ETL processes. Працював з різноманітними доменами та вередливими клієнтами. Тарас є лідером спільноти Lviv Data Platform User Group (ex-Lviv SQL Server UG), а також є одним з організаторів «SQL Saturday» у Львові. Співзасновник у Power BI On AIR (YouTube-канал). Організовує зустрічі із дата-експертами в Україні, локальні зустрічі для Data-спільноти, а також активно розвиває львівську Data Community.

Викладачі Data Analytics 1

Data Analytics 2

Друга частина сертифікаційної програми Data Analytics триває 10 тижнів по 3 двогодинних заняття на щотижня (близько 60 годин загалом) та 4 тижні роботи над фінальним проєктом.

Дана частина передбачає в учасників базові знання мови програмування Python (прості типи даних, алгоритмічні структури, структури даних, ітератори та генератори, функції);  Базові знання SQL (Основні поняття, Основні типи даних, структура запиту SQL, логічна побудова запиту, групування даних, очищення даних за допомогою функцій, Конструкції UNION, EXCEPT, INTERSECT, JOIN, табличні вирази, підзапити); Основи статистики та теорії ймовірностей

Курси Data Analytics 2

I Статистика

Налаштування середовища, Jupyter Notebook/Lab, Google Colab, необхідні бібліотеки;

Генерація випадкової змінної у Python: sampling з розподілу. Її властивості: функція густини, функція розподілу;

Описова статистика у Python: гістограма, бульбашкова діаграма, бокс-плот, статистики;

Інтервали довіри; Статистичні тести у Python;

Лінійна регресія у Python; Логістична регресія у Python;

II Дерева рішень

Алгоритм побудови дерева рішень;

Побудова та візуалізація дерева у Python;

III A/B тестування 

Принципи побудови експерименту;

Проведення A/B тестів;

Виведення висновків з експериментів;

IV Аналіз часових рядів і прогнозування 

Візуалізація часових рядів;

Патерни часових рядів: тренд, сезонність, циклічність;

Moving average; STL; Автокореляція;

Метрики якості: MSE, MAE, R-squared, Theil’s U;

Exponential Smoothing; Holt model; Holt-Winters` model;

Прогнозування на основі лінійної регресії, трансформація часових рядів;

ARIMA, SARIMAX; Прогнозування кілької змінних, VAR;

Бонус: ARCH, поділ на тест-трейн дані;

Тривалість курсу: 14 годин

Викладачка: Наталія Новосад, Data Scientist у Приватбанку. Має великий досвід в клієнтській аналітиці та прогнозуванні часових рядів. Також співпрацює із зовнішніми проектами як експерт-консультант. Отримала ступінь магістра Data Science в Українському Католицькому Університеті та ступінь бакалавра прикладної математики в Львівському національному університеті ім. Івана Франка.

  • Тимчасові об’єкти. Тимчасові таблиці. Programibilities (Function, Views, Stored Procedures)
  • Транзакції. Індекси. Основне розуміння плану запиту – читання даних
  • Основне розуміння плану запиту – Обробка даних
  • Методи оптимізації запитів
  • Робота з різними типами даних (Regexp, Datetime formats, implicit conversions)
  • Window functions для аналізу даних

Тривалість курсу: 12 годин

Викладач: Тарас Фостяк, Data Team Lead at Epam. В IT з 2017, працював більш ніж на 10-ти проектах в різних галузях (медицини, агробізнесу, кібер безпеки, нафти та газу, ті ін.). Основні технології, які викостовував на проекті – від Microsoft. В більшості робота з SQL Server (2008-2019), Azure, Power BI. На даний момент працює з Azure Databricks (Spark 3.x) and Python, Azure Data Factory та Delta Lake.

I Open Source tool Jupyter Notebooks

Перевірка інструментів/Основи (автодоповнення, інтроспекція, завершення);
Історія команд, змінні/Хронометраж та протоколювання;
Відладка/HTML-блокнот iPython;

II Loading, Querying & Filtering data with CSV Module

Огляд формату/Читання/Запис CSV;
Діалекти; Функції модуля CSV. Використання namedtuples;
Фільтрація CSV;

III NumPy

Створення/типи даних/індексація/функції;

Векторизація/генерація, лінійна алгебра;
Математичні та статистичні операції;
Методи масивів;

IV Pandas

Об’єкт Series/Створення/Індекси;
Вибірка, фільтрація;
Застосування функцій, mapping; сортування;

Dataframe (Стовпчики, елементи/Індекси/Фільтрація/Основні функції)

Застосування функцій/Ієрархічний індекс;
Зведені статистики/Описові статистики, унікальні значення, лічильники;
З’єднання/Злиття, об’єднання/Комбінування/Зміна форми та поворот/Групування;

V AWS access / Data Management

Підключення до екземпляру AWS RDS;
Робота з базою даних;
Управління даними, огляд;
Складові процесу управління даними;

VI Data Visualisation

Мова опису графів DOT;
Побудова графів за допомогою Graphviz;
Matplotlib API;

Seaborn як обгортка для Matplotlib/функції Seaborn;
Побудова графіків за допомогою Seaborn;

Тривалість курсу: 24 години

Викладач: Ренат Насрідінов, аналітик Українського центру суспільних даних, учасник Національної мережі тренерів з відкритих даних. З 2016 року працює над проєктами у галузі електоральної, судової та медичної статистики

 

 

 

 

I Why NoSQL

– Relational data model
– Normalized vs  “Denormalized” data model
– Aggregate orientation and Schema-less
– NoSQL properties

II Types of NoSQL databases

– Key-Value
– Document
– Column-Family
– Graph

III NoSQL DB features

– Scalability via sharding
– Reliability and availability via replication
– CAP theorem

Тривалість курсу: 6 годин

Викладач: Андрій Родіонов, Software Engineer at Oracle, National Technical University of Ukraine “Kyiv Polytechnic Institute”

Викладачі Data Analytics 2