Аналитика данных / Data Study
8.41K subscribers
405 photos
38 videos
24 files
326 links
Сайт: https://datastudy.ru/
По всем вопросам: @daniildzheparov

Про аналитику и инженерию данных

Вакансии: https://t.iss.one/data_vacancy
Книги: https://t.iss.one/analyst_books
Download Telegram
Привет!

Sibur Digital Community организовало трехдневную бесплатную конференцию по визуализации данных
Думаю будет интересно послушать 😉
🔥4
Forwarded from СИБУР Цифровой (Alexandra Polyanova)
⭐️ Ура! Наша первая digital-конференция:
ВИЗУАЛИЗАЦИЯ
ДАННЫХ
в рамках Sibur Digital Community

26 апреля: Графика и визуализация
27-28 апреля: Данные и визуализация
Детали и тезисы
—-——————-

26 апреля (вторник)
ГРАФИКА И ВИЗУАЛИЗАЦИЯ
17:00 - 20:00 (мск)

▪️ "Манипуляции в инфографике: темная сторона визуализации данных" - Павел Лебедев - Бизнес-тренер по инфографике и визуализации данных, экс-руководитель отдела веб-дизайна Лаборатории Касперского

▪️ "Презентации в условиях изменений. Чего следует избегать в оформлении слайдов и к чему стремиться" - Антон Дубинчин - ТОП-100 креативщиков России по версии АКАР, основатель агентства креативного дизайна презентаций Proslides

————————-

27 апреля (среда)
ДАННЫЕ И ВИЗУАЛИЗАЦИЯ
17:00 - 20:00 (мск)

▪️ "BI платформы. Тренды, Гартнер и импортозамещение" - Ксения Плесовских - Руководитель направления ML/DA в компании Lad

▪️"Кейсы дашбордов в промышленности. Как построить пульт управления заводом" - Алексей Колоколов - Директор Института Бизнес-Аналитики

————————-

28 апреля (четверг)
ДАННЫЕ И ВИЗУАЛИЗАЦИЯ
17:00 - 20:00 (мск)

▪️ "Дашбордизация как цифровой консалтинг" - Максим Коровин - Владелец продукта СИБУР Диджитал

▪️ "Визуализация данных: красота vs удобство. Кейсы" - Максим Горбачевский - Основатель портала Infographer. ru, CEO агентства бизнес-визуализаций Infographer

Регистрация
Бесплатно. Онлайн

Приходите сами, задавайте вопросы спикерам заранее или сразу после докладов, зовите коллег и всех, кому это потенциально может быть полезно.

Отдельная благодарность за репосты в профильные чаты!
👍8
Историчность данных

Существует несколько способов управления историчностью данных и обновлением данных в таблицах. В зависимости от структуры данных и их применения появляется потребность в хранении версионности и историчности этих данных.

SCD или Slowly Changing Dimensions - медленно меняющиеся измерения, когда некоторые атрибуты в данных могут меняться со временем, тем самым возникает необходимость добавлять новую версию записи данных.

SCD type 0
Данные попадают в таблицу только один раз и становятся статичными, нет версионности и изменения данных. Подходит для хранения конкретных справочников, например названия и ISO коды стран

SCD type 1
Данные перезаписываются новым значением, что также не позволяет хранить версионность. Механизм простой, вместо старых значений в ту же строку перезаписываются новые значения измененных атрибутов, это позволяет не "раздувать" объем таблицы, но не дает доступа к историчности данных.

SCD type 2
Данный тип заключается в том, что в таблицу добавляется новая запись по измененным данным. Это реализовано с помощью специальных атрибутов, которые позволяют управлять версионностью. Обычно эти атрибуты выглядят так:
- Дата Начала версии
- Дата Конца версии
- Актуальность записи

SCD type 3
Реализация выглядит таким образом, что в таблице добавляется атрибут со старым значением.
- Историческое значение
- Новое значение
Есть большой недостаток, что невозможно добавлять много новых столбцов для хранения всех версий данных, поэтому история обычно ограничивается только предыдущей версией.

SCD type 4
Для хранения исторических данных создается отдельная таблица, чтобы хранить предыдущие версии. Основная таблица будет отображать только актуальную запись по данным. Большой плюс, что можем обращаться всегда к таблице основной версии, но при этом нужно создавать и поддерживать отдельную таблицу с историческими данными.

SCD type 5
Это некий гибрид типов 1 и 4. Если таблица имеет много атрибутов, то ее могут разбить на более мелкие таблицы справочники, которые будут статичны. Но если в этом маленьком справочнике будет перезапись значений по типу 1, то также необходимо будет перезаписать данные в связанной с этим справочнике более большой таблице измерений с помощью перезаписи ключа

SCD type 6
Гибрид типов 1,2,3. Здесь используется комбинация вышеперечисленных методов, где хранится полная историчность данных с доступом к актуальной версии и всем историческим значениям. Будут добавлены следующие столбцы для управления историчностью:
- Дата Начала версии
- Дата Конца версии
- Актуальность записи
- Историческое значение
- Новое значение

Примеры SCD в картинках ⬇️

Если пост интересен, оставь реакцию и поделись им с другими 🙂
🔥13👍53
Примеры SCD
Business Analyst vs Data Analyst vs Data Scientist

“С чего начать?” - один из самых шаблонных вопросов перед началом изучения чего-то нового. Помню, как еще на 2-м курсе университета я не имел никакого представления о том, кто такие аналитики в IT и чем они занимаются, непонятно было что изучать.

Давайте разберем чем отличаются между собой профессии бизнес-аналитика, аналитика данных и специалиста по науке о данных.

🔎 Бизнес-аналитик (BA) - специалист в области бизнес-анализа, который выступает ключевым связующим звеном между бизнес-заказчиками и командой разработки.

🔎 Аналитик данных (DA) - специалист в области исследования данных с целью выявления из них бизнес-ценности.

🔎 Специалист по науке о данных (DS) - специалист в области исследования данных, машинного обучения с применением знаний математики, алгоритмов и языков программирования.

Основные задачи и навыки каждого специалиста смотри в картинках ☝️

Понравился пост? Не забудь поставить реакцию и сделать репост ☺️
👍30🔥6🤔31
Привет!

Нашел довольно хорошо написанную и очень свежую статью про Spark DataFrame. Это некое подобие датафрейма pandas, но со своим расширенным функционалом распределенных вычислений от PySpark.
Очень подойдет новичкам в Spark или начинающим инженерам данных.
👍10🔥2🤬2
Привет!

Сегодня хотел написать пост про оконные функции в SQL, но получилась целая статья 😅

Выложил материал на Habr. Переходите, читайте, поддерживайте продвижение статьи, если материал интересный 😊

https://habr.com/ru/post/664000/
👍20🔥7🤔1
Привет!

У меня есть традиция, которая пошла с Instagram блога, делать каждый месяц тест на проверку знаний по аналитике данных.

Хорошие новости - вчера я подготовил тест и сегодня готов поделиться ссылкой на него 🔥🥳

И это ещё не все. После каждого теста я раздавал участникам полезный подарок - файл книги, связанной с аналитикой или data science.

В этот раз будет целых 2 подарка:

1. Файл книги «Изучаем SQL”
2. Бесплатный воркшоп 21 мая по практике очистке и обработки данных с помощью SQL

📍Воркшоп будет не для всех

Как на него попасть?

1. Пройти тест
2. Поделиться результатом теста в любом из ваших чатов в телеграм или опубликовать сторис в Инстаграм
3. На сторис или в сообщении отметить мой профиль Инстаграм daniil.dzheparov или дать ссылку на этот телеграм канал

📍Вы поможете этим охватить больше людей, а я вам буду благодарен и проведу для вас бесплатный воркшоп и поделюсь знаниями ☺️

Ссылка на тест: t.iss.one/QuizBot?start=8wzkoGMl
🔥11👍3👎1
Привет!

Первым делом хотел поблагодарить всех вас, кто следит за каналом, нас уже больше 1000!
🥳🥳🥳

Я уже рассказывал в своём блоге, что с помощью знаний Python хотя бы нескольких библиотек и Баз данных можно построить свой ETL/ELT процесс для извлечения, обработки и загрузки данных.

1. Извлечение данных (Python и библиотека requests)
2. Обработка (Python с библиотекой pandas)
3. Загрузка данных в БД (библиотека sqlalchemy + БД)
4. Как итог работы - визуализация и построение BI решения (Power BI, Tableau …)

На habr нашёл статью с простым описание данного процесса https://habr.com/ru/post/664020/

P.S. На воркшопе мы тоже разбирали подобный процесс работы с данными по вакансиям аналитиков на hh
Ссылка на код и дашборд https://github.com/daniildzheparov999/workshop_project
👍19
Что такое постановка цели по SMART

SMART - одна из техник поставки целей в бизнес-анализе и менеджменте.
Правильно софрмулированные цели помогают эффективнее достичь результата. И что самое главное - позволяют измерить его

Статья на эту тему: https://yagla.ru/blog/marketing/celi-smart-kriterii-i-primery--2108u95038/
Управление безопасностью данных и распределения доступов с помощью CRUD-матрицы

🔎 CRUD-матрица -это один из методов управления информационной безопасностью в управлении данными. Используется подход построения матрицы данные-роли (столбцы матрицы) и данные-процессы (строки матрицы). Доступ управляется уровнями по аббревиатуре CRUD:
📍C (Create) - создание
📍R (Read) - чтение
📍U (Update) - обновление
📍D (Delete) - удаление

Иногда добавляют еще одно действие E (Execute) - выполнение

В каждую ячейку матрицы можно поставить как одно действие, так и сразу все, если эта роль должна иметь все доступы и возможности.
👍91
Привет!

Для тех кто хочет погружаться в Машинное Обучение есть курс, который читают студентам НИУ ВШЭ на Факультете Компьютерных Наук.

Записи лекций и семинаров выложены на Github

https://github.com/esokolov/ml-course-hse
🔥15👍8