Аналитика данных / Data Study
8.49K subscribers
404 photos
38 videos
24 files
332 links
Сайт: https://datastudy.ru/
По всем вопросам: @daniildzheparov

Про аналитику и инженерию данных

Вакансии: https://t.iss.one/data_vacancy
Книги: https://t.iss.one/analyst_books
Download Telegram
Когда недооценил трудозатраты на задачу 😅
🔥70😁152
Теперь официально магистр 👨‍🎓😁
🎉114👍129🔥6
😂😂😂
кстати ученики 35+ очень ответственно относятся к обучению и очень много материала сами пытаются раскопать 👍
😁56👍116🎉1
Еще одно прекрасное событие
👰‍♀️🤵‍♂️💍
🎉13218👍4🔥4
Чем занимается DWH аналитик (часть 2)

В предыдущем посте про DWH аналитика я расписал 2 задачи, которые выполняют такие специалисты:
1. Поиск и определение источников данных
2. Описание требований для сбора, преобразования данных


Сегодня расскажу про еще 2 задачи ⤵️

1️⃣ Моделирование структуры данных в хранилище

Хранилища данных имеют обычно несколько слоев хранения. Если обобщить, то можно выделить 3 слоя:
- слой сырых данных (поступают почти без изменений из источника данных)
- слой очищенных, предподготовленных данных (это основной, core слой хранения, где все таблицы с данными приведены к нужному согласно требованиям виду и эти данные могут быть переиспользованы для разных задач аналитики)
- слой витрин данных (это собранные из разных таблиц данные в одной или нескольких широких таблицах, часто уже включающие агрегацию, частичный расчет метрик). О витринах поговорим еще в следующем пункте

Каждый слой хранения должен быть правильно смоделирован, описан, чтобы каждый пользователь хранилища понимал где и какие данные он может найти. Также важно описывать правила, какие преобразования данных на каждом слое могут быть доступны: делупликация, обогащения, преобразование типов данных, агрегация и т.д.

2️⃣ Подготовка витрин данных для разных бизнес-задач

Витрина данных включает в себя всю необходимую для анализа и решения конкретной бизнес-задачи информацию. Например, в одной таблице и у нас есть данные о клиентах, во второй - продукты компании, в третьей - покупки клиентов продуктов компании, т.е. некие транзакции. Витрина данных может объединить всю эту информацию в одной таблице, какую транзакции какой клиент совершил и какой продукт приобрел.
Витрины чаще всего собираются с помощью SQL-запросов.
😃 Честно, это моя самая любимая часть работы, поэтому люблю эту тему подробно раскрывать в курсе «Основы анализа данных»

Какие hard-навыки необходимы DWH аналитикам:

1. SQL (без него вообще никак, даже пытаться не стоит)
2. Умение моделировать ER-диаграммы, знание связей между таблицами
3. Знание концепций хранилищ данных, знание схем звезда и снежинка
4. Сбор требований, описание документации для потоков данных. Сюда можно включить Data flow диаграммы, S2T, словари данных

Все эти навыки мы проходим на курсе Data Study

Ставьте реакции 🔥 если хотите узнать подробней про каждый из навыков
🔥20👍6
привет!

вернулся из отпуска с полной перезагрузкой в горах, надеюсь этого заряда энергии хватит надолго)
сейчас голова не забита свадьбой и написанием диплома, поэтому сейчас буду сосредоточен на 3 направлениях

1. Повышение активности этого канала
В последнее время посты не с завидной частотой пишу. В ближайшее время буду поднимать активность и наращивать новую аудиторию 🔝

2. Переупаковка материалов курса и набор нового потока "Основы анализа данных"
12 сентября будет старт обучения нового потока, набор уже идет и уже есть оплатившие и ждущие начало обучения студенты 🔥
Я постоянно на основе обратной связи от студентов дополняю материалы, практику в уроки. Часть материалов предзаписываю в виде видео-инструкций. Сейчас нужно обновить дизайн конспектов, презентаций, прошерстить каждый слайд чтобы все смотрелось еще более лаконично и понятно
Кто желает начать обучение в Data Study на моем курсе ➡️ Описание курса

3. Поиск новой работы
Текущая компания RNT Group (ex EPAM) мне нравится. За год полного переформатирования всех внутренних процессов работа осталась комфортной, есть варианты развития дальше в качестве специалиста. Но все же чувствую внутреннюю потребность идти дальше. Может быть потому что сейчас работаю не совсем на data проекте, а по большей части выполняю работу тех. лида с командой стюардов по работе с MDM и часть задач веду по системному анализу, а варианты ротации (переход на другой проект) сейчас отсутствуют. Поэтому возникает внутренняя потребность искать что-то поближе к DWH, BI и разработки платформ данных.
С выбором не тороплюсь, но очередной процесс обновления резюме уже пошёл) Если у кого-то есть интересные задачи и Senior позиции, буду рад пообщаться 😉 @daniildzheparov
🔥12👍32
отличная книга, которая собрала в себе теорию по управлению данными (Data Governance) в компаниях. Практических кейсов не расписано, но методология изложена детально, международная практика ориентируется во многом на этот свод знаний. для диплома кстати часть материала цитировал из этой книги, а также отдельные главы всегда говорю читать студентам на курсе, например про метрики качества данных
👍7
DAMA-DMBOK / Свод знаний по управлению данными (второе издание)

"Главная задача книги — определить набор руководящих принципов и описать их применение в функциональных областях управления данными. Издание всесторонне описывает проблемы, возникающие в процессе управления данными, и предлагает способы их решения. В нем подробно описаны широко принятые практики, методы и приемы, функции, роли, результаты и метрики.

«DAMA-DMBOK: Свод знаний по управлению данными. Второе издание» предоставляет
специалистам по управлению данными, ИТ-специалистам, руководителям, преподавателям и исследователям обширный материал для совершенствования работы с информационными активами и корпоративными данными."

Скачать книгу
👍18
сегодня внес последние доработки в дашборд перед сдачей проекта (который вел на фрилансе)

с небольшими перерывами с апреля 2023 мы с заказчиком:
1. реализовали парсинг иностранного сайта с доской объявлений недвижимости в Испании
2. сделали хранение данных в базе, расчет необходимых метрик и сбор витрины
3. настроили всю инфраструктуру проекта в облаке (виртуалка для парсера, ETL-скрипт крутится там же, база данных, дашборд)
4. разработали дашборд по анализу рынка недвижимости
5. брались за задачи по внедрению модели прогнозирования цены с применением NLP для анализа описания объявления, но чуть позже решили приостановить активность, т.к. заказчику стали интересны не только объявления Испании, но и Польши.

для работы с Польшей заказчик решил обратиться в другую компанию (некий дорогой стартап со своей командой аналитики). в итоге план проекта, который они прислали всех шокировал 😬, фотки будут ниже. в итоге просто заказчик отказался с ними работать с таким подходом к оформлению их работы. проектный план должен быть проработанным, аккуратным и понятным, а не составленным на коленках с таким почерком 😄
👍10🔥5
вот собственно и проектный план того дорого стартапа, который хотели привлечь к работе 😅 и комментарии заказчика
😁26👍6
SQL для аналитики — рейтинг прикладных задач с решениями

“В этой публикации я собрал топ прикладных задач и мои подходы к их решению в терминах SQL. Каждая задача снабжена кусочком данных и кодом”

https://habr.com/ru/companies/otus/articles/541882/
👍22🔥31
Навыки Аналитика DWH

Привет!
В двух прошлых постах писал про основные направления задач Аналитика DWH на проектах.
Чем занимается DWH аналитик
Чем занимается DWH аналитик (часть 2)

Давайте здесь суммируем необходимые навыки для выполнения этих задач:

1️⃣ SQL
Язык, на котором пишутся запросы к данным в базах и хранилищах. Что из операторов и нужно знать
- DDL команды на создание/редактирование таблиц и их свойств
- SELECT запросы и все что в них включается ⤵️
- операторы фильтрации WHERE, HAVING после агрегации
- сами функции агрегации и оператор GROUP BY
- JOIN для объединения таблиц
- функции работы со строками, датой и временем
- логические и арифметические операторы
- Подзапросы и табличные выражения
- Оконные функции
- Индексы и оптимизация запросов

+ Составление моделей данных и ER-диаграмм

2️⃣ Подходы к построению хранилищ данных
- Сюда можно включить знание основополагающих подходов к построению хранилищ от (Кимбалл, Инмон)
- Понимание чем отличаются DWH от Data Lake, что такое объектное хранилище и какие есть гибриды (например, Lake House)
- Другие модели построения хранилищ (Data Vault, Anchor Modelling)
- Понимание моделей звезда ⭐️ и снежинка ❄️, чем отличаются таблицы фактов от таблиц измерений
- Понимание различий между OLTP и OLAP системами
- Понимание почему в хранилищах обычно несколько различных слоев хранения данных

3️⃣ Навык составления документации и сбор требований
- Тут вообще важно сначала понимать роль аналитика на проекте, почему важно общаться и коммуницировать с бизнес-заказчиками и что IT - это цифровой помощник бизнеса.
- Сбор требований (бизнес, пользовательские, функциональные, нефункциональные)
вот в этих постах (пост 1, пост 2) есть много материалов про требования, да и просто по поиску в канале можете много чего найти по этой теме
- составление словарей данных, source to target (S2T) документов

Это основные навыки (ну либо скорее темы и направления для прокачки навыков), которые нужны аналитикам DWH.
Кроме этого сюда можно добавить ETL/ELT инструменты, знание Python будет хорошим плюсом, а также из этого вытекают знания по возможным способам интеграции и передачи данных между системами, ну и конечно никто никогда не отменяет soft-навыков 😉

Приобрести эти навыки на курсе ➡️ "Основы анализа данных"
🔥13👍31
This media is not supported in your browser
VIEW IN TELEGRAM
Пятничный юмор 😅
Ссылочка на источник

Всем хороших выходных 😉
😁13🔥2👍1
Привет!

Многие пишут вопросы по курсу «Основы анализа данных» лично. Отвечаю всем, но все же решил собрать часто задаваемые вопросы и ответы на них в одном месте ⤵️

Курс «Основы анализа данных» - старт 12 сентября, 7 поток

1️⃣
Вопрос: Какая продолжительность курса?

Ответ: курс длится 3,5 месяца, по факту общения со студентами в группе мы можем договориться в процессе на интересующие дополнительные занятия и длительность будет 4 месяца

2️⃣
Вопрос: для кого подходит курс?

Ответ: курс подходит
📍новичкам в сфере аналитики (курс поможет освоить навыки на уровне сильного junior аналитика, научитесь решать практические задачи и поменять аналитические инструменты для их решения)

📍начинающим аналитикам, инженерам (курс помогает систематизировать знания, развить имеющиеся hard-навыки и получить дополнительную проектную практику)

📍другие специалисты (менеджеры, разработчики, QA-инженеры, предприниматели, кто хочет повысить свои компетенции по работе с данными)


3️⃣
Вопрос: Какая стоимость курса и какие варианты оплаты?

Ответ: стоимость курса 45000, в нее включены
- видеоуроки
- онлайн-занятия 1 раз в неделю
- записи онлайн-занятий
- конспекты уроков
- обратная связь от меня по домашним заданиям
- помощь в подготовке итогового проекта
- защита проекта и сертификат об успешном окончании курса

Варианты оплаты:
- через сайт с карт банков РФ
- рассрочка банковская
- внутренняя рассрочка
- оплата с зарубежных счетов


Создал чат, где можно задать свои вопросы или поискать ответы на уже заданные вопросы
Присоединяйтесь в чат с вопросами


Курс «Основы анализа данных» - старт 12 сентября, 7 поток
👍6😁2
Сижу после работы пересматриваю и готовлю материал для завтрашнего практического занятия с учениками по Apache Superset.

На курсе идет модуль по визуализации данных, прошли уже 2 инструмента: Tableau и Yandex Datalens. Завтра будет урок по Apache Superset, где будем разбирать особенности инструмента и работать с его функционалом.

При работе с BI тулами выделяю 3 основных шага (в каждом из них может быть зарыта объемная работа):
1️⃣ Подключения источников данных и настройка датасетов
2️⃣ Построение визуализаций
3️⃣ Дизайн и настройка дашборда

Пока писал пост стало интересно, что вы думаете, сколько нужно знать BI тулов аналитику данных?
Голосуйте ниже 😉
👍1