Аналитика данных / Data Study
8.46K subscribers
404 photos
38 videos
24 files
329 links
Сайт: https://datastudy.ru/
По всем вопросам: @daniildzheparov

Про аналитику и инженерию данных

Вакансии: https://t.iss.one/data_vacancy
Книги: https://t.iss.one/analyst_books
Download Telegram
Сегодня начинаю погружаться в новую задачу в рамках проектной активности. И как круто когда уделено много внимания документации. Вот прям все до мелочей рассказано, от описания технической инфраструктуры с пометками куда и как подключаться, до описания модели данных, словаря с описанием каждого столбца в таблице с его бизнес-смыслом 😍

Такая документация однозначно сокращает время на онбординг и вовлечение новых людей на проекте, а также снимает с вас груз ответственности за "клад знаний", которые вы держите в своей голове, отвечаете на 100500 вопросов. Это сэкономит вам и вашей команде уйму времени, а это ценный ресурс
🔥19👍53
Прошла защита итоговых проектов учеников - ребята сделали очень большую и классную работу 🎉🎉🎉

Темы проектов различны: начиная от анализа клиентской базы Netflix, анализом эффективности трансферов игроков в футбольных клубах, заканчивая изучением исторических данных по появлению торнадо в США и их тенденцией из года в год

Ну и конечно отзывы выпускников, новоиспеченных аналитиков данных 😎
🔥113
Знакомые попросили опубликовать вакансию. Кто находится в поиске или кому вакансия покажется интересной, велкам ⤵️
Поддерживаю с учениками общение и они меня не перестают радовать 😃

Влад учился на 6 потоке курса, обучение закончилось в сентябре. Написал мне по техническому вопросу, а разговор зашел в тему трудоустройства, так бы и не узнал что выпускник работает аналитиком в МТС 👍
И за учеников радостно, и нетворк по компаниям увеличивается, везде свои люди есть 😅

Порадуемся за Влада 🔥🔥🔥

P.S. интересно, сколько еще выпускников устроились на работу и не сказали мне об этом?)))

#кейс
🔥22🎉5
This media is not supported in your browser
VIEW IN TELEGRAM
Вчера отработал последний рабочий день в 2023, на конец недели взял 2 day off чтобы не пропали)

Поэтому появилось свободное время чтобы посидеть с проектом анализа навыков из вакансий. Думал что hh хранит более менее стандартизированные названия навыков, которые указываются в вакансиях, но нет 😔
Ладно названия одних и тех те навыков/инструментов попадаются в разном написании, но есть множество ошибок в самих словах и просто мусора, который нужно чистить. Занимаюсь стандартизацией названий, чтобы в анализ шла очищенная выборка. Думал опубликую дашборд до конца года, но видимо будет только в начале следующего 😉
🔥166👍1
Осталось 3 дня до повышения цены 🎅

Уже 16 января стартуем обучение 8 потока курса "Основы анализа данных", врываемся в новый год с обучением и прокачкой своих 🧠🤓

Много вопросов пишите в личку, решил самые популярные из них оформить в виде карточек (смотри картинки к посту).

Для желающих пойти получать практические прикладные знания анализа данных - советую не откладывать покупку на следующий год
📍с января цена возрастает до 55. т.р 📈

Сейчас можно забронировать и купить курс за 45 т.р. 🎁
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31
Пока идут праздники, прочитал много статей, материалов про мир криптовалюты и различные проекты. Я придерживаюсь мысли, что источников дохода должно быть несколько и лучше чтобы они были разнообразными.

Дак вот пока читал разные материалы, наткнулся на проект Notcoin. Это телеграмм-бот с геймификацией по заработку (майнингу) монет. Пока механика очень проста - кликаешь по экрану -> получаешь монеты 🪙

Можно прокачивать уровень чтобы получать больше монет 🔝

Можете попробовать сами здесь

Проект хайпанул сильно, в будущем возможно будет листинг этих монет на криптобиржах или это превратится во внутреннюю валюты телеграмма, пока никто не знает)

Я пока перегружаю голову на выходных решил немного побаловаться 😃
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8
Достучаться до истины

Отсутствие доверия к данным - одна из проблем в компаниях.

Почему нет доверия?

Существует список причин, который так или иначе подрывает доверие к имеющимся данным
📍низкое качество данных
📍потери данных
📍противоречивые данные в разных системах
📍кривые отчеты аналитиков
...

Давайте на примере разберем, почему так может происходить.
Стандартная поток данных от их генерации до аналитического отчета выглядит так ⤵️

1️⃣ Ввод данных в UI (пользовательский интерфейс)
2️⃣ Обработка данных на backend и запись в базу данных приложения
3️⃣ Отправка данных в аналитическое хранилище / систему аналитики
4️⃣ Расчеты и построение отчетов, витрин данных
5️⃣ Использование данных для получения инсайтов и отчетности

Каждый из этих шагов может иметь ошибки, баги, сбои - все то что приводит к ухудшению или потери данных.

P.S. буквально из рабочего чата для вас достал золотые слова на скриншоте.

Завтра допишу вторую часть поста с примером где и по каким причинам может упасть качество данных, если на этот пост конечно реакций накидаете 😉
👍26🔥12
Достучаться до истины (часть 2)

Вчера поднял тему доверия к данным. Основная причина почему доверия нет - низкое качество данных.

Пример:
У компании есть сайт, на котором она продает товары покупателям. Компания отслеживает когда покупатель на сайте просматривал карточку товара и нажал на кнопку "В корзину". Считаем конверсию сколько людей просмотрели карточку -> сколько из них положили товар в корзину.

Проблема на Frontend (пользовательский интерфейс сайта)
Всегда клик по кнопке "В корзину" учитывался корректно, а в один из дней вдруг взяло и перестало считаться. Заметил это бравый разработчик через пару дней и поправил баг.
➡️ Из-за такого инцидента пока ошибка не была устранена - данным в этот период доверять нельзя.

Проблема на Backend (логика приложения и база данных)
С новым релизом приложения поменялся API метод и принимаемый формат сообщения данных, благодаря которому данные о клике пользователя записываются в базу данных. Из-за скрытого и трудно воспроизводимого бага не заметили проблему и в итоге часть сообщений записывалось в базу успешно, а часть записывалось с дублированием данных, но под разным временем записи события. В итоге: клик клиент сделал один раз - а в базе на этот клик оказалось 2 события

Проблема в ETL при передачи из БД в Аналитическое Хранилище
Есть поток данных, который каждый день выгружает пачку накопившихся событий о кликах за сутки и записывает это в аналитическое хранилище. Выгрузка идет ночью, чтобы не нагружать системы в рабочее время. И вот представим такое правило: сколько данных в пачке забрали из базы -> столько и должны положить в хранилище (пусть трансформаций никаких не будет).
И вот представьте, наступает время выгрузки ночью, запускается процесс, и в это время возникает проблема с внутренней сетью и инструмент просто отваливается и перестает грузить пачку данных. Сбой в одну ночью, через неделю еще сбой, через месяц еще похожая ситуация. Если такие сбои не улавливать и не прогружать части данных после них корректно - в итоге многое можно потерять.

Проблема при расчетах на аналитическом слое
Здесь не буду усложнять и растягивать. Пусть мы на эту задачу поставили не очень внимательного аналитика, не провалидировали его расчеты и отдали это бизнес-пользователям. А потом через время получили от них ***, потому что цифры с реальностью вообще никак не бьются.

Кто виноват?
- невнимательный аналитик?
- frontend-разработчик?
- тестировщики?
- backend-разработчик?

📍Каждый конечно отвечает за свою зону ответственности, но как правило чем ближе ты находишься к слою аналитики и видишь перед собой длинный поток данных до тебя, тем больше вероятность того, что тебе и предстоит помогать другим коллегам отлавливать ошибки, баги, сбои и т.д.

Здесь прям хочется дать сравнение с рекой . Если кто-то наверху течения кинул мусор в реку, то его увидят все кто стоит ниже по течению. А тому кто выше будет пофиг на это, ведь у него все чисто)

Не мусорите ни в природе, ни в потоках данных 😃
🔥28👍21
Хочу зафиксировать здесь некоторые цели, которые поставил перед собой на 2024

1️⃣ Улучшить свою физическую форму и здоровье
Это пожалуй цель топ-1 на этот год. С удаленной работой очень мало подвижности, что сразу сказывается на самочувствии, и как правило отражается в настроении. Ввожу потихоньку домашние тренировки и наращиваю нагрузку постепенно, надеюсь созреть опять на походы в бассейн

2️⃣ Разработать материалы для курса Analytics Engineering (Аналитика данных 2.0)
Работы в этом направлении очень много: написать программу обучения, поделить ее на модули/уроки.темы, подготовить материалы презентаций, конспектов, сделать практическую часть обучения, оформить домашние задания... Начну в скором времени закидывать сюда опросы, пройдя которые вы мне поможете определить основные тезисы и блоки программы обучения

3️⃣ Записать онлайн-курс на одну из платформ курсов
Это будет отличный опыт формирования курса именно полностью в онлайн форме. Плюсом хочется сделать курс по смежным инструментам, которые важно знать не только аналитикам, но и всем кто работает на IT проектах. Пока мыслей много, но их нужно все формализовать

4️⃣ Дорастить канал до 10 000 подписчиков
Канал - это оказалось то место, которое помогает
📍мне донести до вас полезную информацию или просто зафиксировать мысли из головы, а также находить людей под разные цели и задачи
📍вам получить для себя практические материалы, перенять возможно в чем-то мой опыт, ну и также найти единомышленников
Спасибо вам, что участвуете в моей жизни таким образом 🔥😉
Вы кстати тоже помогаете развивать канал, если делитесь постами отсюда со своими друзьями, коллегами, знакомыми 😎

Есть еще и другие более личные цели, которые пожалуй сюда писать не буду) Посмотрим через год что из этого будет достигнуто и закрыто и на каком уровне 🚀
🔥27👍83
Уже завтра начинаем заниматься с учениками группы курса 😍

Их 100% результат, который получит каждый из группы
📍через месяц - уверенно работают с данными в базе данных с помощью SQL
📍через 2 месяца - пишут свои скрипты Python для извлечения, трансформации и загрузки данных
📍через 3 месяца - реализуют свой практический проект c помощью SQL, Python, визуализации BI и готовят документацию своего решения

И каждый еще в процессе будет искать и находить работу аналитиком 🔥

Желающие еще могут присоединиться к нам 😉 ➡️ Запись в группу
Буду рад вас видеть в группе единомышленников! Уже завтра будем общаться с вами и осваивать новые навыки

Data Study
👍5🔥2
Мониторинг качества данных в ETL процессах

ETL процессы используются для передачи и преобразования данных между различными источниками данных и целевыми системами. Такие процессы обычно
📍забирают данные с информационных систем
📍преобразуют данные если нужно в процессе
📍загружают данные в единое аналитическое хранилище, а также служат для перегрузки данных по слоям хранилища

Правильное функционирование этих процессов оказывает огромное влияние на качество данных. Представьте, что если нарушить механизм сбора, трансформации и загрузки данных, то все может пойти дальше по одному месту)
Поэтому перед инженерами данных и аналитиками всегда стоит большая задача - обеспечить мониторинг качества данных.
Проверок данных может быть огромное количество, перечислю для примера самые простые для понимания, но не всегда простые по реализации:

1️⃣ Проверка объемов
Сколько выгрузили = столько должны загрузить. Это работает, если в процессе у нас не участвуют этапы трансформации в виде фильтрации, либо агрегации. Выгрузили из источника данных 1000 строк и в таком же виде эти 1000 строк переложили в хранилище данных.
Если объемы не совпадают - срабатывает алерт, либо специальны мониторинг.

🔎 Алерт (alert) - сигнал, уведомление для человека, что что-то пошло не по плану.

2️⃣ Проверка контрольных сумм
Работает тогда, когда в данных есть числовые метрики, например сумма продаж, стоимость продуктов и т.п.
Можно считать общую сумму по набору забираемых данных и сравнивать с суммой загруженных по итогу данных в целевую систему. Например, забираем из источника 1100 строк, с общей суммой по столбцу sale_amount = 350к. + стоит правила на фильтрацию данных с заказами, где sale_amount = 0. В итоге загрузили в целевую систему уже только 900 строк (объем был 1100), а по сумме заказов sale_amount = 350к, т.е. все хорошо. Просто в процессе правильно отфильтровались нулевые заказы и даже можно считать сколько таких было.

3️⃣ Частота выгрузки
Большая часть процессов работает по расписанию. Например, мы вугружаем данные 1 раз в час.
Т.е. каждый час у нас происходит: выгрузка, трансформация, загрузка почки данных.
Если в очередной час выгрузка не сработала - это повод для алерта.

В зависимости от данных и бизнес-задач существует большое количество проверок, которые могут быть важны в одном кейсе, но совершенно бесполезны в другом.

Накидайте реакций, если вам интересна эта тема и стоит еще про нее рассказывать 😉
👍42🔥132
Предлагают курс записать, только жаль что на все времени не найти 🤔
👍14😁21