Сегодня начинаю погружаться в новую задачу в рамках проектной активности. И как круто когда уделено много внимания документации. Вот прям все до мелочей рассказано, от описания технической инфраструктуры с пометками куда и как подключаться, до описания модели данных, словаря с описанием каждого столбца в таблице с его бизнес-смыслом 😍
Такая документация однозначно сокращает время на онбординг и вовлечение новых людей на проекте, а также снимает с вас груз ответственности за "клад знаний", которые вы держите в своей голове, отвечаете на 100500 вопросов. Это сэкономит вам и вашей команде уйму времени, а это ценный ресурс ⏳
Такая документация однозначно сокращает время на онбординг и вовлечение новых людей на проекте, а также снимает с вас груз ответственности за "клад знаний", которые вы держите в своей голове, отвечаете на 100500 вопросов. Это сэкономит вам и вашей команде уйму времени, а это ценный ресурс ⏳
🔥19👍5❤3
Прошла защита итоговых проектов учеников - ребята сделали очень большую и классную работу 🎉🎉🎉
Темы проектов различны: начиная от анализа клиентской базы Netflix, анализом эффективности трансферов игроков в футбольных клубах, заканчивая изучением исторических данных по появлению торнадо в США и их тенденцией из года в год
Ну и конечно отзывы выпускников, новоиспеченных аналитиков данных 😎
Темы проектов различны: начиная от анализа клиентской базы Netflix, анализом эффективности трансферов игроков в футбольных клубах, заканчивая изучением исторических данных по появлению торнадо в США и их тенденцией из года в год
Ну и конечно отзывы выпускников, новоиспеченных аналитиков данных 😎
🔥11❤3
Знакомые попросили опубликовать вакансию. Кто находится в поиске или кому вакансия покажется интересной, велкам ⤵️
Поддерживаю с учениками общение и они меня не перестают радовать 😃
Влад учился на 6 потоке курса, обучение закончилось в сентябре. Написал мне по техническому вопросу, а разговор зашел в тему трудоустройства, так бы и не узнал что выпускник работает аналитиком в МТС 👍
И за учеников радостно, и нетворк по компаниям увеличивается, везде свои люди есть 😅
Порадуемся за Влада 🔥🔥🔥
P.S. интересно, сколько еще выпускников устроились на работу и не сказали мне об этом?)))
#кейс
Влад учился на 6 потоке курса, обучение закончилось в сентябре. Написал мне по техническому вопросу, а разговор зашел в тему трудоустройства, так бы и не узнал что выпускник работает аналитиком в МТС 👍
И за учеников радостно, и нетворк по компаниям увеличивается, везде свои люди есть 😅
Порадуемся за Влада 🔥🔥🔥
P.S. интересно, сколько еще выпускников устроились на работу и не сказали мне об этом?)))
#кейс
🔥22🎉5
This media is not supported in your browser
VIEW IN TELEGRAM
Вчера отработал последний рабочий день в 2023, на конец недели взял 2 day off чтобы не пропали)
Поэтому появилось свободное время чтобы посидеть с проектом анализа навыков из вакансий. Думал что hh хранит более менее стандартизированные названия навыков, которые указываются в вакансиях, но нет 😔
Ладно названия одних и тех те навыков/инструментов попадаются в разном написании, но есть множество ошибок в самих словах и просто мусора, который нужно чистить. Занимаюсь стандартизацией названий, чтобы в анализ шла очищенная выборка. Думал опубликую дашборд до конца года, но видимо будет только в начале следующего 😉
Поэтому появилось свободное время чтобы посидеть с проектом анализа навыков из вакансий. Думал что hh хранит более менее стандартизированные названия навыков, которые указываются в вакансиях, но нет 😔
Ладно названия одних и тех те навыков/инструментов попадаются в разном написании, но есть множество ошибок в самих словах и просто мусора, который нужно чистить. Занимаюсь стандартизацией названий, чтобы в анализ шла очищенная выборка. Думал опубликую дашборд до конца года, но видимо будет только в начале следующего 😉
🔥16❤6👍1
Осталось 3 дня до повышения цены 🎅
Уже 16 января стартуем обучение 8 потока курса "Основы анализа данных", врываемся в новый год с обучением и прокачкой своих 🧠🤓
Много вопросов пишите в личку, решил самые популярные из них оформить в виде карточек (смотри картинки к посту).
Для желающих пойти получать практические прикладные знания анализа данных - советую не откладывать покупку на следующий год
📍с января цена возрастает до 55. т.р📈
Сейчас можно забронировать и купить курс за 45 т.р.🎁
Уже 16 января стартуем обучение 8 потока курса "Основы анализа данных", врываемся в новый год с обучением и прокачкой своих 🧠🤓
Много вопросов пишите в личку, решил самые популярные из них оформить в виде карточек (смотри картинки к посту).
Для желающих пойти получать практические прикладные знания анализа данных - советую не откладывать покупку на следующий год
📍с января цена возрастает до 55. т.р
Сейчас можно забронировать и купить курс за 45 т.р.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤1
Пока идут праздники, прочитал много статей, материалов про мир криптовалюты и различные проекты. Я придерживаюсь мысли, что источников дохода должно быть несколько и лучше чтобы они были разнообразными.
Дак вот пока читал разные материалы, наткнулся на проект Notcoin. Это телеграмм-бот с геймификацией по заработку (майнингу) монет. Пока механика очень проста - кликаешь по экрану -> получаешь монеты🪙
Можно прокачивать уровень чтобы получать больше монет 🔝
Можете попробовать сами здесь
Проект хайпанул сильно, в будущем возможно будет листинг этих монет на криптобиржах или это превратится во внутреннюю валюты телеграмма, пока никто не знает)
Я пока перегружаю голову на выходных решил немного побаловаться 😃
Дак вот пока читал разные материалы, наткнулся на проект Notcoin. Это телеграмм-бот с геймификацией по заработку (майнингу) монет. Пока механика очень проста - кликаешь по экрану -> получаешь монеты
Можно прокачивать уровень чтобы получать больше монет 🔝
Можете попробовать сами здесь
Проект хайпанул сильно, в будущем возможно будет листинг этих монет на криптобиржах или это превратится во внутреннюю валюты телеграмма, пока никто не знает)
Я пока перегружаю голову на выходных решил немного побаловаться 😃
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8
Достучаться до истины
Отсутствие доверия к данным - одна из проблем в компаниях.
Почему нет доверия?
Существует список причин, который так или иначе подрывает доверие к имеющимся данным
📍низкое качество данных
📍потери данных
📍противоречивые данные в разных системах
📍кривые отчеты аналитиков
...
Давайте на примере разберем, почему так может происходить.
Стандартная поток данных от их генерации до аналитического отчета выглядит так ⤵️
1️⃣ Ввод данных в UI (пользовательский интерфейс)
2️⃣ Обработка данных на backend и запись в базу данных приложения
3️⃣ Отправка данных в аналитическое хранилище / систему аналитики
4️⃣ Расчеты и построение отчетов, витрин данных
5️⃣ Использование данных для получения инсайтов и отчетности
Каждый из этих шагов может иметь ошибки, баги, сбои - все то что приводит к ухудшению или потери данных.
P.S. буквально из рабочего чата для вас достал золотые слова на скриншоте.
Завтра допишу вторую часть поста с примером где и по каким причинам может упасть качество данных, если на этот пост конечно реакций накидаете 😉
Отсутствие доверия к данным - одна из проблем в компаниях.
Почему нет доверия?
Существует список причин, который так или иначе подрывает доверие к имеющимся данным
📍низкое качество данных
📍потери данных
📍противоречивые данные в разных системах
📍кривые отчеты аналитиков
...
Давайте на примере разберем, почему так может происходить.
Стандартная поток данных от их генерации до аналитического отчета выглядит так ⤵️
1️⃣ Ввод данных в UI (пользовательский интерфейс)
2️⃣ Обработка данных на backend и запись в базу данных приложения
3️⃣ Отправка данных в аналитическое хранилище / систему аналитики
4️⃣ Расчеты и построение отчетов, витрин данных
5️⃣ Использование данных для получения инсайтов и отчетности
Каждый из этих шагов может иметь ошибки, баги, сбои - все то что приводит к ухудшению или потери данных.
P.S. буквально из рабочего чата для вас достал золотые слова на скриншоте.
Завтра допишу вторую часть поста с примером где и по каким причинам может упасть качество данных, если на этот пост конечно реакций накидаете 😉
👍26🔥12
Достучаться до истины (часть 2)
Вчера поднял тему доверия к данным. Основная причина почему доверия нет - низкое качество данных.
Пример:
У компании есть сайт, на котором она продает товары покупателям. Компания отслеживает когда покупатель на сайте просматривал карточку товара и нажал на кнопку "В корзину". Считаем конверсию сколько людей просмотрели карточку -> сколько из них положили товар в корзину.
Проблема на Frontend (пользовательский интерфейс сайта)
Всегда клик по кнопке "В корзину" учитывался корректно, а в один из дней вдруг взяло и перестало считаться. Заметил это бравый разработчик через пару дней и поправил баг.
➡️ Из-за такого инцидента пока ошибка не была устранена - данным в этот период доверять нельзя.
Проблема на Backend (логика приложения и база данных)
С новым релизом приложения поменялся API метод и принимаемый формат сообщения данных, благодаря которому данные о клике пользователя записываются в базу данных. Из-за скрытого и трудно воспроизводимого бага не заметили проблему и в итоге часть сообщений записывалось в базу успешно, а часть записывалось с дублированием данных, но под разным временем записи события. В итоге: клик клиент сделал один раз - а в базе на этот клик оказалось 2 события
Проблема в ETL при передачи из БД в Аналитическое Хранилище
Есть поток данных, который каждый день выгружает пачку накопившихся событий о кликах за сутки и записывает это в аналитическое хранилище. Выгрузка идет ночью, чтобы не нагружать системы в рабочее время. И вот представим такое правило: сколько данных в пачке забрали из базы -> столько и должны положить в хранилище (пусть трансформаций никаких не будет).
И вот представьте, наступает время выгрузки ночью, запускается процесс, и в это время возникает проблема с внутренней сетью и инструмент просто отваливается и перестает грузить пачку данных. Сбой в одну ночью, через неделю еще сбой, через месяц еще похожая ситуация. Если такие сбои не улавливать и не прогружать части данных после них корректно - в итоге многое можно потерять.
Проблема при расчетах на аналитическом слое
Здесь не буду усложнять и растягивать. Пусть мы на эту задачу поставили не очень внимательного аналитика, не провалидировали его расчеты и отдали это бизнес-пользователям. А потом через время получили от них ***, потому что цифры с реальностью вообще никак не бьются.
Кто виноват?
- невнимательный аналитик?
- frontend-разработчик?
- тестировщики?
- backend-разработчик?
📍Каждый конечно отвечает за свою зону ответственности, но как правило чем ближе ты находишься к слою аналитики и видишь перед собой длинный поток данных до тебя, тем больше вероятность того, что тебе и предстоит помогать другим коллегам отлавливать ошибки, баги, сбои и т.д.
Здесь прям хочется дать сравнение с рекой . Если кто-то наверху течения кинул мусор в реку, то его увидят все кто стоит ниже по течению. А тому кто выше будет пофиг на это, ведь у него все чисто)
Не мусорите ни в природе, ни в потоках данных 😃
Вчера поднял тему доверия к данным. Основная причина почему доверия нет - низкое качество данных.
Пример:
У компании есть сайт, на котором она продает товары покупателям. Компания отслеживает когда покупатель на сайте просматривал карточку товара и нажал на кнопку "В корзину". Считаем конверсию сколько людей просмотрели карточку -> сколько из них положили товар в корзину.
Проблема на Frontend (пользовательский интерфейс сайта)
Всегда клик по кнопке "В корзину" учитывался корректно, а в один из дней вдруг взяло и перестало считаться. Заметил это бравый разработчик через пару дней и поправил баг.
➡️ Из-за такого инцидента пока ошибка не была устранена - данным в этот период доверять нельзя.
Проблема на Backend (логика приложения и база данных)
С новым релизом приложения поменялся API метод и принимаемый формат сообщения данных, благодаря которому данные о клике пользователя записываются в базу данных. Из-за скрытого и трудно воспроизводимого бага не заметили проблему и в итоге часть сообщений записывалось в базу успешно, а часть записывалось с дублированием данных, но под разным временем записи события. В итоге: клик клиент сделал один раз - а в базе на этот клик оказалось 2 события
Проблема в ETL при передачи из БД в Аналитическое Хранилище
Есть поток данных, который каждый день выгружает пачку накопившихся событий о кликах за сутки и записывает это в аналитическое хранилище. Выгрузка идет ночью, чтобы не нагружать системы в рабочее время. И вот представим такое правило: сколько данных в пачке забрали из базы -> столько и должны положить в хранилище (пусть трансформаций никаких не будет).
И вот представьте, наступает время выгрузки ночью, запускается процесс, и в это время возникает проблема с внутренней сетью и инструмент просто отваливается и перестает грузить пачку данных. Сбой в одну ночью, через неделю еще сбой, через месяц еще похожая ситуация. Если такие сбои не улавливать и не прогружать части данных после них корректно - в итоге многое можно потерять.
Проблема при расчетах на аналитическом слое
Здесь не буду усложнять и растягивать. Пусть мы на эту задачу поставили не очень внимательного аналитика, не провалидировали его расчеты и отдали это бизнес-пользователям. А потом через время получили от них ***, потому что цифры с реальностью вообще никак не бьются.
Кто виноват?
- невнимательный аналитик?
- frontend-разработчик?
- тестировщики?
- backend-разработчик?
📍Каждый конечно отвечает за свою зону ответственности, но как правило чем ближе ты находишься к слою аналитики и видишь перед собой длинный поток данных до тебя, тем больше вероятность того, что тебе и предстоит помогать другим коллегам отлавливать ошибки, баги, сбои и т.д.
Здесь прям хочется дать сравнение с рекой . Если кто-то наверху течения кинул мусор в реку, то его увидят все кто стоит ниже по течению. А тому кто выше будет пофиг на это, ведь у него все чисто)
Не мусорите ни в природе, ни в потоках данных 😃
🔥28👍2❤1
Хочу зафиксировать здесь некоторые цели, которые поставил перед собой на 2024
1️⃣ Улучшить свою физическую форму и здоровье
Это пожалуй цель топ-1 на этот год. С удаленной работой очень мало подвижности, что сразу сказывается на самочувствии, и как правило отражается в настроении. Ввожу потихоньку домашние тренировки и наращиваю нагрузку постепенно, надеюсь созреть опять на походы в бассейн
2️⃣ Разработать материалы для курса Analytics Engineering (Аналитика данных 2.0)
Работы в этом направлении очень много: написать программу обучения, поделить ее на модули/уроки.темы, подготовить материалы презентаций, конспектов, сделать практическую часть обучения, оформить домашние задания... Начну в скором времени закидывать сюда опросы, пройдя которые вы мне поможете определить основные тезисы и блоки программы обучения
3️⃣ Записать онлайн-курс на одну из платформ курсов
Это будет отличный опыт формирования курса именно полностью в онлайн форме. Плюсом хочется сделать курс по смежным инструментам, которые важно знать не только аналитикам, но и всем кто работает на IT проектах. Пока мыслей много, но их нужно все формализовать
4️⃣ Дорастить канал до 10 000 подписчиков
Канал - это оказалось то место, которое помогает
📍мне донести до вас полезную информацию или просто зафиксировать мысли из головы, а также находить людей под разные цели и задачи
📍вам получить для себя практические материалы, перенять возможно в чем-то мой опыт, ну и также найти единомышленников
Спасибо вам, что участвуете в моей жизни таким образом 🔥😉
Вы кстати тоже помогаете развивать канал, если делитесь постами отсюда со своими друзьями, коллегами, знакомыми 😎
Есть еще и другие более личные цели, которые пожалуй сюда писать не буду) Посмотрим через год что из этого будет достигнуто и закрыто и на каком уровне 🚀
1️⃣ Улучшить свою физическую форму и здоровье
Это пожалуй цель топ-1 на этот год. С удаленной работой очень мало подвижности, что сразу сказывается на самочувствии, и как правило отражается в настроении. Ввожу потихоньку домашние тренировки и наращиваю нагрузку постепенно, надеюсь созреть опять на походы в бассейн
2️⃣ Разработать материалы для курса Analytics Engineering (Аналитика данных 2.0)
Работы в этом направлении очень много: написать программу обучения, поделить ее на модули/уроки.темы, подготовить материалы презентаций, конспектов, сделать практическую часть обучения, оформить домашние задания... Начну в скором времени закидывать сюда опросы, пройдя которые вы мне поможете определить основные тезисы и блоки программы обучения
3️⃣ Записать онлайн-курс на одну из платформ курсов
Это будет отличный опыт формирования курса именно полностью в онлайн форме. Плюсом хочется сделать курс по смежным инструментам, которые важно знать не только аналитикам, но и всем кто работает на IT проектах. Пока мыслей много, но их нужно все формализовать
4️⃣ Дорастить канал до 10 000 подписчиков
Канал - это оказалось то место, которое помогает
📍мне донести до вас полезную информацию или просто зафиксировать мысли из головы, а также находить людей под разные цели и задачи
📍вам получить для себя практические материалы, перенять возможно в чем-то мой опыт, ну и также найти единомышленников
Спасибо вам, что участвуете в моей жизни таким образом 🔥😉
Вы кстати тоже помогаете развивать канал, если делитесь постами отсюда со своими друзьями, коллегами, знакомыми 😎
Есть еще и другие более личные цели, которые пожалуй сюда писать не буду) Посмотрим через год что из этого будет достигнуто и закрыто и на каком уровне 🚀
🔥27👍8❤3
Уже завтра начинаем заниматься с учениками группы курса 😍
Их 100% результат, который получит каждый из группы
📍через месяц - уверенно работают с данными в базе данных с помощью SQL
📍через 2 месяца - пишут свои скрипты Python для извлечения, трансформации и загрузки данных
📍через 3 месяца - реализуют свой практический проект c помощью SQL, Python, визуализации BI и готовят документацию своего решения
И каждый еще в процессе будет искать и находить работу аналитиком 🔥
Желающие еще могут присоединиться к нам 😉 ➡️ Запись в группу
Буду рад вас видеть в группе единомышленников! Уже завтра будем общаться с вами и осваивать новые навыки
Data Study
Их 100% результат, который получит каждый из группы
📍через месяц - уверенно работают с данными в базе данных с помощью SQL
📍через 2 месяца - пишут свои скрипты Python для извлечения, трансформации и загрузки данных
📍через 3 месяца - реализуют свой практический проект c помощью SQL, Python, визуализации BI и готовят документацию своего решения
И каждый еще в процессе будет искать и находить работу аналитиком 🔥
Желающие еще могут присоединиться к нам 😉 ➡️ Запись в группу
Буду рад вас видеть в группе единомышленников! Уже завтра будем общаться с вами и осваивать новые навыки
Data Study
👍5🔥2
Мониторинг качества данных в ETL процессах
ETL процессы используются для передачи и преобразования данных между различными источниками данных и целевыми системами. Такие процессы обычно
📍забирают данные с информационных систем
📍преобразуют данные если нужно в процессе
📍загружают данные в единое аналитическое хранилище, а также служат для перегрузки данных по слоям хранилища
Правильное функционирование этих процессов оказывает огромное влияние на качество данных. Представьте, что если нарушить механизм сбора, трансформации и загрузки данных, то все может пойти дальше по одному месту)
Поэтому перед инженерами данных и аналитиками всегда стоит большая задача - обеспечить мониторинг качества данных.
Проверок данных может быть огромное количество, перечислю для примера самые простые для понимания, но не всегда простые по реализации:
1️⃣ Проверка объемов
Сколько выгрузили = столько должны загрузить. Это работает, если в процессе у нас не участвуют этапы трансформации в виде фильтрации, либо агрегации. Выгрузили из источника данных 1000 строк и в таком же виде эти 1000 строк переложили в хранилище данных.
Если объемы не совпадают - срабатывает алерт, либо специальны мониторинг.
🔎 Алерт (alert) - сигнал, уведомление для человека, что что-то пошло не по плану.
2️⃣ Проверка контрольных сумм
Работает тогда, когда в данных есть числовые метрики, например сумма продаж, стоимость продуктов и т.п.
Можно считать общую сумму по набору забираемых данных и сравнивать с суммой загруженных по итогу данных в целевую систему. Например, забираем из источника 1100 строк, с общей суммой по столбцу sale_amount = 350к. + стоит правила на фильтрацию данных с заказами, где sale_amount = 0. В итоге загрузили в целевую систему уже только 900 строк (объем был 1100), а по сумме заказов sale_amount = 350к, т.е. все хорошо. Просто в процессе правильно отфильтровались нулевые заказы и даже можно считать сколько таких было.
3️⃣ Частота выгрузки
Большая часть процессов работает по расписанию. Например, мы вугружаем данные 1 раз в час.
Т.е. каждый час у нас происходит: выгрузка, трансформация, загрузка почки данных.
Если в очередной час выгрузка не сработала - это повод для алерта.
В зависимости от данных и бизнес-задач существует большое количество проверок, которые могут быть важны в одном кейсе, но совершенно бесполезны в другом.
Накидайте реакций, если вам интересна эта тема и стоит еще про нее рассказывать 😉
ETL процессы используются для передачи и преобразования данных между различными источниками данных и целевыми системами. Такие процессы обычно
📍забирают данные с информационных систем
📍преобразуют данные если нужно в процессе
📍загружают данные в единое аналитическое хранилище, а также служат для перегрузки данных по слоям хранилища
Правильное функционирование этих процессов оказывает огромное влияние на качество данных. Представьте, что если нарушить механизм сбора, трансформации и загрузки данных, то все может пойти дальше по одному месту)
Поэтому перед инженерами данных и аналитиками всегда стоит большая задача - обеспечить мониторинг качества данных.
Проверок данных может быть огромное количество, перечислю для примера самые простые для понимания, но не всегда простые по реализации:
1️⃣ Проверка объемов
Сколько выгрузили = столько должны загрузить. Это работает, если в процессе у нас не участвуют этапы трансформации в виде фильтрации, либо агрегации. Выгрузили из источника данных 1000 строк и в таком же виде эти 1000 строк переложили в хранилище данных.
Если объемы не совпадают - срабатывает алерт, либо специальны мониторинг.
🔎 Алерт (alert) - сигнал, уведомление для человека, что что-то пошло не по плану.
2️⃣ Проверка контрольных сумм
Работает тогда, когда в данных есть числовые метрики, например сумма продаж, стоимость продуктов и т.п.
Можно считать общую сумму по набору забираемых данных и сравнивать с суммой загруженных по итогу данных в целевую систему. Например, забираем из источника 1100 строк, с общей суммой по столбцу sale_amount = 350к. + стоит правила на фильтрацию данных с заказами, где sale_amount = 0. В итоге загрузили в целевую систему уже только 900 строк (объем был 1100), а по сумме заказов sale_amount = 350к, т.е. все хорошо. Просто в процессе правильно отфильтровались нулевые заказы и даже можно считать сколько таких было.
3️⃣ Частота выгрузки
Большая часть процессов работает по расписанию. Например, мы вугружаем данные 1 раз в час.
Т.е. каждый час у нас происходит: выгрузка, трансформация, загрузка почки данных.
Если в очередной час выгрузка не сработала - это повод для алерта.
В зависимости от данных и бизнес-задач существует большое количество проверок, которые могут быть важны в одном кейсе, но совершенно бесполезны в другом.
Накидайте реакций, если вам интересна эта тема и стоит еще про нее рассказывать 😉
👍42🔥13❤2