Аналитика данных / Data Study
8.49K subscribers
404 photos
38 videos
24 files
330 links
Сайт: https://datastudy.ru/
По всем вопросам: @daniildzheparov

Про аналитику и инженерию данных

Вакансии: https://t.iss.one/data_vacancy
Книги: https://t.iss.one/analyst_books
Download Telegram
Data Vault

Data Vault - один из подходом моделирования хранилища данных. Методология не новая, появилась еще в 2000 году, позже появилась версия 2.0

Структура DV состоит из следующих компонентов:

1. Хаб (Hub) — единичная бизнес-сущность
2. Связь (Link) — связь между сущностями (Хабами)
3. Сателлит (Satellite) — описательные атрибуты сущностей (хабов) и связей

Полезные ресурсы про Data Vault:

📍Введение в Data Vault
📍Обзор Data Vault от Yandex Cloud
📍When should I use Data Vault
👍51
2 недели прошло с момента выхода на новое место работы

Мне нравится спектр задачи, которыми занимаюсь и предстоит заниматься. Каждый день пишу запросы на SQL, делаю витрины и проверяю качество данных. Кстати, сейчас нет огромного кол-ва daily встреч (лишь бы не сглазить 😁). Это конечно объясняется другой спецификой работы, коммуникации и размером команды.
Работаю также на удаленке 👨‍💻, но есть всегда возможность поехать в офис, почти все коллеги частенько туда ходят)
Кстати было приятно, когда в первый день после сообщения о моем присоединении к компании, начали писать коллеги и говорить что читают мой канал, привет вам 🤚

Накидайте реакций, если вам интересно узнать больше про мои текущие задачи, проект и компанию
🔥116👍22🎉106
Всем привет! Прошлый пост набрал много реакций 😍, поэтому спешу поделиться обещанными новостями.
2 недели назад я пришел устраиваться на новое место. Но сначала расскажу про процесс отбора на позицию ⤵️

Мое резюме нашли на HH, написали в телегу. Все по стандарту: 1-й шаг - скрининг с HR. Приятно пообщались, я рассказал о себе и своем опыте, мне рассказали про позицию и компанию в целом. Договорились на следующий шаг.

Следующим шагом в компании шло тестовое задание по SQL. Вот здесь настроение подпортилось, ибо я отвык решать тестовые и вообще их не особо люблю, если честно) HR бережно спросила, не против ли я решения тестового, но при этом добавила, что это обязательный этап, т.к. компания обжигалась много раз с кандидатами на интервью и поэтому добавили шаг отсева кандидатов в виде тестового по SQL.
"Ну что поделать, раз надо значит буду решать" - подумал я, договорились что отправлю решение в ближайшие дни.
Помню как решал задачки, сидя в кофейне в пятницу с кипящей головой после рабочей недели 🤯 Благо задачи интересные были, отправил решение на следующий день после скрининга.

После недолгого перерыва на проверку моего решения вернулась с HR с положительной обратной связью и приглашением на следующий этап - техническое интервью.
Тех. интервью состояло из 2-х частей:
1. теоретические и практические вопросы про хранение данных, проверку качества, документацию
2. live-coding по SQL

В первой части интервью чувствовал себя уверенно + обстановка сразу дружеская была, а вот по live-coding в некоторых задачках казалось что туплю. Все таки это всегда непривычная атмосфера для решения задач, да и задачки были непростые - интервью вел SQL-разработчик с большим опытом.
Практически через 5 минут после завершения интервью мне написала HR и позвала на короткий созвон, где сказала, что я произвел классное впечатление и меня готовы пригласить на следующий этап)

3-й этап заключался в еще одном интервью, где общались с лидами Data и DWH направлений в компании. Проходило в формате case-интервью, опять же поговорили про мои дальнейшие планы развития. Все прошло на позитиве и в этот же день ко мне вернулись с оффером 😃

С момента получения письма от HR (9 августа) до получения оффера (22 августа) прошло чуть меньше 2-х недель. Ребята всей командой очень быстро вели меня по процессу отбора, за что хочется передать им огромный респект 👍

Работаю я сейчас в компании Сравни.ру на позиции Analytics Engineer.
Работа идет в связке с системным аналитиком, а коммуникацию со многими другими командами компании, которые поставляют данные. Если говорить про список задач, то в него входит:
📍сбор витрин данных на уровне DWH по клиентам и их взаимодействия с продуктами компании
📍написание ETL-скриптов для загрузки данных из DWH в сервис клиентских данных (некая MDM система по клиентам)
📍оценка качества данных
📍помощь по внедрению данных из MDM в продуктовые команды и их сервисы

P.S.: компания сейчас ищет толковых аналитиков (DA, SA) и инженеров в команду DWH, там идёт поток очень интересных задач. Если вы желаете присоединится к классной команде и совместно работать, велкам) Можете прислать свое резюме мне (@daniildzheparov), я поделюсь вашим контактом с HR для дальнейшей коммуникации 😉
🔥3510👍4
Polars: библиотека для работы с данными

Автор статьи сравнивает популярную библиотеку pandas, применяемую в data мире для работы с данными в структуре dataframe, с библиотекой Polars, которая показывает себя лучше при работе с более тяжелыми по объему датасетами

Ссылка на статью
👍6
После проведения множества консультаций и проработки планов развития в сфере аналитики решил собрать общую дорожную карту аналитика данных с перечисленными компетенциями и полезными ссылками на бесплатные учебные ресурсы.
Каждому на личных консультациях я готовлю дорожные карты каждому отдельно в зависимости от запроса и входных данных ученика (его навыках, опыта работы в сфере).
Сейчас выцепил общий вектор и собрал направления обучения в одном месте.
В зависимости от ваших целей развития вы можете брать из нее отдельные блоки, а можете идти поэтапно, закрывая прописанные навыки в каждом блоке.

Дорожная карта аналитика данных
47👍14🔥10
Давно в голове сидит идея собрать проект, в котором можно проанализировать навыки, которые требуют и указывают в вакансиях работодатели для аналитиков данных.

В свободное время (которого не так много) начал реализовывать свою идею. Поставил на поток получение данных по новым опубликованным вакансиям каждый день. Правда поставил сначала регион загрузки Питер, поэтому на скрине можете увидеть, что кол-во вакансий там больше чем в Москве. Нужно подсобрать базу вакансий по разным городам/регионам, чтобы было интересней анализировать и была более широкая выборка.

Большая работа будет заключаться в стандартизации названий навыков, хотя первоначально думал что навыки в headhunter более менее уже стандартизированы, но нет(

Хочется сделать рабочий открытый инструмент для вас, чтобы вы могли зайти в него посмотреть актуальные вакансии, оценить какие навыки в них требуются, посмотреть вакансии в вашем регионе под ваш опыт и желаемую ЗП.

Ставьте 🔥 если вам нравится идея и вы хотели бы получить доступ к инструменту после окончания работы над ним
🔥1895👍2
На работе бывают дни когда срочные ad-hoc задачи отнимают большую часть времени и на плановую работу остается меньше ресурсов. Скорее всего вы тоже сталкиваетесь с таким.
Увы, но однозначного подхода нет что с этим можно сделать и как оптимизировать свой рабочий процесс. Если понимаете, что вы просто закапываетесь в таких внезапных и внеочередных задачах, можно попробовать следующие методы:

1. начать работать только с таск-трекером. т.е. просить каждый такой запрос оформлять в виде задачи на вас. это поможет структурировать работу, но в итоге от запроса до решения будет проходить больше времени, т.к. запросы придется выстраивать в порядке приоритета и решать и по порядку, тем. самым запросы становятся на ряду с запланированными задачами (что как мне кажется самое верное и продуктивное решение)

2. сохранять себе шаблоны ad-hoc запросов и их решений, чтобы в дальнейшем тратить на них меньше времени или вообще автоматизировать решение. например, если вас часто просят выгрузить какие-то данные по одному и тому же фильтру: напишите скрипт, который будет достаточно запустить одной кнопкой, либо вообще поставить его на автоматическую выгрузку с определенным расписанием.

3. игнорировать те обсуждения, в которых вы знаете, что все решится без вас. либо стараться делегировать запрос на других коллег, если есть такая возможность. да, тоже вариант бывает рабочим

я все таки склоняюсь больше к 1-му варианту, когда любая задача, которая требует внимания и погружения в тему, должна оформляться как отдельная задачка и ставится в бэклог работы. а сам бэклог уже сортировать по приоритету этих задач.
👍162
Многие в личку спрашивают "а на каком проекте ты сейчас работаешь?", поэтому решил поделиться видео с выступления нашего PO Сергея Фолимонова про продукт CDI, над которым мы сейчас работаем с командой: развиваем, подключаем новые источники данных, прописываем метрики, внедряем полученные данные в продукты компании.

CDI (Customer Data Integration) - мастер-система для идентификации "золотой записи" клиента. Когда у компании есть множество продуктов и в каждой из них есть кусочки данных о клиентах возникает потребность собрать в одном месте единый портрет клиента, который взаимодействует с продуктами компании.

Более подробно рассказано в видео (презентация доклада есть в описании к видео)
👍10
Сегодня половину дня лежал в постели и смотрел всякий легкий контент на YouTube, например про сафари в Африке, или кто сколько километров проедет по Москве на 20 литрах бензина. В общем отдыхал от рабочих задач)

Но потом в момент пришло дикое желание изучить что-то новое для себя в плане кодинга и я решил осуществить давнее желание научиться писать логирование для своего кода. На работе при решении аналитических задач такой потребности не возникало, но чем больше беру самостоятельно направление в data engineering и реализацию потоков данных для собственных проектов, тем больше чувствую в этом потребность.

Думал сначала научиться пользоваться встроенной в питон библиотекой logging, но на глаза попалась другая библиотека - loguru
Все оказалось максимально просто) Теперь каждый скрипт буду логами оборачивать

В итоге, могу сказать, что новая информация дает очень сильный всплеск энергии для мозга, а из-за этого как правило приходят новые идеи 😉 Поэтому учитесь всегда новому, иначе это как идти по эскалатору в другую сторону - чуть остановился и сразу поехал назад
👍408
Сегодня с учениками на курсе "Основы анализа данных" начали модуль по Python с основ библиотеки pandas. В ближайший месяц ученики уже самостоятельно смогут

📍извлекать данные из разных источников (базы данных, API, файлы) с помощью питона
📍проводить исследовательский анализ данных (EDA), RFM-анализ
📍чистить и преобразовывать данные из разных форматов в вид очищенного датафрейма
📍загружать данные в базу данных и автоматизировать ETL процессы
📍строить визуализацию при решении аналитических задач

На прошлом, например, потоке в процессе обучения ученик смог автоматизировать на своей работе процесс сбора и рассылки отчетов на ежедневной основе, и благодаря этому получил новые задачи и возможность повышения 💰🔥
Python пригодится каждому в разной степени, но знание основных библиотек для работы с данными вам точно развяжет сильно руки и упростит жизнь 😉
🔥26👍91
Уже третий день с женой выбираем место, где можно провести предстоящие 3 выходных. Пока результата особо нет 😅, понравившееся отели и домики все забронированы, уже, на остальное либо ценник 🔝, либо само по себе место не очень.

Подумал уже бросить поиски и засесть дома с ноутбуком работать... но после осуждающего взгляда жены быстро передумал 😂

Интересно, сколько у нас здесь трудоголиков собралось) Поделитесь своими планами в виде опроса ниже ⤵️
👍5
Зачем так много решений когда есть одно простое 😂😂😂
👍28🔥7😁6
Ученик написал отличные новости 😍
Огонь ведь? 🔥

#кейс
🔥58
Еще когда я был подростком, мне запомнились слова одного важного для меня человека. Он сказал, что цели перед собой нужно завышать, делать их чуть более амбициозными, тогда настоящий желаемый результат будет более досягаем. На пути к такой цели ты можешь достигнуть большего результата, чем ты мог ожидать от себя, поставив как кажется оптимальную перед собой цель.

Например, когда ты хочешь зарабатывать 150к в месяц - это твое желание, исходя из которого можно поставить созвучную цель. Добившись ее, ты крутой - зарабатываешь желаемую сумму. Но если ты исходя из желания зарабатывать 150к поставишь более амбициозную - цель зарабатывать 200к, твое планирование и выполнение шагов по достижению этой цели может привести тебя к 200к. Получается, хотел 150к, поставил цель выше, реализовал ее и получаешь 200к 😃

Такое завышение цели еще объясняет выигрыш в том, что даже если ты не смог достичь амбициозной вершины и дошел до нее только частично, скажем 170к ⬅️ это все равно больше чем ты хотел изначально, а значит метод постановки более амбициозной цели сработал).

Привожу пример в заработке, но на самом деле это можно применять в любой сфере жизни: в спорте, личном развитии, финансовом благополучии и т.д.

Я пользуюсь таким подходом и он действительно много раз срабатывал) иногда завышаю прям сильно планку, недооценивая доступные ресурсы и выходит обратная ситуация, когда сильно завышенная цель может быть достигнута на 10-15% и в такие моменты думаешь что с этим делать...

Надеюсь мысль вам понятна 😃
👍26🔥73😁1