Аналитика данных / Data Study
8.48K subscribers
404 photos
38 videos
24 files
330 links
Сайт: https://datastudy.ru/
По всем вопросам: @daniildzheparov

Про аналитику и инженерию данных

Вакансии: https://t.iss.one/data_vacancy
Книги: https://t.iss.one/analyst_books
Download Telegram
Polars: библиотека для работы с данными

Автор статьи сравнивает популярную библиотеку pandas, применяемую в data мире для работы с данными в структуре dataframe, с библиотекой Polars, которая показывает себя лучше при работе с более тяжелыми по объему датасетами

Ссылка на статью
👍6
После проведения множества консультаций и проработки планов развития в сфере аналитики решил собрать общую дорожную карту аналитика данных с перечисленными компетенциями и полезными ссылками на бесплатные учебные ресурсы.
Каждому на личных консультациях я готовлю дорожные карты каждому отдельно в зависимости от запроса и входных данных ученика (его навыках, опыта работы в сфере).
Сейчас выцепил общий вектор и собрал направления обучения в одном месте.
В зависимости от ваших целей развития вы можете брать из нее отдельные блоки, а можете идти поэтапно, закрывая прописанные навыки в каждом блоке.

Дорожная карта аналитика данных
47👍14🔥10
Давно в голове сидит идея собрать проект, в котором можно проанализировать навыки, которые требуют и указывают в вакансиях работодатели для аналитиков данных.

В свободное время (которого не так много) начал реализовывать свою идею. Поставил на поток получение данных по новым опубликованным вакансиям каждый день. Правда поставил сначала регион загрузки Питер, поэтому на скрине можете увидеть, что кол-во вакансий там больше чем в Москве. Нужно подсобрать базу вакансий по разным городам/регионам, чтобы было интересней анализировать и была более широкая выборка.

Большая работа будет заключаться в стандартизации названий навыков, хотя первоначально думал что навыки в headhunter более менее уже стандартизированы, но нет(

Хочется сделать рабочий открытый инструмент для вас, чтобы вы могли зайти в него посмотреть актуальные вакансии, оценить какие навыки в них требуются, посмотреть вакансии в вашем регионе под ваш опыт и желаемую ЗП.

Ставьте 🔥 если вам нравится идея и вы хотели бы получить доступ к инструменту после окончания работы над ним
🔥1895👍2
На работе бывают дни когда срочные ad-hoc задачи отнимают большую часть времени и на плановую работу остается меньше ресурсов. Скорее всего вы тоже сталкиваетесь с таким.
Увы, но однозначного подхода нет что с этим можно сделать и как оптимизировать свой рабочий процесс. Если понимаете, что вы просто закапываетесь в таких внезапных и внеочередных задачах, можно попробовать следующие методы:

1. начать работать только с таск-трекером. т.е. просить каждый такой запрос оформлять в виде задачи на вас. это поможет структурировать работу, но в итоге от запроса до решения будет проходить больше времени, т.к. запросы придется выстраивать в порядке приоритета и решать и по порядку, тем. самым запросы становятся на ряду с запланированными задачами (что как мне кажется самое верное и продуктивное решение)

2. сохранять себе шаблоны ad-hoc запросов и их решений, чтобы в дальнейшем тратить на них меньше времени или вообще автоматизировать решение. например, если вас часто просят выгрузить какие-то данные по одному и тому же фильтру: напишите скрипт, который будет достаточно запустить одной кнопкой, либо вообще поставить его на автоматическую выгрузку с определенным расписанием.

3. игнорировать те обсуждения, в которых вы знаете, что все решится без вас. либо стараться делегировать запрос на других коллег, если есть такая возможность. да, тоже вариант бывает рабочим

я все таки склоняюсь больше к 1-му варианту, когда любая задача, которая требует внимания и погружения в тему, должна оформляться как отдельная задачка и ставится в бэклог работы. а сам бэклог уже сортировать по приоритету этих задач.
👍162
Многие в личку спрашивают "а на каком проекте ты сейчас работаешь?", поэтому решил поделиться видео с выступления нашего PO Сергея Фолимонова про продукт CDI, над которым мы сейчас работаем с командой: развиваем, подключаем новые источники данных, прописываем метрики, внедряем полученные данные в продукты компании.

CDI (Customer Data Integration) - мастер-система для идентификации "золотой записи" клиента. Когда у компании есть множество продуктов и в каждой из них есть кусочки данных о клиентах возникает потребность собрать в одном месте единый портрет клиента, который взаимодействует с продуктами компании.

Более подробно рассказано в видео (презентация доклада есть в описании к видео)
👍10
Сегодня половину дня лежал в постели и смотрел всякий легкий контент на YouTube, например про сафари в Африке, или кто сколько километров проедет по Москве на 20 литрах бензина. В общем отдыхал от рабочих задач)

Но потом в момент пришло дикое желание изучить что-то новое для себя в плане кодинга и я решил осуществить давнее желание научиться писать логирование для своего кода. На работе при решении аналитических задач такой потребности не возникало, но чем больше беру самостоятельно направление в data engineering и реализацию потоков данных для собственных проектов, тем больше чувствую в этом потребность.

Думал сначала научиться пользоваться встроенной в питон библиотекой logging, но на глаза попалась другая библиотека - loguru
Все оказалось максимально просто) Теперь каждый скрипт буду логами оборачивать

В итоге, могу сказать, что новая информация дает очень сильный всплеск энергии для мозга, а из-за этого как правило приходят новые идеи 😉 Поэтому учитесь всегда новому, иначе это как идти по эскалатору в другую сторону - чуть остановился и сразу поехал назад
👍408
Сегодня с учениками на курсе "Основы анализа данных" начали модуль по Python с основ библиотеки pandas. В ближайший месяц ученики уже самостоятельно смогут

📍извлекать данные из разных источников (базы данных, API, файлы) с помощью питона
📍проводить исследовательский анализ данных (EDA), RFM-анализ
📍чистить и преобразовывать данные из разных форматов в вид очищенного датафрейма
📍загружать данные в базу данных и автоматизировать ETL процессы
📍строить визуализацию при решении аналитических задач

На прошлом, например, потоке в процессе обучения ученик смог автоматизировать на своей работе процесс сбора и рассылки отчетов на ежедневной основе, и благодаря этому получил новые задачи и возможность повышения 💰🔥
Python пригодится каждому в разной степени, но знание основных библиотек для работы с данными вам точно развяжет сильно руки и упростит жизнь 😉
🔥26👍91
Уже третий день с женой выбираем место, где можно провести предстоящие 3 выходных. Пока результата особо нет 😅, понравившееся отели и домики все забронированы, уже, на остальное либо ценник 🔝, либо само по себе место не очень.

Подумал уже бросить поиски и засесть дома с ноутбуком работать... но после осуждающего взгляда жены быстро передумал 😂

Интересно, сколько у нас здесь трудоголиков собралось) Поделитесь своими планами в виде опроса ниже ⤵️
👍5
Зачем так много решений когда есть одно простое 😂😂😂
👍28🔥7😁6
Ученик написал отличные новости 😍
Огонь ведь? 🔥

#кейс
🔥58
Еще когда я был подростком, мне запомнились слова одного важного для меня человека. Он сказал, что цели перед собой нужно завышать, делать их чуть более амбициозными, тогда настоящий желаемый результат будет более досягаем. На пути к такой цели ты можешь достигнуть большего результата, чем ты мог ожидать от себя, поставив как кажется оптимальную перед собой цель.

Например, когда ты хочешь зарабатывать 150к в месяц - это твое желание, исходя из которого можно поставить созвучную цель. Добившись ее, ты крутой - зарабатываешь желаемую сумму. Но если ты исходя из желания зарабатывать 150к поставишь более амбициозную - цель зарабатывать 200к, твое планирование и выполнение шагов по достижению этой цели может привести тебя к 200к. Получается, хотел 150к, поставил цель выше, реализовал ее и получаешь 200к 😃

Такое завышение цели еще объясняет выигрыш в том, что даже если ты не смог достичь амбициозной вершины и дошел до нее только частично, скажем 170к ⬅️ это все равно больше чем ты хотел изначально, а значит метод постановки более амбициозной цели сработал).

Привожу пример в заработке, но на самом деле это можно применять в любой сфере жизни: в спорте, личном развитии, финансовом благополучии и т.д.

Я пользуюсь таким подходом и он действительно много раз срабатывал) иногда завышаю прям сильно планку, недооценивая доступные ресурсы и выходит обратная ситуация, когда сильно завышенная цель может быть достигнута на 10-15% и в такие моменты думаешь что с этим делать...

Надеюсь мысль вам понятна 😃
👍26🔥73😁1
На работе все больше беру на себя data engineering задач по написанию потоков данных.
Раньше было достаточно написать SQL-запрос и документацию, которые передавались инженеру и уже он оборачивал их в python-код или другой ETL-инструмент. Сейчас цель такая, чтобы наша команда стала максимально независима от команды инженеров DWH, тогда все наши решения сможем реализовывать самостоятельно с понятными приоритетами, сроками выполнения задач и будущей поддержкой и развитием.

P.S.: Самое сложное с чем пока сталкиваюсь - это интеграция своего кода в текущий репозиторий. Иногда кажется, что проще написать свою маленькую функцию, чем переиспользовать уже написанные части кода с множеством ненужных тебе аргументов.
Подумываю взять какие-нибудь курсы именно backend python-разработчика или менторство у крутого специалиста, чтобы лучше понимать структуру кода и перенимать лучшие практики
🔥34👍71
Кто работает с базой данных PostgreSQL, вам думаю может быть интересна данная статья

Автор рассказывает про устроенную в PostgreSQL подсистему сбора статистики работы сервера. С помощью него можно с легкостью найти ответы на следующие вопросы:
- какие запросы и сколько по времени отрабатывают
- определение нагруженных таблиц
- кол-во транзакций на чтение/запись в базе
- статистика по выполнению функций, использованию индексов

В общем, классный материал, вчера сам на работе сидел копал статистику с целью понимания скорости операций по чтению данных с дисков
👍21🔥5
Часто смотрю разные доклады по IT-тематике на YouTube, в том числе и лекции от экспертов компаний в разных ВУЗах.

У Сравни.ру есть целый курс лекций совместно с НГУ по теме «Практическая сторона современной IT-разработки». Будет полезно посмотреть как новичкам и студентам, так и специалистам с опытом, чтобы подчеркнуть для себя новые подходы в инженерии.

Лекция по основам работы с базами данных

Оставлю ссылку на плей-лист лекций здесь
👍10🔥7