Аналитика данных / Data Study – Telegram

Аналитика данных / Data Study

8.48K subscribers

404 photos

38 videos

24 files

330 links

Сайт: https://datastudy.ru/
По всем вопросам: @daniildzheparov

Про аналитику и инженерию данных

Вакансии: https://t.iss.one/data_vacancy
Книги: https://t.iss.one/analyst_books

Download Telegram

About

Blog

Apps

Platform

Аналитика данных / Data Study

8.48K subscribers

Аналитика данных / Data Study

Polars: библиотека для работы с данными

Автор статьи сравнивает популярную библиотеку pandas, применяемую в data мире для работы с данными в структуре dataframe, с библиотекой Polars, которая показывает себя лучше при работе с более тяжелыми по объему датасетами

Ссылка на статью

Polars: библиотека для работы с данными, написанная на RUST

Введение Настоящий хреновый программист всегда находится на гребне волны новых технологий. Зачем ему это? Чтобы при случае можно было повыделываться багажом своих знаний, и заработать немного очков...

👍6

4.13K views18:15

Аналитика данных / Data Study

После проведения множества консультаций и проработки планов развития в сфере аналитики решил собрать общую дорожную карту аналитика данных с перечисленными компетенциями и полезными ссылками на бесплатные учебные ресурсы.
Каждому на личных консультациях я готовлю дорожные карты каждому отдельно в зависимости от запроса и входных данных ученика (его навыках, опыта работы в сфере).
Сейчас выцепил общий вектор и собрал направления обучения в одном месте.
В зависимости от ваших целей развития вы можете брать из нее отдельные блоки, а можете идти поэтапно, закрывая прописанные навыки в каждом блоке.

Дорожная карта аналитика данных

viridian-math-76c on Notion

Дорожная карта аналитика данных | Notion

Created by Daniil Dzheparov - @data_study

❤47👍14🔥10

5.24K views16:48

Аналитика данных / Data Study

Давно в голове сидит идея собрать проект, в котором можно проанализировать навыки, которые требуют и указывают в вакансиях работодатели для аналитиков данных.

В свободное время (которого не так много) начал реализовывать свою идею. Поставил на поток получение данных по новым опубликованным вакансиям каждый день. Правда поставил сначала регион загрузки Питер, поэтому на скрине можете увидеть, что кол-во вакансий там больше чем в Москве. Нужно подсобрать базу вакансий по разным городам/регионам, чтобы было интересней анализировать и была более широкая выборка.

Большая работа будет заключаться в стандартизации названий навыков, хотя первоначально думал что навыки в headhunter более менее уже стандартизированы, но нет(

Хочется сделать рабочий открытый инструмент для вас, чтобы вы могли зайти в него посмотреть актуальные вакансии, оценить какие навыки в них требуются, посмотреть вакансии в вашем регионе под ваш опыт и желаемую ЗП.

Ставьте 🔥 если вам нравится идея и вы хотели бы получить доступ к инструменту после окончания работы над ним

🔥189❤5👍2

4.08K views17:28

Аналитика данных / Data Study

Apache Kafka

Apache Kafka - open-source система, которая выполняет роль брокера сообщений по передаче потоков данных на data проектах.

Смотреть видео про основы Kafka

Про Kafka (основы)

Apache Kafka - популярный распределенный отказоустойчивый брокер сообщений, используемый в высоконагруженных системах и BigData проектах.
На видео мой рассказ про основы Kafka: что, зачем, как и где.

👍5🔥2

3.4K views08:59

Аналитика данных / Data Study

На работе бывают дни когда срочные ad-hoc задачи отнимают большую часть времени и на плановую работу остается меньше ресурсов. Скорее всего вы тоже сталкиваетесь с таким.
Увы, но однозначного подхода нет что с этим можно сделать и как оптимизировать свой рабочий процесс. Если понимаете, что вы просто закапываетесь в таких внезапных и внеочередных задачах, можно попробовать следующие методы:

1. начать работать только с таск-трекером. т.е. просить каждый такой запрос оформлять в виде задачи на вас. это поможет структурировать работу, но в итоге от запроса до решения будет проходить больше времени, т.к. запросы придется выстраивать в порядке приоритета и решать и по порядку, тем. самым запросы становятся на ряду с запланированными задачами (что как мне кажется самое верное и продуктивное решение)

2. сохранять себе шаблоны ad-hoc запросов и их решений, чтобы в дальнейшем тратить на них меньше времени или вообще автоматизировать решение. например, если вас часто просят выгрузить какие-то данные по одному и тому же фильтру: напишите скрипт, который будет достаточно запустить одной кнопкой, либо вообще поставить его на автоматическую выгрузку с определенным расписанием.

3. игнорировать те обсуждения, в которых вы знаете, что все решится без вас. либо стараться делегировать запрос на других коллег, если есть такая возможность. да, тоже вариант бывает рабочим

я все таки склоняюсь больше к 1-му варианту, когда любая задача, которая требует внимания и погружения в тему, должна оформляться как отдельная задачка и ставится в бэклог работы. а сам бэклог уже сортировать по приоритету этих задач.

👍16❤2

3.33K views14:17

Аналитика данных / Data Study

Многие в личку спрашивают "а на каком проекте ты сейчас работаешь?", поэтому решил поделиться видео с выступления нашего PO Сергея Фолимонова про продукт CDI, над которым мы сейчас работаем с командой: развиваем, подключаем новые источники данных, прописываем метрики, внедряем полученные данные в продукты компании.

CDI (Customer Data Integration) - мастер-система для идентификации "золотой записи" клиента. Когда у компании есть множество продуктов и в каждой из них есть кусочки данных о клиентах возникает потребность собрать в одном месте единый портрет клиента, который взаимодействует с продуктами компании.

Более подробно рассказано в видео (презентация доклада есть в описании к видео)

DWH без CDI — деньги на ветер: что Сравни узнали о DWH при внедрении CDI

Честный и откровенный доклад Сергея Фолимонова, Product Owner проекта «Золотая запись клиента», в котором он делится сложностями, возникшими при внедрении системы класса CDI (Customer Data Integration).

Финансовый маркетплейс Сравни внедрил CDI «Единый…

👍10

3.88K views17:46

Аналитика данных / Data Study

Сегодня половину дня лежал в постели и смотрел всякий легкий контент на YouTube, например про сафари в Африке, или кто сколько километров проедет по Москве на 20 литрах бензина. В общем отдыхал от рабочих задач)

Но потом в момент пришло дикое желание изучить что-то новое для себя в плане кодинга и я решил осуществить давнее желание научиться писать логирование для своего кода. На работе при решении аналитических задач такой потребности не возникало, но чем больше беру самостоятельно направление в data engineering и реализацию потоков данных для собственных проектов, тем больше чувствую в этом потребность.

Думал сначала научиться пользоваться встроенной в питон библиотекой logging, но на глаза попалась другая библиотека - loguru
Все оказалось максимально просто) Теперь каждый скрипт буду логами оборачивать

В итоге, могу сказать, что новая информация дает очень сильный всплеск энергии для мозга, а из-за этого как правило приходят новые идеи 😉 Поэтому учитесь всегда новому, иначе это как идти по эскалатору в другую сторону - чуть остановился и сразу поехал назад

👍40❤8

3.59K views20:09

Аналитика данных / Data Study

Сегодня с учениками на курсе "Основы анализа данных" начали модуль по Python с основ библиотеки pandas. В ближайший месяц ученики уже самостоятельно смогут

📍извлекать данные из разных источников (базы данных, API, файлы) с помощью питона
📍проводить исследовательский анализ данных (EDA), RFM-анализ
📍чистить и преобразовывать данные из разных форматов в вид очищенного датафрейма
📍загружать данные в базу данных и автоматизировать ETL процессы
📍строить визуализацию при решении аналитических задач

На прошлом, например, потоке в процессе обучения ученик смог автоматизировать на своей работе процесс сбора и рассылки отчетов на ежедневной основе, и благодаря этому получил новые задачи и возможность повышения 💰🔥
Python пригодится каждому в разной степени, но знание основных библиотек для работы с данными вам точно развяжет сильно руки и упростит жизнь 😉

🔥26👍9❤1

3.89K viewsedited 17:33

Аналитика данных / Data Study

Уже третий день с женой выбираем место, где можно провести предстоящие 3 выходных. Пока результата особо нет 😅, понравившееся отели и домики все забронированы, уже, на остальное либо ценник 🔝, либо само по себе место не очень.

Подумал уже бросить поиски и засесть дома с ноутбуком работать... но после осуждающего взгляда жены быстро передумал 😂

Интересно, сколько у нас здесь трудоголиков собралось) Поделитесь своими планами в виде опроса ниже ⤵️

👍5

3.69K views16:00

Аналитика данных / Data Study

Чем займетесь на выходных?

Anonymous Poll

буду работать, учиться

проведу время дома в кругу семьи

активный отдых

буду гулять по городу, ходит в музеи, на концерты, выставки

👍9

324 voters3.45K views16:02

Аналитика данных / Data Study

Зачем так много решений когда есть одно простое 😂😂😂

👍28🔥7😁6

3.67K views06:40

Аналитика данных / Data Study

Оказывается есть интересная штука в Postgres для работы с http запросами. Можно выполнять запросы и получать на них ответ прямо в базе данных.

Вот здесь прочитал как это делать

Отправка и обработка HTTP запросов в PostgreSQL

В этой статье я хочу поделиться некоторыми наработками, которые мы используем в своих проектах, в частности, тем, как отправлять и обрабатывать HTTP-запросы непосредственно из/в PostgreSQL. Сразу...

👍7

4.44K views07:09

Аналитика данных / Data Study

Forwarded from Аналитика и growth mind-set

❤27👍2🔥1

4.08K views19:12

Аналитика данных / Data Study

Ученик написал отличные новости 😍
Огонь ведь? 🔥

#кейс

🔥58

3.38K viewsedited 17:00

Аналитика данных / Data Study

Еще когда я был подростком, мне запомнились слова одного важного для меня человека. Он сказал, что цели перед собой нужно завышать, делать их чуть более амбициозными, тогда настоящий желаемый результат будет более досягаем. На пути к такой цели ты можешь достигнуть большего результата, чем ты мог ожидать от себя, поставив как кажется оптимальную перед собой цель.

Например, когда ты хочешь зарабатывать 150к в месяц - это твое желание, исходя из которого можно поставить созвучную цель. Добившись ее, ты крутой - зарабатываешь желаемую сумму. Но если ты исходя из желания зарабатывать 150к поставишь более амбициозную - цель зарабатывать 200к, твое планирование и выполнение шагов по достижению этой цели может привести тебя к 200к. Получается, хотел 150к, поставил цель выше, реализовал ее и получаешь 200к 😃

Такое завышение цели еще объясняет выигрыш в том, что даже если ты не смог достичь амбициозной вершины и дошел до нее только частично, скажем 170к ⬅️ это все равно больше чем ты хотел изначально, а значит метод постановки более амбициозной цели сработал).

Привожу пример в заработке, но на самом деле это можно применять в любой сфере жизни: в спорте, личном развитии, финансовом благополучии и т.д.

Я пользуюсь таким подходом и он действительно много раз срабатывал) иногда завышаю прям сильно планку, недооценивая доступные ресурсы и выходит обратная ситуация, когда сильно завышенная цель может быть достигнута на 10-15% и в такие моменты думаешь что с этим делать...

Надеюсь мысль вам понятна 😃

👍26🔥7❤3😁1

3.46K views19:36

Аналитика данных / Data Study

На работе все больше беру на себя data engineering задач по написанию потоков данных.
Раньше было достаточно написать SQL-запрос и документацию, которые передавались инженеру и уже он оборачивал их в python-код или другой ETL-инструмент. Сейчас цель такая, чтобы наша команда стала максимально независима от команды инженеров DWH, тогда все наши решения сможем реализовывать самостоятельно с понятными приоритетами, сроками выполнения задач и будущей поддержкой и развитием.

P.S.: Самое сложное с чем пока сталкиваюсь - это интеграция своего кода в текущий репозиторий. Иногда кажется, что проще написать свою маленькую функцию, чем переиспользовать уже написанные части кода с множеством ненужных тебе аргументов.
Подумываю взять какие-нибудь курсы именно backend python-разработчика или менторство у крутого специалиста, чтобы лучше понимать структуру кода и перенимать лучшие практики

🔥34👍7❤1

3.59K views15:05

Аналитика данных / Data Study

Кто работает с базой данных PostgreSQL, вам думаю может быть интересна данная статья

Автор рассказывает про устроенную в PostgreSQL подсистему сбора статистики работы сервера. С помощью него можно с легкостью найти ответы на следующие вопросы:
- какие запросы и сколько по времени отрабатывают
- определение нагруженных таблиц
- кол-во транзакций на чтение/запись в базе
- статистика по выполнению функций, использованию индексов

В общем, классный материал, вчера сам на работе сидел копал статистику с целью понимания скорости операций по чтению данных с дисков

👍21🔥5

3.91K views05:33

Аналитика данных / Data Study

Часто смотрю разные доклады по IT-тематике на YouTube, в том числе и лекции от экспертов компаний в разных ВУЗах.

У Сравни.ру есть целый курс лекций совместно с НГУ по теме «Практическая сторона современной IT-разработки». Будет полезно посмотреть как новичкам и студентам, так и специалистам с опытом, чтобы подчеркнуть для себя новые подходы в инженерии.

Лекция по основам работы с базами данных

Оставлю ссылку на плей-лист лекций здесь

Лекции 8 в НГУ: основы работы с базами данных

Внутри лекции:

- Популярные базы данных: MongoDB, PostgreSQL, Redis, Elasticserach, Clickhouse
- Как выбрать базу данных
- Столпы: Индекс, Нормализация, Транзакция
- Object-Relational Mapping
- CAP-теорема

===

Ссылки по теме лекции – ищите в телеграм-канале…

👍10🔥7

3.88K views09:49

Аналитика данных / Data Study

Еще одна статья про наблюдение за метриками и работой сервера PostgreSQL. Будет полезно DBA, DE, аналитикам, кто сталкивается с задачами оптимизации ресурсов базы.

Топ полезных SQL-запросов для PostgreSQL

Топ полезных SQL-запросов для PostgreSQL

Статей о работе с PostgreSQL и её преимуществах достаточно много, но не всегда из них понятно, как следить за состоянием базы и метриками, влияющими на её оптимальную работу. В статье подробно...

👍5❤1🔥1

3.55K views07:02