Аналитика данных / Data Study
8.44K subscribers
405 photos
38 videos
24 files
329 links
Сайт: https://datastudy.ru/
По всем вопросам: @daniildzheparov

Про аналитику и инженерию данных

Вакансии: https://t.iss.one/data_vacancy
Книги: https://t.iss.one/analyst_books
Download Telegram
Индексы в БД

🔎 Индексы - структура данных в базе, которая позволяет определить положение необходимых данных в базе с более высокой скоростью выполнения запросов к БД.

Пример для понимания: представьте, что вы ходите по торговому центру с целью найти магазин X. Если вы будете обходить весь торговый центр в поисках, пытаясь найти магазин по вывеске, это будет очень долго. Гораздо проще иметь в торговом центре карту или схему расположения магазинов с номерными знаками каждого магазина. Вот эти номерные знаки на карте магазинов возле их названия и будут подобием индексов в базе данных.

Зачем нужны индексы:
- более быстрый поиск необходимых данных внутри таблицы
- фильтрация данных по столбцу с индексом происходит быстрее
- объединение данных из таблиц, если в условиях объединения есть столбцы с индексами
- сортировка выборок данных также может ускориться при помощи сортировки по полю с индексом

Синтаксис создания индекса:
CREATE INDEX index_name ON table_name (column_name)

📍Это один из частых вопросах на собеседованиях, поэтому нужно понимать что такое индексы и как их можно применять

Полезные ссылки для знакомства с индексами:

- Что такое индексы (статья)
- Как создавать индексы в PostgreSQL (статья)
- Индексы (видео)
- Индексы для оптимизации SQL запросов (статья)
👍18🔥10
Привет!

Хотел сделать небольшой проект и посчитать зарплаты в IT на основе открытых вакансий. Можно было собрать описание вакансий с зарплатными вилками, а дальше сделать визуализацию собранных данных по разным категориям (регионы, должности, грейды), а потом поделиться с вами обзором результатов.

Идея хорошая, чтобы понимать текущие зарплатные вилки, но все уже сделали за меня 😁

Хабр Карьера сделали детальный обзор по зарплатам в IT за первое полугодие 2022. Судя по описанию, их исследование ценно тем, что данные собираются не просто из вакансий, а желающие люди на портале анонимно могут указать свою текущую ЗП, которая и будет учитываться в отчете. То, что предлагают в вакансии, и что кандидат может получать в реальности - это иногда совсем разные цифры.

Ставьте реакции, если интересно читать контент про различные обзоры рынка, а я пойду дальше разбираться с Superset и писать требования для нового сайта 😃

Читать зарплатный отчет
👍36🔥9
User Persona и как это помогает в разработке продуктов

Привет! Сегодня решил собрать для вас полезные материалы по написанию user persona, которые могут являться как часть пользовательских требований при разработке решения.

🔎 "User Persona (Персона) - это обобщенное, но реалистичное описание типичного или целевого пользователя продукта, то есть архетип, а не реальный живой человек, но персонажи должны описываться так, как если бы они были настоящими людьми."

Зачем нужно описывать персоны:
- детальное описание потребностей пользователя
- понимание процесса использования продукта пользователем
- возможность смотреть на разработку решения со стороны пользователя

Полезные ресурсы по теме:

📍Статья "Об использовании персон (персонажей) пользователей при разработке продуктов"
📍Статья "Метод персон в UX: зачем нужен, почему работает и как применять"
📍Статья "User Story Mapping: от идеи до релиза"
📍Шаблон User Persona в Miro
📍Шаблона User Persona от меня
👍11
Для тех кто видит перед собой потребность в изучении SQL, книга будет полезным помощником для самостоятельного обучения. Узнаете основные термины, которые используются в реляционных БД, а также научитесь работать с MySQL 😉

А вообще можете посмотреть и другие книги в канале. Туда выкладываю то, что считаю будет полезными ресурсами для погружения в работу с данными в аналитике. Чтобы все было под рукой в одной библиотеке
🔥2
Алан Бьюли / Изучаем SQL

"SQL - язык для формирования, манипулирования и извлечения данных из реляционных БД. Если вы собираетесь работать с реляционными БД - разрабатывать приложения, администрировать, либо делать аналитику на основе данных - вам понадобится знать SQL."

Скачать книгу
👍22🔥3
Привет!

Слышали ли вы про понятие DataOps?
Если нет, то сейчас разберем вместе, что оно обозначает.

🔎 DataOps - это методология и набор практик непрерывной интеграции данных, автоматизации и мониторинга управления данными в течение всего их жизненного цикла.

Какие задачи входят в DataOps?
📍автоматизация процессов загрузки данных в хранилища
📍мониторинг операционных потоков данных
📍оптимизация аналитики данных
📍создание инфраструктуры для корректного хранения, движения и использования данных

Полезные ссылки для погружения в тему:
🔗 DataOps Wikipedia
🔗 Концепция DataOps
🔗 DataOps в Big Data
🔗 What is DataOps

Вполне возможно, что через какое-то время или уже сейчас будут появляться вакансии с названием DataOps-инженер, поэтому стоит разобраться в этой теме и понимать о чем идет речь 😉
👍18🔥5🤯1
Познавательная статья про найм IT-специалистов

Для себя вывел такой момент, что на LinkedIn профиль тоже смотрят (надо заполнять 😃).

А джуны, согласно исследованию, могут найти работу быстрее мидлов и синьоров. На это есть много причин, говоря даже по опыту:
- большая вилка ЗП, которую компании не готовы предложить
- часто под выполнение текущих задач компаниям хочется взять синьора, но после собеседований мидлы под скоп текущих задач тоже подходят (берут их по вилке ниже, а по их ожиданиям получается даже порадовать кандидата)
- иногда синьоры находятся в поиске в shadow mode (не активно проходят собесы, а многие вакансии отбрасывают по другим причинам)

Может быть интересно провести онлайн встречу с HR специалистами и пообщаться с ними на тему найма 🤔

Ставьте в реакции 🔥 если такая онлайн встреча вам будет интересна
🔥73
Привет!

Недавно на одном собеседовании задали вопрос «Как найти долгие запросы в базе данных Postgres?»

Я раньше не сталкивался с таким на практике с Postgres и ответил что-то типа «посмотреть логи базы данных или журнал запросов».

После собеседования решил посмотреть материалы по этой теме. Нашёл материал про расширение pg_stat_statements

Материалы ниже ⬇️

Простое обнаружение проблем производительности в PostgreSQL

Ways to detect slow queries
👍16🔥3
Колоночные Базы Данных

Наверняка вы знакомы с реляционными базами данных и такими СУБД как Postgres, MySQL, MS SQL Server. Эти базы данных отлично решают задачи обработки транзакций, являются OLTP-системами и подчиняются принципам ACID.
Однако реляционные БД не всегда могут работать эффективно для аналитических задач и обработки большого количества аналитических запросов на чтение данных, особенно если мы говорим про большие объемы данных.

Для обработки аналитических запросов существуют OLAP-системы (Online Analytical Processing), к которым также относятся колоночные базы данных.

📍Различия между колоночными и строковыми базами данных

Сходство:
данные структурированы и хранятся в виде таблиц с атрибутами (столбцами) и записями (строками), это удобно для восприятия пользователя, которые работает как с обычными таблицами.

Различия:
- Хранение данных. в строковых БД на физических дисках хранятся значения строк рядом друг с другом, в колоночных БД данные записываются в память диска по столбцам
- Опираясь на предыдущее различие, чтение данных в колоночных БД происходит также по столбцам, что в десятки раз ускоряет чтение данных и выполнение запросов к БД.

Пример:
У нас есть таблица из 50 столбцов и 1 млн. записей. При выполнении запроса по 4 столбцам из таблицы в строковой БД запрос будет идти по всем 50 столбцам и по каждой записи внутри таблицы, т.е. перебором всего 1 млн. записей.
В колоночной БД запрос выберет нужные 4 столбца, пробежит по ним и выдаст только те записи в итоге, которые соответствуют запросу.

Преимущества строчных БД (Реляционные БД):
- быстрое выполнение операций записи и обновления данных (INSERT, UPDATE)
- транзакционная целостность и выполнение ACID
- работа с данными на языке SQL

Преимущества колоночных БД (Один из видов Нереляционных БД):
- быстрое выполнение запросов на чтение данных
- более простая масштабируемость БД
- низкие требования к консистентности данных
- распределенные вычисления и распараллеливание запросов (MPP)
- шардирование данных (хранение по частям на разных хостах)

Примеры решений колоночных БД: Clickhouse, Vertica, Apache Cassandra

Полезные ссылки:
🔗Статья про колоночные и строчные СУБД
🔗
Статья про Clickhouse
🔗Статья про Vertica
🔗Clickhouse Documentation
🔗Apache Cassandra Documentation
👍11🔥5
Визуальный пример для поста выше про колоночные БД ⬆️
👍13
Нашёл вот такую визуальную карту Chart Suggestions для выбора более оптимального и эффективного визуального элемента в зависимости от данных и решаемой потребности визуализации

Забирайте себе, может кому-то пригодится на практике 😉
👍32🔥14
Интересная статья про параметрический поиск. Стоит ли применять ML-модели для поиска, когда пользователь сам может поставить фильтр на вывод результатов, которые он хочет получить?

Всегда хотелось поработать на проекте, где решаются задачи поиска пользователями. Может быть в будущем появится опыт работы на таком проекте, а пока читаю статью ⤵️

"Персональное ранжирование на Авто.ру: как не потерять главный смысл поиска по параметрам"

Читать статью
👍5
Всем привет!

Канал потихоньку растёт и я хочу сказать вам огромное спасибо за ваш интерес и обратную связь 🔥🔥🔥

Разбавлю сегодняшний день небольшим интерактивом. А именно опросом, который поможет мне более эффективно писать и выкладывать посты в будущем для вашей пользы.

Предлагаю пройти опрос на уровень знаний в IT области в целом (оценивайте себя по своей области работы/учебы). Другими словами, выберите свой текущий грейд ⤵️

Это поможет мне понять, какого уровня сложности публиковать посты и на какие темы это лучше всего делать.
👍8🔥1
Всем привет!

Как видно из результатов опроса, большая часть подписчиков у нас начинающие специалисты. Поэтому у нас будет много образовательного материала, подборки полезных ресурсов для обучения, а также онлайн-встречи для разбора различных тем.

Нашёл вот эту замечательную статью с подборкой большого количества ресурсов для обучения аналитике. Главное, что ресурсы бесплатные и каждый может пройти необходимые для себя курсы.

Обязательно сохраняйте ссылку себе, уверен вы к ней будете возвращаться 😉
Ставьте реакции, если такие подборки материалов для вас полезны

Читать статью
👍32🔥233
Привет!

Как многие из вас уже знают, что я работают Senior BI аналитиком (нет, нет, я не разрабатываю каждый день дашборды, а занимаюсь бизнес и data анализом).

Помимо работы на текущий и следующий год я для себя наметил несколько направлений развития. Сейчас расскажу про них поподробнее, ведь возможно мы с вами в будущем будем сотрудничать 😉

📍Создание курсов и развитие проекта Data Study

У меня есть возможность и желание создавать доступное и эффективное обучение аналитике. На данный момент я самостоятельно работаю над 3-мя курсами, на 2-х уже обучаются ученики, а 1 еще на стадии разработки:

1️⃣ Основы анализа данных (в октябре будет старт уже 5-го потока)
2️⃣ Бизнес-анализ в IT (обучение идет прямо сейчас)
3️⃣ Аналитика данных 2.0 (курс для уже действующих аналитиков) Готовлю материалы для уроков и практики

Каждый курс постоянно улучшается и дорабатывается + добавятся возможности удобной и комфортной оплаты (в том числе рассрочка).

📍Менторство

Это еще одно направление обучения 1-to-1. Здесь важна индивидуальность работы с каждым учеником. Ментор (или наставник) помогает быстрее вырасти в профессии или необходимых компетенциях. Менторству кстати тоже необходимо обучаться (как правильно оценивать текущий уровень, как мотивировать, как давать обратную связь), это не просто набрать учеников и рассказывать им все что ты знаешь.
В этом плане есть тоже существенные успехи. Например, я стал ментором на платформе Solvery, в их инстаграм кстати идет "неделя ментора" про меня, когда я общаюсь с подписчиками и отвечаю на их вопросы. Также некоторых ребят я веду самостоятельно в рамках консультаций.

📍Выступления на конференциях в качестве спикера

Мне привычна тема докладов еще с научных и студенческих конференций, но вот на профессиональных IT конференциях я пока не выступал.
Уже сделал первые шаги в этом направлении в организации своих вебинаров и воркшопов на разные темы, где в онлайне подключалось по 40 человек и это очень круто 🔥🔥🔥.
Для выступления на больших организованных конференциях я подал свою тему доклада. Сейчас останется пройти все круги ада подготовки, вычитки, рецензии, подтверждения, и начало пути спикера будет положено.


Эх, еще вот начну ходить в бассейн регулярно, а не раз в месяц, и вообще жизнь замечательна 😄😅

P.S. если здесь сидят HR, которые готовы пообщаться и сделать совместный вебинар про критерии отбора аналитиков на вакансии, маленькие хитрости и лайфхаки - пишите мне в личку @daniildzheparov
🔥21👍14
Jules S. Damji, Brooke Wenig, Tathagata Das & Denny Lee / Learning Spark

"This book offers a structured approach to learning Apache Spark,
covering new developments in the project. It is a great way for Spark developers
to get started with big data."
"For data scientists and data engineers looking to learn Apache Spark and how to build
scalable and reliable big data applications, this book is an essential guide!"

Скачать книгу
🔥10👍2
Часто сталкиваюсь с вопросами "Чем занимается дата-аналитик" "Какие задачи обычно решают аналитики данных", "Какие знания нужны аналитикам"

Каждый вопрос действительно важен, чтобы понимать область задач и необходимые компетенции для аналитика.

Однако всегда приходится уточнять, что необходимые компетенции также сильно зависят от:
1️⃣ компании
2️⃣ конкретного проекта

Каждая компания по своему определяет роль каждого специалиста на проектах, а также определяет необходимую матрицу компетенций.

Вот статья Кто такой дата-аналитик в X5 Tech на Хабре демонстрирует это на реальном примере компании

📍Понравился вот этот тезис из статьи:
"Таким образом, деятельность аналитиков в X5 может быть достаточно обширна. Это подводит дата-аналитика к возможности как углубляться в экспертизу в направлении DATA/ML-инженерии, так и развиваться в сторону бизнес-экспертизы и менеджмента."


Читать статью
👍121