Аналитика данных / Data Study
8.44K subscribers
404 photos
38 videos
24 files
328 links
Сайт: https://datastudy.ru/
По всем вопросам: @daniildzheparov

Про аналитику и инженерию данных

Вакансии: https://t.iss.one/data_vacancy
Книги: https://t.iss.one/analyst_books
Download Telegram
Познавательная статья про найм IT-специалистов

Для себя вывел такой момент, что на LinkedIn профиль тоже смотрят (надо заполнять 😃).

А джуны, согласно исследованию, могут найти работу быстрее мидлов и синьоров. На это есть много причин, говоря даже по опыту:
- большая вилка ЗП, которую компании не готовы предложить
- часто под выполнение текущих задач компаниям хочется взять синьора, но после собеседований мидлы под скоп текущих задач тоже подходят (берут их по вилке ниже, а по их ожиданиям получается даже порадовать кандидата)
- иногда синьоры находятся в поиске в shadow mode (не активно проходят собесы, а многие вакансии отбрасывают по другим причинам)

Может быть интересно провести онлайн встречу с HR специалистами и пообщаться с ними на тему найма 🤔

Ставьте в реакции 🔥 если такая онлайн встреча вам будет интересна
🔥73
Привет!

Недавно на одном собеседовании задали вопрос «Как найти долгие запросы в базе данных Postgres?»

Я раньше не сталкивался с таким на практике с Postgres и ответил что-то типа «посмотреть логи базы данных или журнал запросов».

После собеседования решил посмотреть материалы по этой теме. Нашёл материал про расширение pg_stat_statements

Материалы ниже ⬇️

Простое обнаружение проблем производительности в PostgreSQL

Ways to detect slow queries
👍16🔥3
Колоночные Базы Данных

Наверняка вы знакомы с реляционными базами данных и такими СУБД как Postgres, MySQL, MS SQL Server. Эти базы данных отлично решают задачи обработки транзакций, являются OLTP-системами и подчиняются принципам ACID.
Однако реляционные БД не всегда могут работать эффективно для аналитических задач и обработки большого количества аналитических запросов на чтение данных, особенно если мы говорим про большие объемы данных.

Для обработки аналитических запросов существуют OLAP-системы (Online Analytical Processing), к которым также относятся колоночные базы данных.

📍Различия между колоночными и строковыми базами данных

Сходство:
данные структурированы и хранятся в виде таблиц с атрибутами (столбцами) и записями (строками), это удобно для восприятия пользователя, которые работает как с обычными таблицами.

Различия:
- Хранение данных. в строковых БД на физических дисках хранятся значения строк рядом друг с другом, в колоночных БД данные записываются в память диска по столбцам
- Опираясь на предыдущее различие, чтение данных в колоночных БД происходит также по столбцам, что в десятки раз ускоряет чтение данных и выполнение запросов к БД.

Пример:
У нас есть таблица из 50 столбцов и 1 млн. записей. При выполнении запроса по 4 столбцам из таблицы в строковой БД запрос будет идти по всем 50 столбцам и по каждой записи внутри таблицы, т.е. перебором всего 1 млн. записей.
В колоночной БД запрос выберет нужные 4 столбца, пробежит по ним и выдаст только те записи в итоге, которые соответствуют запросу.

Преимущества строчных БД (Реляционные БД):
- быстрое выполнение операций записи и обновления данных (INSERT, UPDATE)
- транзакционная целостность и выполнение ACID
- работа с данными на языке SQL

Преимущества колоночных БД (Один из видов Нереляционных БД):
- быстрое выполнение запросов на чтение данных
- более простая масштабируемость БД
- низкие требования к консистентности данных
- распределенные вычисления и распараллеливание запросов (MPP)
- шардирование данных (хранение по частям на разных хостах)

Примеры решений колоночных БД: Clickhouse, Vertica, Apache Cassandra

Полезные ссылки:
🔗Статья про колоночные и строчные СУБД
🔗
Статья про Clickhouse
🔗Статья про Vertica
🔗Clickhouse Documentation
🔗Apache Cassandra Documentation
👍11🔥5
Визуальный пример для поста выше про колоночные БД ⬆️
👍13
Нашёл вот такую визуальную карту Chart Suggestions для выбора более оптимального и эффективного визуального элемента в зависимости от данных и решаемой потребности визуализации

Забирайте себе, может кому-то пригодится на практике 😉
👍32🔥14
Интересная статья про параметрический поиск. Стоит ли применять ML-модели для поиска, когда пользователь сам может поставить фильтр на вывод результатов, которые он хочет получить?

Всегда хотелось поработать на проекте, где решаются задачи поиска пользователями. Может быть в будущем появится опыт работы на таком проекте, а пока читаю статью ⤵️

"Персональное ранжирование на Авто.ру: как не потерять главный смысл поиска по параметрам"

Читать статью
👍5
Всем привет!

Канал потихоньку растёт и я хочу сказать вам огромное спасибо за ваш интерес и обратную связь 🔥🔥🔥

Разбавлю сегодняшний день небольшим интерактивом. А именно опросом, который поможет мне более эффективно писать и выкладывать посты в будущем для вашей пользы.

Предлагаю пройти опрос на уровень знаний в IT области в целом (оценивайте себя по своей области работы/учебы). Другими словами, выберите свой текущий грейд ⤵️

Это поможет мне понять, какого уровня сложности публиковать посты и на какие темы это лучше всего делать.
👍8🔥1
Всем привет!

Как видно из результатов опроса, большая часть подписчиков у нас начинающие специалисты. Поэтому у нас будет много образовательного материала, подборки полезных ресурсов для обучения, а также онлайн-встречи для разбора различных тем.

Нашёл вот эту замечательную статью с подборкой большого количества ресурсов для обучения аналитике. Главное, что ресурсы бесплатные и каждый может пройти необходимые для себя курсы.

Обязательно сохраняйте ссылку себе, уверен вы к ней будете возвращаться 😉
Ставьте реакции, если такие подборки материалов для вас полезны

Читать статью
👍32🔥233
Привет!

Как многие из вас уже знают, что я работают Senior BI аналитиком (нет, нет, я не разрабатываю каждый день дашборды, а занимаюсь бизнес и data анализом).

Помимо работы на текущий и следующий год я для себя наметил несколько направлений развития. Сейчас расскажу про них поподробнее, ведь возможно мы с вами в будущем будем сотрудничать 😉

📍Создание курсов и развитие проекта Data Study

У меня есть возможность и желание создавать доступное и эффективное обучение аналитике. На данный момент я самостоятельно работаю над 3-мя курсами, на 2-х уже обучаются ученики, а 1 еще на стадии разработки:

1️⃣ Основы анализа данных (в октябре будет старт уже 5-го потока)
2️⃣ Бизнес-анализ в IT (обучение идет прямо сейчас)
3️⃣ Аналитика данных 2.0 (курс для уже действующих аналитиков) Готовлю материалы для уроков и практики

Каждый курс постоянно улучшается и дорабатывается + добавятся возможности удобной и комфортной оплаты (в том числе рассрочка).

📍Менторство

Это еще одно направление обучения 1-to-1. Здесь важна индивидуальность работы с каждым учеником. Ментор (или наставник) помогает быстрее вырасти в профессии или необходимых компетенциях. Менторству кстати тоже необходимо обучаться (как правильно оценивать текущий уровень, как мотивировать, как давать обратную связь), это не просто набрать учеников и рассказывать им все что ты знаешь.
В этом плане есть тоже существенные успехи. Например, я стал ментором на платформе Solvery, в их инстаграм кстати идет "неделя ментора" про меня, когда я общаюсь с подписчиками и отвечаю на их вопросы. Также некоторых ребят я веду самостоятельно в рамках консультаций.

📍Выступления на конференциях в качестве спикера

Мне привычна тема докладов еще с научных и студенческих конференций, но вот на профессиональных IT конференциях я пока не выступал.
Уже сделал первые шаги в этом направлении в организации своих вебинаров и воркшопов на разные темы, где в онлайне подключалось по 40 человек и это очень круто 🔥🔥🔥.
Для выступления на больших организованных конференциях я подал свою тему доклада. Сейчас останется пройти все круги ада подготовки, вычитки, рецензии, подтверждения, и начало пути спикера будет положено.


Эх, еще вот начну ходить в бассейн регулярно, а не раз в месяц, и вообще жизнь замечательна 😄😅

P.S. если здесь сидят HR, которые готовы пообщаться и сделать совместный вебинар про критерии отбора аналитиков на вакансии, маленькие хитрости и лайфхаки - пишите мне в личку @daniildzheparov
🔥21👍14
Jules S. Damji, Brooke Wenig, Tathagata Das & Denny Lee / Learning Spark

"This book offers a structured approach to learning Apache Spark,
covering new developments in the project. It is a great way for Spark developers
to get started with big data."
"For data scientists and data engineers looking to learn Apache Spark and how to build
scalable and reliable big data applications, this book is an essential guide!"

Скачать книгу
🔥10👍2
Часто сталкиваюсь с вопросами "Чем занимается дата-аналитик" "Какие задачи обычно решают аналитики данных", "Какие знания нужны аналитикам"

Каждый вопрос действительно важен, чтобы понимать область задач и необходимые компетенции для аналитика.

Однако всегда приходится уточнять, что необходимые компетенции также сильно зависят от:
1️⃣ компании
2️⃣ конкретного проекта

Каждая компания по своему определяет роль каждого специалиста на проектах, а также определяет необходимую матрицу компетенций.

Вот статья Кто такой дата-аналитик в X5 Tech на Хабре демонстрирует это на реальном примере компании

📍Понравился вот этот тезис из статьи:
"Таким образом, деятельность аналитиков в X5 может быть достаточно обширна. Это подводит дата-аналитика к возможности как углубляться в экспертизу в направлении DATA/ML-инженерии, так и развиваться в сторону бизнес-экспертизы и менеджмента."


Читать статью
👍121
Привет!

Уже слышали про миссию NASA и их успешный эксперимент DART?
Цель эксперимента заключалась в том, чтобы изменить траекторию астероида с помощью прицельного столкновения с искусственным спутником. Это позволяет собрать данные об изменении траектории астероидов и возможности защиты Земли от возможных реальных угроз падения астероидов. Подробнее про сам эксперимент можно почитать здесь

➡️ Прочитав эту новость вспомнил, что когда-то пользовался открытым API на портале NASA, которое позволяет получить открытые данные для изучения.

🔎API (Application Programming Interface) - программные способы взаимодействия с системой со средствами HTTP запросов. Таким способом различные программы могут быть удобным образом интегрированы друг с другом для получения, сбора, либо обмена данными.

Аналитики в своей работе часто встречаются с API, поэтому необходимо знать инструменты для работы.
Сегодня разберем пример сбора данных с открытого API на портале NASA.
Что будем применять:
📍Postman (программа для тестирования и проектирования API запросов)
📍Библиотека requests в Python

Как работает API-запрос:
1. отправляем наш запрос по необходимому адресу (URL) с необходимыми параметрами (query parameters)
2. получаем ответ в определенном формате данных

Кстати, наши поисковые запросы в браузере работают по точно такому же принципу: отправляем запрос по нужной ссылке -> получаем ответ

Если хотите повторить прописанные запросы, ниже описаны шаги действий:
1. Заходим на сайт, заполняем данные в форме и генерируем API key (без него запросы проходить не будут). Сохраняем сгенерированный ключ, он нам пригодится в запросах
2. Переходим в описание методов API (Browse APIs)
3. Ищем любой интересный нам метод и смотрим пример запроса
4. Скачиваем Postman
5. Открываем Postman, создаем вкладку нового запроса. Выбираем метод GET, в строчку запроса копируем пример запроса из пункта 3. Вставляем в запрос свой сгенерированный api_key из пункта 1
6. Нажимаем Send и смотрим ответ на запрос ниже в виде json-файла

Если хотим преобразовать json-файл в таблицу, то можно открыть python и написать небольшой скрипт с помощью библиотек requests, json, pandas. Дальше с полученным датафреймом можно проводить необходимы анализ данных 😉
👍19
Примеры запросов в Postman и c помощью Python к посту выше ⬆️
👍13
Самые часто встречающиеся функции в Postgres при работе с датами и временем на SQL

Кстати, на следующей неделе собираюсь выложить на Habr вторую часть статьи про оконные функции.

Кто еще не читал первую часть и не знаком с оконными функциями SQL, можно прочитать первую часть статьи
👍18🔥41
Инженер данных

Я часто говорю про различные профессии из области Data, но ни разу еще не рассказывал подробно про профессию инженера данных.
Давайте разберемся, кто такие инженеры данных, какие задачи они выполняют и что нужно изучать, чтобы стать инженером данных.

🔎 Инженер данных (Data Engineer) – специалист по работе с данными, который имеет сильные навыки и компетенции в области разработки и построения хранилищ данных, построения потоков данных, поддержки этих решений с точки зрения программного кода и технических настроек систем.

Инженеры данных имеют пересечения в областях работы с данными (практики хранения, передачи, обработки, моделирования, преобразования) и области разработки (написание программного кода, создание настроек и конфигураций систем).

Такие специалисты умеют настраивать системы и техническое решения, поддерживать их в работоспособном состоянии с выполнением всех функций.

Не забывайте ставить реакции, если пост для вас был интересен 👍
👍33🔥3
Старт набора на курс "Основы анализа данных"

С радостью сообщаю, что открывается 5 набор на курс "Основы анализа данных" для обучения аналитике данных с нуля 🥳

Старт обучения: 15 октября

Кто следит за моим каналом знает, что я создал проект Data Study, в рамках которого создаю свои собственные курсы и обучаю людей аналитике данных и бизнес-аналитике.

- обучение проходит полностью с нуля (студенты приходят с разным опытом работы и образования, в том числе гуманитарного)
- занятия веду я, общаюсь с учениками, проверяю практику и провожу итоговое интервью
- занятия в формате онлайн-встреч
- записи занятий, конспекты презентаций и практических примеров остаются у вас навсегда
- занимаемся 2 раза в неделю (вторник 19:00 и суббота 10:00)
- 14 уроков (8 теории и 6 практики) + домашние задания и итоговый проект. итого 2 месяца плотного обучения
- цена 25000. оплата возможна как полностью, так и в рассрочку на 4 месяца

Подробную информацию о курсе можно найти на сайте ⤵️
🔥8👍1