Аналитика данных / Data Study
8.44K subscribers
404 photos
38 videos
24 files
328 links
Сайт: https://datastudy.ru/
По всем вопросам: @daniildzheparov

Про аналитику и инженерию данных

Вакансии: https://t.iss.one/data_vacancy
Книги: https://t.iss.one/analyst_books
Download Telegram
Привет!

Пока я тут гуляю в Питере и наслаждаюсь прекрасной погодой, хочу все же поделиться полезным материалом.

Есть вот такой глоссарий, который мне раньше очень сильно помогал не запутаться в лексике и разговаривать с коллегами на одном языке. Посмотрите, если на проекте чувтсвуете, что часть терминов вам не знакома.

Глоссарий терминов IIBA на основе профессионального стандарта
👍12
Привет!
Делюсь небольшой, но полезной шпаргалкой по PySpark и Spark SQL. Позже обязательно расскажу подробнее про PySpark и его области применения 😉
👍155🔥1😱1
Привет!

Осваиваю технологию Docker, т.к. до этого с ней руками сам не работал а только от коллег разработчиков и DevOps-инженеров слышал про контейнеры и образы 😃. А тут стало интересно, как можно разворачивать приложения локально без установки кучи сторонних библиотек и отслеживанием зависимостей их версий и совместимости.

В общем, аналитикам может это и не нужно знать на твердом уровне hard навыка, но минимум принцип работы понимать необходимо. А если захочется установить open source инструмент себе локально и поиграться с ним, то Docker в этом может очень сильно помочь. Делюсь ссылочкой на видео, которое я смотрю ⬇️

Видео по Docker
👍20🔥6
Привет!

Давно не выходил на связь, буду исправляться)

Нашел статью с подборкой огромного количества материалов для развития soft-skills. Каждый может найти для себя что-то полезное, я вот выписал себе несколько книг и прочитал уже парочку статей про эмоциональный интеллект и управление ресурсами.

Ресурсы в статье:
📍Деловое общение
📍Клиентоцентричность
📍Когнитивная гибкость
📍Коммуникация
📍Управление командой, проектом, процессом
📍Креативное мышление
📍Критическое мышление
📍Наставничество/менторинг
📍Презентация и ораторское искусство
📍Решение проблем и принятие решений
📍Системное мышление
📍Стресс-менеджмент
📍Управление ресурсами
📍Целеполагание
📍Эмоциональный интеллект

Ссылка на статью
👍23🔥11
Индексы в БД

🔎 Индексы - структура данных в базе, которая позволяет определить положение необходимых данных в базе с более высокой скоростью выполнения запросов к БД.

Пример для понимания: представьте, что вы ходите по торговому центру с целью найти магазин X. Если вы будете обходить весь торговый центр в поисках, пытаясь найти магазин по вывеске, это будет очень долго. Гораздо проще иметь в торговом центре карту или схему расположения магазинов с номерными знаками каждого магазина. Вот эти номерные знаки на карте магазинов возле их названия и будут подобием индексов в базе данных.

Зачем нужны индексы:
- более быстрый поиск необходимых данных внутри таблицы
- фильтрация данных по столбцу с индексом происходит быстрее
- объединение данных из таблиц, если в условиях объединения есть столбцы с индексами
- сортировка выборок данных также может ускориться при помощи сортировки по полю с индексом

Синтаксис создания индекса:
CREATE INDEX index_name ON table_name (column_name)

📍Это один из частых вопросах на собеседованиях, поэтому нужно понимать что такое индексы и как их можно применять

Полезные ссылки для знакомства с индексами:

- Что такое индексы (статья)
- Как создавать индексы в PostgreSQL (статья)
- Индексы (видео)
- Индексы для оптимизации SQL запросов (статья)
👍18🔥10
Привет!

Хотел сделать небольшой проект и посчитать зарплаты в IT на основе открытых вакансий. Можно было собрать описание вакансий с зарплатными вилками, а дальше сделать визуализацию собранных данных по разным категориям (регионы, должности, грейды), а потом поделиться с вами обзором результатов.

Идея хорошая, чтобы понимать текущие зарплатные вилки, но все уже сделали за меня 😁

Хабр Карьера сделали детальный обзор по зарплатам в IT за первое полугодие 2022. Судя по описанию, их исследование ценно тем, что данные собираются не просто из вакансий, а желающие люди на портале анонимно могут указать свою текущую ЗП, которая и будет учитываться в отчете. То, что предлагают в вакансии, и что кандидат может получать в реальности - это иногда совсем разные цифры.

Ставьте реакции, если интересно читать контент про различные обзоры рынка, а я пойду дальше разбираться с Superset и писать требования для нового сайта 😃

Читать зарплатный отчет
👍36🔥9
User Persona и как это помогает в разработке продуктов

Привет! Сегодня решил собрать для вас полезные материалы по написанию user persona, которые могут являться как часть пользовательских требований при разработке решения.

🔎 "User Persona (Персона) - это обобщенное, но реалистичное описание типичного или целевого пользователя продукта, то есть архетип, а не реальный живой человек, но персонажи должны описываться так, как если бы они были настоящими людьми."

Зачем нужно описывать персоны:
- детальное описание потребностей пользователя
- понимание процесса использования продукта пользователем
- возможность смотреть на разработку решения со стороны пользователя

Полезные ресурсы по теме:

📍Статья "Об использовании персон (персонажей) пользователей при разработке продуктов"
📍Статья "Метод персон в UX: зачем нужен, почему работает и как применять"
📍Статья "User Story Mapping: от идеи до релиза"
📍Шаблон User Persona в Miro
📍Шаблона User Persona от меня
👍11
Для тех кто видит перед собой потребность в изучении SQL, книга будет полезным помощником для самостоятельного обучения. Узнаете основные термины, которые используются в реляционных БД, а также научитесь работать с MySQL 😉

А вообще можете посмотреть и другие книги в канале. Туда выкладываю то, что считаю будет полезными ресурсами для погружения в работу с данными в аналитике. Чтобы все было под рукой в одной библиотеке
🔥2
Алан Бьюли / Изучаем SQL

"SQL - язык для формирования, манипулирования и извлечения данных из реляционных БД. Если вы собираетесь работать с реляционными БД - разрабатывать приложения, администрировать, либо делать аналитику на основе данных - вам понадобится знать SQL."

Скачать книгу
👍22🔥3
Привет!

Слышали ли вы про понятие DataOps?
Если нет, то сейчас разберем вместе, что оно обозначает.

🔎 DataOps - это методология и набор практик непрерывной интеграции данных, автоматизации и мониторинга управления данными в течение всего их жизненного цикла.

Какие задачи входят в DataOps?
📍автоматизация процессов загрузки данных в хранилища
📍мониторинг операционных потоков данных
📍оптимизация аналитики данных
📍создание инфраструктуры для корректного хранения, движения и использования данных

Полезные ссылки для погружения в тему:
🔗 DataOps Wikipedia
🔗 Концепция DataOps
🔗 DataOps в Big Data
🔗 What is DataOps

Вполне возможно, что через какое-то время или уже сейчас будут появляться вакансии с названием DataOps-инженер, поэтому стоит разобраться в этой теме и понимать о чем идет речь 😉
👍18🔥5🤯1
Познавательная статья про найм IT-специалистов

Для себя вывел такой момент, что на LinkedIn профиль тоже смотрят (надо заполнять 😃).

А джуны, согласно исследованию, могут найти работу быстрее мидлов и синьоров. На это есть много причин, говоря даже по опыту:
- большая вилка ЗП, которую компании не готовы предложить
- часто под выполнение текущих задач компаниям хочется взять синьора, но после собеседований мидлы под скоп текущих задач тоже подходят (берут их по вилке ниже, а по их ожиданиям получается даже порадовать кандидата)
- иногда синьоры находятся в поиске в shadow mode (не активно проходят собесы, а многие вакансии отбрасывают по другим причинам)

Может быть интересно провести онлайн встречу с HR специалистами и пообщаться с ними на тему найма 🤔

Ставьте в реакции 🔥 если такая онлайн встреча вам будет интересна
🔥73
Привет!

Недавно на одном собеседовании задали вопрос «Как найти долгие запросы в базе данных Postgres?»

Я раньше не сталкивался с таким на практике с Postgres и ответил что-то типа «посмотреть логи базы данных или журнал запросов».

После собеседования решил посмотреть материалы по этой теме. Нашёл материал про расширение pg_stat_statements

Материалы ниже ⬇️

Простое обнаружение проблем производительности в PostgreSQL

Ways to detect slow queries
👍16🔥3
Колоночные Базы Данных

Наверняка вы знакомы с реляционными базами данных и такими СУБД как Postgres, MySQL, MS SQL Server. Эти базы данных отлично решают задачи обработки транзакций, являются OLTP-системами и подчиняются принципам ACID.
Однако реляционные БД не всегда могут работать эффективно для аналитических задач и обработки большого количества аналитических запросов на чтение данных, особенно если мы говорим про большие объемы данных.

Для обработки аналитических запросов существуют OLAP-системы (Online Analytical Processing), к которым также относятся колоночные базы данных.

📍Различия между колоночными и строковыми базами данных

Сходство:
данные структурированы и хранятся в виде таблиц с атрибутами (столбцами) и записями (строками), это удобно для восприятия пользователя, которые работает как с обычными таблицами.

Различия:
- Хранение данных. в строковых БД на физических дисках хранятся значения строк рядом друг с другом, в колоночных БД данные записываются в память диска по столбцам
- Опираясь на предыдущее различие, чтение данных в колоночных БД происходит также по столбцам, что в десятки раз ускоряет чтение данных и выполнение запросов к БД.

Пример:
У нас есть таблица из 50 столбцов и 1 млн. записей. При выполнении запроса по 4 столбцам из таблицы в строковой БД запрос будет идти по всем 50 столбцам и по каждой записи внутри таблицы, т.е. перебором всего 1 млн. записей.
В колоночной БД запрос выберет нужные 4 столбца, пробежит по ним и выдаст только те записи в итоге, которые соответствуют запросу.

Преимущества строчных БД (Реляционные БД):
- быстрое выполнение операций записи и обновления данных (INSERT, UPDATE)
- транзакционная целостность и выполнение ACID
- работа с данными на языке SQL

Преимущества колоночных БД (Один из видов Нереляционных БД):
- быстрое выполнение запросов на чтение данных
- более простая масштабируемость БД
- низкие требования к консистентности данных
- распределенные вычисления и распараллеливание запросов (MPP)
- шардирование данных (хранение по частям на разных хостах)

Примеры решений колоночных БД: Clickhouse, Vertica, Apache Cassandra

Полезные ссылки:
🔗Статья про колоночные и строчные СУБД
🔗
Статья про Clickhouse
🔗Статья про Vertica
🔗Clickhouse Documentation
🔗Apache Cassandra Documentation
👍11🔥5
Визуальный пример для поста выше про колоночные БД ⬆️
👍13
Нашёл вот такую визуальную карту Chart Suggestions для выбора более оптимального и эффективного визуального элемента в зависимости от данных и решаемой потребности визуализации

Забирайте себе, может кому-то пригодится на практике 😉
👍32🔥14
Интересная статья про параметрический поиск. Стоит ли применять ML-модели для поиска, когда пользователь сам может поставить фильтр на вывод результатов, которые он хочет получить?

Всегда хотелось поработать на проекте, где решаются задачи поиска пользователями. Может быть в будущем появится опыт работы на таком проекте, а пока читаю статью ⤵️

"Персональное ранжирование на Авто.ру: как не потерять главный смысл поиска по параметрам"

Читать статью
👍5
Всем привет!

Канал потихоньку растёт и я хочу сказать вам огромное спасибо за ваш интерес и обратную связь 🔥🔥🔥

Разбавлю сегодняшний день небольшим интерактивом. А именно опросом, который поможет мне более эффективно писать и выкладывать посты в будущем для вашей пользы.

Предлагаю пройти опрос на уровень знаний в IT области в целом (оценивайте себя по своей области работы/учебы). Другими словами, выберите свой текущий грейд ⤵️

Это поможет мне понять, какого уровня сложности публиковать посты и на какие темы это лучше всего делать.
👍8🔥1