Аналитика данных / Data Study
8.4K subscribers
405 photos
38 videos
24 files
326 links
Сайт: https://datastudy.ru/
По всем вопросам: @daniildzheparov

Про аналитику и инженерию данных

Вакансии: https://t.iss.one/data_vacancy
Книги: https://t.iss.one/analyst_books
Download Telegram
Наткнулся на один интересный материал про новую версию pandas и возможность ускорения чтения csv файлов. Вот этого как раз последнюю неделю очень не хватает, много задач появилась с применением pandas)
На 1-й скрине запускается обычное чтение, на 2-м чтение с применение engine 'pyarrow'. Там же можно увидеть сравнение в скорости чтения файлов.
Завтра буду тестить в своих задачках 😉
👍12
Для тех кто владеет английским языком, есть прекрасная возможность прослушать лекции по курсу Data Science for Business от Университета НИУ "Высшая Школа Экономики". Лекции доступны на Youtube в открытом доступе.

P.S. Буду проходить этот курс в рамках обучения в магистратуре, стартует со следующего месяца. У вас есть возможность прослушать качественный материал без поступления в универ)

https://youtube.com/playlist?list=PLriUvS7IljvlcLnrvYUyNc9nXhiM9kWjq
👍21🔥7
Всем привет!
Наткнулся на статью, в которой, на мой взгляд, очень точно определён набор навыков для работы аналитиком данных в IT:

1. Работать в Excel-таблицах, группировать, фильтровать данные — на ходу, без перекладывания из таблички в табличку.

2. Уметь писать SQL-запросы.

3. Изучить минимум один язык программирования: Python или R.

4. Делать выводы и представлять результаты в виде интерактивных дашбордов (Tableau, Power BI).

5. Разбираться в бизнес-процессах и понимать ключевые метрики анализа эффективности.

Эта работа связана с такими активностями как

📍Сбор и анализ требований заказчиков к отчетности.

📍Получение данных с помощью языка запросов SQL.

📍Применение в работе ключевых математических методов и основ статистики.

📍Очистка и трансформация данных с помощью Python.

📍Прогнозирование событий на основе данных.

📍Анализ результатов кампаний, исследований и тестирования продуктовых гипотез.

📍Способность создавать аналитические решения и представлять их бизнесу.

Хочу добавить, что помимо перечисленных навыков стоит прокачивать свои навыки в управлении и создании требований: бизнес-требования, функциональные требования, user-story

Всеми из перечисленных навыков владеете?
👍322
​​PostgreSQL. Основы языка SQL: учеб. пособие / Е. П. Моргунов; под ред. Е. В. Рогова, П. В. Лузанова
#литература

В пособии рассматриваются следующие темы:

° Введение в базы данных и SQL
° Создание рабочей среды
° Основные операции с таблицами
° Типы данных СУБД PostgreSQL
° Основы языка определения данных
° Запросы
° Изменение данных
° Индексы
° Транзакции
° Повышение производительности

Скачать книгу можно тут
👍23
Гайд_по_профессии_аналитика_данных.pdf
27.7 MB
Привет!

Как вы помните, я работаю Senior BI Analyst и знакомлю всех заинтересованных с профессией аналитика, в частности с аналитикой данных и бизнес-аналитикой. Делюсь с подписчиками лучшими практиками работы с данными, полезными ссылками и рассказываю как начать осваивать профессию.

📍Сегодня решил раскрыть чуть больше тему Business Intelligence (BI), как это связано с аналитикой и работой с данными. Смотри обновленный гайд по профессии аналитика:

1. Профессия аналитика данных
2. Задачи аналитика данных
3. Необходимые навыки
4. Business Intelligence и виды аналитики 🔥
5. Уровни аналитиков и компетенции
6. Как составить свое первое резюме
7. Как подготовиться к резюме
8. Вакансии аналитика данных (примеры)
9. Ссылки на полезные ресурсы
👍5018🔥9👎2
Ситуация прям очень хорошо описывает необходимость создания документации сделанной работы.

НЕ ВСЕГДА достаточно оставлять комментарии в коде или SQL-запросах при работе с данными. Важно помечать преобразования, условия фильтрации и взаимосвязей (джойнов) данных в понятном и структурированном формате, чтобы даже через месяц можно было посмотреть на доку и вспомнить что было сделано 😁.

На выходных поделюсь разными подходами создания документации в процессе работы 📝
👍28
Всем привет!

Решил поделиться своим подходом к оформлению документации при анализе и профайлинге данных из нового источника.

Первым делом хочу отметить несколько правил, которых я придерживаюсь:

1. Пиши так, чтобы документация была понятна даже человеку из другой команды. Важно помнить, что в дальнейшем вашей докой будут пользоваться также и другие люди

2. Документируй каждый день свои новые находки, иначе завтра можешь уже не вспомнить ключевые моменты

3. Оценивай трудозатраты задач с учетом создания документации. Это помогает трезво оценить скоп работы и заложить время на фиксирование анализа

Я люблю все документировать в Confluence - это продукт Atlassian, который работает как некая база знаний во многих компаниях для организации документации. Не очень удобно распихивать отдельные части анализа в разные места: excel-файлы, cloud диски как google drive или box. Все стараюсь зафиксировать на одной странице или разделе страниц

📍Важная и полезная фишка: можно создавать под себя и команду шаблоны страниц, чтобы не тратить время на постоянную структуризацию

Как выглядит моя структура страницы:

Название страницы (куда де без него 😅). Пишу обычно по теме анализа

Ссылка на Jira-тикет
- Очень помогает связывать тикеты и страницы документации для быстрого доступа к нужным страницам сразу из таск-трекера
- Помогает задокументировать каждую открытую задачу и ни про что не забыть

Описание источника данных
- Название БД, схемы, таблицы
- Кто бизнес-владелец источника (имя, контакт)
- Контакты технической команды поддержки
- Ссылка на документацию источника
- Как получить доступ (необходимы роли и действия
- Расписание обновления данных в источнике

AS-IS схема данных (если есть)
- ER-диаграмма
- Data Dictionary (словарь всех атрибутов с бизнес-описанием)

TO-BE схема данных
- ER-диаграмма
- Data Dictionary
- Source to Target mapping (таблица сопоставления атрибутов между источниками AS-IS и TO-BE) - если нужен

Data Profiling
- Таблица с результатами исследования данных (что такое data profiling писал в предыдущих постах ⬆️)
- SQL-скрипт для профайлинга (прикрепляется макросом в Confluence очень удобно)

Открытые вопросы и видимые риски
- Список вопросов, которые нужно уточнить у технической команды или со стороны бизнеса
- Все возможные риски по качеству данных, внедрению нового источника, получения доступов и т.п (если есть)

Полезные ссылки
- Все ссылки или материалы, которые были найдены или использованы во время анализа


Примерно так выглядит каждая страница в Confluence, которая создается мной после анализа и проверки источника данных.
👍37🔥115
Привет!

Хочу поделиться новостью, что вчера стартовала запись на курс "Основы анализа данных", который стартует 23 апреля.

Уроки курса:

1. Теория Баз Данных. Типы данных и работа с базами данных
2. Модели данных. Типы моделей данных + практика
3. Хран
илище данных (DWH). Что такое OLTP. Озеро данных (Data Lake)
4. Основы SQL. SELECT запросы + практика
5. Pyth
on. Основы библиотеки pandas + практика
6. Метр
ики качества данных
7. Принципы визуализации данных + практика
8. Тест
овое интервью (индивидуальное)

Главная ценность обучения: Получение структурированных знаний и практических навыков для старта работы в роли аналитика данных

Заявку на предзапись можно сделать на сайте https://datastudy.ru/ или личным сообщением @daniildzheparov (отвечу на все открытые вопросы)
👍11
Привет!

Сегодня наконец-то сделал для себя простую CRM-систему 😁

Логика очень простая:

1. вы заполняете заявку через google-форму на вводную консультацию/консультацию/курс по DA/курс по BA
2. запись поступает в привязанную к форме google-таблицу
3. при попадании записи в таблицу с помощью скрипта в Apps Script формируется и отправляется сообщение в телеграм-канал с ботом

С точки зрения технической реализации это очень простой пример так называемого data flow (потока данных), начиная от пользовательского интерфейса (сайта с кнопкой на google-форму), некой "базы данных" в виде google-таблицы, ну и ETL-процесса, который построен на инструментах Google и бота Telegram.

- ввод данных
- хранение данных
- обработка данных
- вывод результата

Всю основу кода брал отсюда https://pastebin.com/X0V2yGHQ
Видео с пояснениями здесь https://youtu.be/MR10T4WPBmc

P.S. Сейчас такое решение позволит не мониторить постоянно таблицы с записями, а получать автоматические уведомления в телеграм-чате
👍19
Привет!

В своём Instagram блоге мне часто задают вопросы про
- роль аналитика данных на проекте
- понятие data-продукта и как их создают компании

Поэтому я предлагаю обсудить эту интересную тему на онлайн-воркшопе вместе со мной, где я расскажу детально следующие темы:

1. Что такое data-продукт
2. Жизненный цикл проекта и data-продукта
3. Роль аналитика на data-проекте
4. Демонстрация небольшого практического проекта с помощью Python, SQL и Power BI

Участие в воркшопе полностью свободное и бесплатное, приветствуются живые вопросы по теме воркшопа во время встречи 😉

📍Когда - Воскресенье (17 апреля)
📍Время - 12:00 по МСК
📍Где и как подключиться - Яндекс.Телемост (ссылка на событие https://calendar.yandex.ru/event/1697132433?applyToFuture=0&event_date=2022-04-17T09%3A00%3A00&layerId=10423820&show_date=2022-04-17 )

Технические моменты по подключению:

1. Заполните форму записи (это поможет понять количество участников) - https://forms.gle/p34SmaUNB3ayKB9B7

2. Проверьте авторизацию в Яндекс и возможность зайти в Яндекс.Телемост

3. Если хотите подключиться с телефона, скачайте приложение Яндекс.Телемост
👍8
Всем привет!

Спасибо всем, кто подключился на воркшоп 😊

Как и обещал, прикрепляю конспект воркшопа со всей теоретической информацией по data-продуктам и роли аналитика в проекте.

Чуть позже выложу запись самой встречи, посмотрим куда удастся её без проблем выложить 😉

+ файлы книг из полезных ссылок
14🔥4👍3