Аналитика данных / Data Study

Одна из главных задач аналитика - проведения исследования данных или data profiling.
Что это такое и почему это важный шаг каждого data-проекта, расписал в статье

https://zen.yandex.ru/media/id/623c6c3fb20595685d8b345f/profiling-dannyh-chto-eto-i-zachem-on-nujen-62489bbc4b15af5340523d3d

Яндекс Дзен

Profiling данных - что это и зачем он нужен?

Ни один проект связанный с данными не обходится без стадии Data Profiling. Давайте разбираться что это такое. Data Profiling - это процесс исследования данных, понимания структуры, взаимосвязей, контекста и возможного применения этих данных в дальнейшем анализе.…

👍15❤1

6.38K views19:00

Аналитика данных / Data Study

Ситуация прям очень хорошо описывает необходимость создания документации сделанной работы.

НЕ ВСЕГДА достаточно оставлять комментарии в коде или SQL-запросах при работе с данными. Важно помечать преобразования, условия фильтрации и взаимосвязей (джойнов) данных в понятном и структурированном формате, чтобы даже через месяц можно было посмотреть на доку и вспомнить что было сделано 😁.

На выходных поделюсь разными подходами создания документации в процессе работы 📝

👍28

4.52K views13:34

Аналитика данных / Data Study

Всем привет!

Решил поделиться своим подходом к оформлению документации при анализе и профайлинге данных из нового источника.

Первым делом хочу отметить несколько правил, которых я придерживаюсь:

1. Пиши так, чтобы документация была понятна даже человеку из другой команды. Важно помнить, что в дальнейшем вашей докой будут пользоваться также и другие люди

2. Документируй каждый день свои новые находки, иначе завтра можешь уже не вспомнить ключевые моменты

3. Оценивай трудозатраты задач с учетом создания документации. Это помогает трезво оценить скоп работы и заложить время на фиксирование анализа

Я люблю все документировать в Confluence - это продукт Atlassian, который работает как некая база знаний во многих компаниях для организации документации. Не очень удобно распихивать отдельные части анализа в разные места: excel-файлы, cloud диски как google drive или box. Все стараюсь зафиксировать на одной странице или разделе страниц

📍Важная и полезная фишка: можно создавать под себя и команду шаблоны страниц, чтобы не тратить время на постоянную структуризацию

Как выглядит моя структура страницы:

✅ Название страницы (куда де без него 😅). Пишу обычно по теме анализа

✅ Ссылка на Jira-тикет
- Очень помогает связывать тикеты и страницы документации для быстрого доступа к нужным страницам сразу из таск-трекера
- Помогает задокументировать каждую открытую задачу и ни про что не забыть

✅ Описание источника данных
- Название БД, схемы, таблицы
- Кто бизнес-владелец источника (имя, контакт)
- Контакты технической команды поддержки
- Ссылка на документацию источника
- Как получить доступ (необходимы роли и действия
- Расписание обновления данных в источнике

✅ AS-IS схема данных (если есть)
- ER-диаграмма
- Data Dictionary (словарь всех атрибутов с бизнес-описанием)

✅ TO-BE схема данных
- ER-диаграмма
- Data Dictionary
- Source to Target mapping (таблица сопоставления атрибутов между источниками AS-IS и TO-BE) - если нужен

✅ Data Profiling
- Таблица с результатами исследования данных (что такое data profiling писал в предыдущих постах ⬆️)
- SQL-скрипт для профайлинга (прикрепляется макросом в Confluence очень удобно)

✅ Открытые вопросы и видимые риски
- Список вопросов, которые нужно уточнить у технической команды или со стороны бизнеса
- Все возможные риски по качеству данных, внедрению нового источника, получения доступов и т.п (если есть)

✅ Полезные ссылки
- Все ссылки или материалы, которые были найдены или использованы во время анализа

Примерно так выглядит каждая страница в Confluence, которая создается мной после анализа и проверки источника данных.

👍37🔥11❤5

4.24K views10:03

Аналитика данных / Data Study

Привет!

Хочу поделиться новостью, что вчера стартовала запись на курс "Основы анализа данных", который стартует 23 апреля.

Уроки курса:

1. Теория Баз Данных. Типы данных и работа с базами данных
2. Модели данных. Типы моделей данных + практика
3. Хранилище данных (DWH). Что такое OLTP. Озеро данных (Data Lake)
4. Основы SQL. SELECT запросы + практика
5. Python. Основы библиотеки pandas + практика
6. Метрики качества данных
7. Принципы визуализации данных + практика
8. Тестовое интервью (индивидуальное)

Главная ценность обучения: Получение структурированных знаний и практических навыков для старта работы в роли аналитика данных

Заявку на предзапись можно сделать на сайте https://datastudy.ru/ или личным сообщением @daniildzheparov (отвечу на все открытые вопросы)

datastudy.ru

Data Study

Образовательный проект по развитию аналитических навыков и компетенций в сфере IT

👍11

2.84K viewsedited 12:40

Аналитика данных / Data Study

Привет!

Сегодня наконец-то сделал для себя простую CRM-систему 😁

Логика очень простая:

1. вы заполняете заявку через google-форму на вводную консультацию/консультацию/курс по DA/курс по BA
2. запись поступает в привязанную к форме google-таблицу
3. при попадании записи в таблицу с помощью скрипта в Apps Script формируется и отправляется сообщение в телеграм-канал с ботом

С точки зрения технической реализации это очень простой пример так называемого data flow (потока данных), начиная от пользовательского интерфейса (сайта с кнопкой на google-форму), некой "базы данных" в виде google-таблицы, ну и ETL-процесса, который построен на инструментах Google и бота Telegram.

- ввод данных
- хранение данных
- обработка данных
- вывод результата

Всю основу кода брал отсюда https://pastebin.com/X0V2yGHQ
Видео с пояснениями здесь https://youtu.be/MR10T4WPBmc

P.S. Сейчас такое решение позволит не мониторить постоянно таблицы с записями, а получать автоматические уведомления в телеграм-чате

👍19

2.72K views17:14

Аналитика данных / Data Study

Аналитика данных / Data Study pinned a file

08:50

Аналитика данных / Data Study

Привет!

В своём Instagram блоге мне часто задают вопросы про
- роль аналитика данных на проекте
- понятие data-продукта и как их создают компании

Поэтому я предлагаю обсудить эту интересную тему на онлайн-воркшопе вместе со мной, где я расскажу детально следующие темы:

1. Что такое data-продукт
2. Жизненный цикл проекта и data-продукта
3. Роль аналитика на data-проекте
4. Демонстрация небольшого практического проекта с помощью Python, SQL и Power BI

Участие в воркшопе полностью свободное и бесплатное, приветствуются живые вопросы по теме воркшопа во время встречи 😉

📍Когда - Воскресенье (17 апреля)
📍Время - 12:00 по МСК
📍Где и как подключиться - Яндекс.Телемост (ссылка на событие https://calendar.yandex.ru/event/1697132433?applyToFuture=0&event_date=2022-04-17T09%3A00%3A00&layerId=10423820&show_date=2022-04-17 )

Технические моменты по подключению:

1. Заполните форму записи (это поможет понять количество участников) - https://forms.gle/p34SmaUNB3ayKB9B7

2. Проверьте авторизацию в Яндекс и возможность зайти в Яндекс.Телемост

3. Если хотите подключиться с телефона, скачайте приложение Яндекс.Телемост

Google Docs

Воркшоп по теме data-продукты

Привет! Это форма записи на онлайн-воркшоп. Заполни ее, пожалуйста, если планируешь присоединиться послушать. Приветствуется задавать все интересующие тебя вопросы по теме воркшопа во время встречи. По любым вопросам можно писать в Instagram @daniil.dzheparov…

👍8

6.9K views13:34

Аналитика данных / Data Study

Привет!

Напоминаю, что сегодня пройдет воркшоп на тему data-продуктов и роли аналитика в их создании.

Время: 12:00 по МСК

Ссылка для подключения: https://telemost.yandex.ru/j/96314518392068

telemost.yandex.ru

Яндекс Телемост

Видеовстречи по ссылке. Собирайте в Телемосте рабочие конференции или встречайтесь с друзьями. Встречи не ограничены по времени. Можно скачать Телемост для Windows или macOS.

👍6

2.95K views07:36

Аналитика данных / Data Study

Всем привет!

Спасибо всем, кто подключился на воркшоп 😊

Как и обещал, прикрепляю конспект воркшопа со всей теоретической информацией по data-продуктам и роли аналитика в проекте.

Чуть позже выложу запись самой встречи, посмотрим куда удастся её без проблем выложить 😉

+ файлы книг из полезных ссылок

❤14🔥4👍3

2.45K views10:31

Аналитика данных / Data Study

Конспект воркшоп.pdf

325.3 KB

Systems_Analysis_Design_UML_5th ed.pdf

16 MB

DAMA-DMBOK RUS.pdf

12.6 MB

👍13🔥8🎉1

2.62K views10:31

Аналитика данных / Data Study

Запись воркшопа.webm

125.1 MB

Запись встречи

🔥13👍5

2.26K views10:54

Аналитика данных / Data Study

Привет!

На хабре начинается неделя аналитиков. Это хороший шанс познакомиться с компаниями, их проектами, а также подать заявку на открытые вакансии

https://pitch.habr.com/

Habr

Неделя бэкенда на Хабр Карьере

Компании расскажут о себе в формате коротких питчей — смотрите, голосуйте и откликайтесь на горячие вакансии

👍11

2.26K views11:57

Аналитика данных / Data Study

SQL vs NoSQL базы данных

В работе с базами данных используются 2 разных технологии, на которых строится архитектура и работа с данными.

🔎 SQL базы данных работают со структурированными данными, где важна модель данных, типы данных и определенные взаимосвязи между данными.

Также SQL базы данных подчиняются принципам ACID при работе с транзакциями:

- Atomicity (атомарность)
- Consistency (согласованность)
- Isolation (изолированность)
- Durability (долговечность)

Когда применяются SQL базы данных:

- важна определенная модель данных
когда важны описанные взаимосвязи между сущностями (таблицами)
- типы данных каждого атрибута однозначно определены
- нет необходимости гибкого изменения структуры данных
- нет динамичной потребности масштабироваться

🔎 NoSQL базы данных (Not only SQL) применяются в том случае, когда нет определенных требований к структуре данных, либо данные могут динамически менять свою структуру (тип данных, модель данных)

Когда лучше применять NoSQL базы данных:

- данные являются полуструктурированными или неструктурированными
- типы данных могут динамически изменяться
-нет четко сформированных взаимосвязей между сущностями или файлами данных
- данных очень много, нет четких требований к их хранению
- необходимость в быстром масштабировании хранилища

Приведу несколько примеров тех и других БД

SQL базы данных:
MySQL
PostgreSQL
Oracle
SQL Server

NoSQL базы данных:
MongoDB
Hbase
Cassandra
Elasticsearch

👍12🔥1

2.12K views14:33

Аналитика данных / Data Study

Заметки Аналитика - о жизненном цикле разработки ПО глазами бизнес-/системного аналитика.

▪︎ Хотите разбираться в тонкостях процесса разработки ПО?
▪︎ Улучшить свои знания о методах сбора, анализа и формализации требований?
▪︎ Узнать о разновидностях и особенностях методологий разработки ПО?
▪︎ Подтянуть навыки в области моделирования бизнес-процессов, проектировании интерфейсов, описания интеграций, работе с базами данных? ..

Тогда подписывайтесь на канал Заметки Аналитика, где вы найдете:
- теоретический материал;
- интересные статьи;
- профессиональную литературу;
- задачи с собеседований для аналитиков;
- опросы.

Подписаться: @notes_analyst

Заметки Аналитика | IT

О жизненном цикле разработки ПО глазами бизнес-/системного аналитика.

На канале вы найдете:
- теоретический материал;
- интересные статьи;
- профессиональную литературу;
- полезные шпаргалки;
- вопросы с собеседований;
- опросы.

Для связи: @Ev_S_Lit

👍3🔥1

1.88K views08:31

Аналитика данных / Data Study

Привет!

Сегодня последний день, когда можно записаться на 3 поток курса "Основы анализа данных".

Завтра стартует первое занятие из 7, на которых мы будем разбирать следующие темы:

1. Теория Баз Данных. Типы данных и работа с базами данных
2. Модели данных. Типы моделей данных + практика
3. Хранилище данных (DWH). Что такое OLTP. Озеро данных (Data Lake)
4. Основы SQL. SELECT запросы + практика
5. Python. Основы библиотеки pandas + практика
6. Метрики качества данных
7. Принципы визуализации данных + практика

ИТОГ ОБУЧЕНИЯ - Тестовое интервью (индивидуальное), на котором мы проверим ваши знания на уровне junior data analyst

Курс подойдет тебе, если ты:
📍 хочешь начать изучать область аналитики данных, но не знаешь с чего начать
📍 желаешь структурировать свое обучение для большей эффективности
📍 уже работаешь в аналитике и есть потребность улучшить навыки работы с данными
📍 хочешь выйти на новый уровень практических навыков

Запись на 3-й поток доступна сегодня до конца дня. Осталось только 2 свободных места на запись

Сайт: https://datastudy.ru/
Личные сообщения: @daniildzheparov

datastudy.ru

Data Study

Образовательный проект по развитию аналитических навыков и компетенций в сфере IT

👍6❤1

1.93K views07:27

Аналитика данных / Data Study

Привет!

В рабочем процессе я почти каждый день пишу SQL-запросы в Snowflake, решил рассказать немного про это облачное хранилище и поделиться полезной методичкой.

Snowflake - это облачное хранилище данных, представляемое для клиентов в виде сервиса. Хочется заметить, что это именно "эластичное" хранилище (elastic). Архитектура построена таким образом, что размер хранилища может автоматически и быстро изменяться в зависимости от потребностей, тем самым оно эластично подстраивается под объемы текущих данных. Другие облачные решения в свою очередь для расширения требуют добавление виртуальных серверов.

При работе с Snowflake с хранилищем можно работать разными способами:
- через web-интерфейс
- command line
- с помощью драйверов администрирования БД

В Snowflake с данными можно работать на SQL, при этом также есть синтаксис для работы с полуструктурированными данными разных форматов.

Ниже прикрепляю официальную методичку, которой сам недавно пользовался для знакомства c синтаксисом json-формата

👍2

1.81K views14:04

Аналитика данных / Data Study

Snowflake-How-to-Analyze-JSON-with-SQL.pdf

2.4 MB

1.77K views14:04

Аналитика данных / Data Study

Forwarded from Бизнес-анализ & IT

Гроссмейстер для бизнеса. Почему в корпорациях и стартапах растет спрос на аналитиков

Количество новых вакансий в сфере бизнес-анализа на российском рынке растет ежегодно. В прошлом году ИТ-компании разместили на hh ru более 250 тысяч вакансий, каждая десятая из них пришлась на долю аналитиков. Такие специалисты традиционно востребованы именно в цифровой индустрии, но в последнее время спрос на них особенно увеличился в промышленности и ритейле.
Почему каждый из нас должен быть хоть немного бизнес-аналитиком, как прокачать в себе эти навыки и какую пользу такой сотрудник принесет компании, рассказывают эксперты ИТ-кластера «Газпром нефти»

📎 https://rb.ru/longread/grossmejster-dlya-biznesa/

rb.ru

Гроссмейстер для бизнеса. Почему в корпорациях и стартапах растет спрос на аналитиков

Почему растет спрос на аналитиков? Такие специалисты традиционно востребованы именно в цифровой индустрии, но в последнее время спрос на них особенно увеличился в промышленности и ритейле. Диана Сюняева и Виктория Резанова эксперты ИТ-кластера «Газпром нефти»…

❤4👍1

1.54K views09:35

About

Blog

Apps

Platform