РЕСУРСЫ ДЛЯ ИЗУЧЕНИЯ GIT И GITHUB
1. Статья про использование Git/Github:
https://vc.ru/flood/45035-znakomstvo-s-github?ysclid=l0zionhi4x
2. Статья из 2 частей как начать работать с Git: https://habr.com/ru/post/541258/
3. Практический видео-урок по основам Git и GitHub (про GitHub можно найти со времени 34:00): https://youtu.be/zZBiln_2FhM
1. Статья про использование Git/Github:
https://vc.ru/flood/45035-znakomstvo-s-github?ysclid=l0zionhi4x
2. Статья из 2 частей как начать работать с Git: https://habr.com/ru/post/541258/
3. Практический видео-урок по основам Git и GitHub (про GitHub можно найти со времени 34:00): https://youtu.be/zZBiln_2FhM
vc.ru
Знакомство с GitHub — Офтоп на vc.ru
GitHub - это веб-сервис, на котором размещены миллиарды строк кода, и каждый день миллионы программистов со всего мира собираются вместе для совместной разработки IT проектов с открытым исходным кодом.
👍2
Наткнулся на один интересный материал про новую версию pandas и возможность ускорения чтения csv файлов. Вот этого как раз последнюю неделю очень не хватает, много задач появилась с применением pandas)
На 1-й скрине запускается обычное чтение, на 2-м чтение с применение engine 'pyarrow'. Там же можно увидеть сравнение в скорости чтения файлов.
Завтра буду тестить в своих задачках 😉
На 1-й скрине запускается обычное чтение, на 2-м чтение с применение engine 'pyarrow'. Там же можно увидеть сравнение в скорости чтения файлов.
Завтра буду тестить в своих задачках 😉
👍12
Привет!
Обещал поделиться кодом мини-проекта на pyspark. Ссылка на репозиторий: https://github.com/daniildzheparov999/Research_Seminar_Spark
Обещал поделиться кодом мини-проекта на pyspark. Ссылка на репозиторий: https://github.com/daniildzheparov999/Research_Seminar_Spark
GitHub
GitHub - daniildzheparov999/Research_Seminar_Spark
Contribute to daniildzheparov999/Research_Seminar_Spark development by creating an account on GitHub.
👍6
Для тех кто владеет английским языком, есть прекрасная возможность прослушать лекции по курсу Data Science for Business от Университета НИУ "Высшая Школа Экономики". Лекции доступны на Youtube в открытом доступе.
P.S. Буду проходить этот курс в рамках обучения в магистратуре, стартует со следующего месяца. У вас есть возможность прослушать качественный материал без поступления в универ)
https://youtube.com/playlist?list=PLriUvS7IljvlcLnrvYUyNc9nXhiM9kWjq
P.S. Буду проходить этот курс в рамках обучения в магистратуре, стартует со следующего месяца. У вас есть возможность прослушать качественный материал без поступления в универ)
https://youtube.com/playlist?list=PLriUvS7IljvlcLnrvYUyNc9nXhiM9kWjq
YouTube
Data Science for Business
Data Science for Business course at HSE 2020 Course website: https://www.leonidzhukov.net/hse/2020/datascience/ HSE catalog: https://www.hse.ru/en/edu/courses...
👍21🔥7
Всем привет!
Наткнулся на статью, в которой, на мой взгляд, очень точно определён набор навыков для работы аналитиком данных в IT:
1. Работать в Excel-таблицах, группировать, фильтровать данные — на ходу, без перекладывания из таблички в табличку.
2. Уметь писать SQL-запросы.
3. Изучить минимум один язык программирования: Python или R.
4. Делать выводы и представлять результаты в виде интерактивных дашбордов (Tableau, Power BI).
5. Разбираться в бизнес-процессах и понимать ключевые метрики анализа эффективности.
Эта работа связана с такими активностями как
📍Сбор и анализ требований заказчиков к отчетности.
📍Получение данных с помощью языка запросов SQL.
📍Применение в работе ключевых математических методов и основ статистики.
📍Очистка и трансформация данных с помощью Python.
📍Прогнозирование событий на основе данных.
📍Анализ результатов кампаний, исследований и тестирования продуктовых гипотез.
📍Способность создавать аналитические решения и представлять их бизнесу.
Хочу добавить, что помимо перечисленных навыков стоит прокачивать свои навыки в управлении и создании требований: бизнес-требования, функциональные требования, user-story
Всеми из перечисленных навыков владеете?
Наткнулся на статью, в которой, на мой взгляд, очень точно определён набор навыков для работы аналитиком данных в IT:
1. Работать в Excel-таблицах, группировать, фильтровать данные — на ходу, без перекладывания из таблички в табличку.
2. Уметь писать SQL-запросы.
3. Изучить минимум один язык программирования: Python или R.
4. Делать выводы и представлять результаты в виде интерактивных дашбордов (Tableau, Power BI).
5. Разбираться в бизнес-процессах и понимать ключевые метрики анализа эффективности.
Эта работа связана с такими активностями как
📍Сбор и анализ требований заказчиков к отчетности.
📍Получение данных с помощью языка запросов SQL.
📍Применение в работе ключевых математических методов и основ статистики.
📍Очистка и трансформация данных с помощью Python.
📍Прогнозирование событий на основе данных.
📍Анализ результатов кампаний, исследований и тестирования продуктовых гипотез.
📍Способность создавать аналитические решения и представлять их бизнесу.
Хочу добавить, что помимо перечисленных навыков стоит прокачивать свои навыки в управлении и создании требований: бизнес-требования, функциональные требования, user-story
Всеми из перечисленных навыков владеете?
👍32❤2
Forwarded from Базы данных & SQL
PostgreSQL. Основы языка SQL: учеб. пособие / Е. П. Моргунов; под ред. Е. В. Рогова, П. В. Лузанова
#литература
В пособии рассматриваются следующие темы:
° Введение в базы данных и SQL
° Создание рабочей среды
° Основные операции с таблицами
° Типы данных СУБД PostgreSQL
° Основы языка определения данных
° Запросы
° Изменение данных
° Индексы
° Транзакции
° Повышение производительности
Скачать книгу можно тут
#литература
В пособии рассматриваются следующие темы:
° Введение в базы данных и SQL
° Создание рабочей среды
° Основные операции с таблицами
° Типы данных СУБД PostgreSQL
° Основы языка определения данных
° Запросы
° Изменение данных
° Индексы
° Транзакции
° Повышение производительности
Скачать книгу можно тут
👍23
Гайд_по_профессии_аналитика_данных.pdf
27.7 MB
Привет!
Как вы помните, я работаю Senior BI Analyst и знакомлю всех заинтересованных с профессией аналитика, в частности с аналитикой данных и бизнес-аналитикой. Делюсь с подписчиками лучшими практиками работы с данными, полезными ссылками и рассказываю как начать осваивать профессию.
📍Сегодня решил раскрыть чуть больше тему Business Intelligence (BI), как это связано с аналитикой и работой с данными. Смотри обновленный гайд по профессии аналитика:
1. Профессия аналитика данных
2. Задачи аналитика данных
3. Необходимые навыки
4. Business Intelligence и виды аналитики 🔥
5. Уровни аналитиков и компетенции
6. Как составить свое первое резюме
7. Как подготовиться к резюме
8. Вакансии аналитика данных (примеры)
9. Ссылки на полезные ресурсы
Как вы помните, я работаю Senior BI Analyst и знакомлю всех заинтересованных с профессией аналитика, в частности с аналитикой данных и бизнес-аналитикой. Делюсь с подписчиками лучшими практиками работы с данными, полезными ссылками и рассказываю как начать осваивать профессию.
📍Сегодня решил раскрыть чуть больше тему Business Intelligence (BI), как это связано с аналитикой и работой с данными. Смотри обновленный гайд по профессии аналитика:
1. Профессия аналитика данных
2. Задачи аналитика данных
3. Необходимые навыки
4. Business Intelligence и виды аналитики 🔥
5. Уровни аналитиков и компетенции
6. Как составить свое первое резюме
7. Как подготовиться к резюме
8. Вакансии аналитика данных (примеры)
9. Ссылки на полезные ресурсы
👍50❤18🔥9👎2
Одна из главных задач аналитика - проведения исследования данных или data profiling.
Что это такое и почему это важный шаг каждого data-проекта, расписал в статье
https://zen.yandex.ru/media/id/623c6c3fb20595685d8b345f/profiling-dannyh-chto-eto-i-zachem-on-nujen-62489bbc4b15af5340523d3d
Что это такое и почему это важный шаг каждого data-проекта, расписал в статье
https://zen.yandex.ru/media/id/623c6c3fb20595685d8b345f/profiling-dannyh-chto-eto-i-zachem-on-nujen-62489bbc4b15af5340523d3d
Яндекс Дзен
Profiling данных - что это и зачем он нужен?
Ни один проект связанный с данными не обходится без стадии Data Profiling. Давайте разбираться что это такое. Data Profiling - это процесс исследования данных, понимания структуры, взаимосвязей, контекста и возможного применения этих данных в дальнейшем анализе.…
👍15
Ситуация прям очень хорошо описывает необходимость создания документации сделанной работы.
НЕ ВСЕГДА достаточно оставлять комментарии в коде или SQL-запросах при работе с данными. Важно помечать преобразования, условия фильтрации и взаимосвязей (джойнов) данных в понятном и структурированном формате, чтобы даже через месяц можно было посмотреть на доку и вспомнить что было сделано 😁.
На выходных поделюсь разными подходами создания документации в процессе работы 📝
НЕ ВСЕГДА достаточно оставлять комментарии в коде или SQL-запросах при работе с данными. Важно помечать преобразования, условия фильтрации и взаимосвязей (джойнов) данных в понятном и структурированном формате, чтобы даже через месяц можно было посмотреть на доку и вспомнить что было сделано 😁.
На выходных поделюсь разными подходами создания документации в процессе работы 📝
👍28
Всем привет!
Решил поделиться своим подходом к оформлению документации при анализе и профайлинге данных из нового источника.
Первым делом хочу отметить несколько правил, которых я придерживаюсь:
1. Пиши так, чтобы документация была понятна даже человеку из другой команды. Важно помнить, что в дальнейшем вашей докой будут пользоваться также и другие люди
2. Документируй каждый день свои новые находки, иначе завтра можешь уже не вспомнить ключевые моменты
3. Оценивай трудозатраты задач с учетом создания документации. Это помогает трезво оценить скоп работы и заложить время на фиксирование анализа
Я люблю все документировать в Confluence - это продукт Atlassian, который работает как некая база знаний во многих компаниях для организации документации. Не очень удобно распихивать отдельные части анализа в разные места: excel-файлы, cloud диски как google drive или box. Все стараюсь зафиксировать на одной странице или разделе страниц
📍Важная и полезная фишка: можно создавать под себя и команду шаблоны страниц, чтобы не тратить время на постоянную структуризацию
Как выглядит моя структура страницы:
✅ Название страницы (куда де без него 😅). Пишу обычно по теме анализа
✅ Ссылка на Jira-тикет
- Очень помогает связывать тикеты и страницы документации для быстрого доступа к нужным страницам сразу из таск-трекера
- Помогает задокументировать каждую открытую задачу и ни про что не забыть
✅ Описание источника данных
- Название БД, схемы, таблицы
- Кто бизнес-владелец источника (имя, контакт)
- Контакты технической команды поддержки
- Ссылка на документацию источника
- Как получить доступ (необходимы роли и действия
- Расписание обновления данных в источнике
✅ AS-IS схема данных (если есть)
- ER-диаграмма
- Data Dictionary (словарь всех атрибутов с бизнес-описанием)
✅ TO-BE схема данных
- ER-диаграмма
- Data Dictionary
- Source to Target mapping (таблица сопоставления атрибутов между источниками AS-IS и TO-BE) - если нужен
✅ Data Profiling
- Таблица с результатами исследования данных (что такое data profiling писал в предыдущих постах ⬆️)
- SQL-скрипт для профайлинга (прикрепляется макросом в Confluence очень удобно)
✅ Открытые вопросы и видимые риски
- Список вопросов, которые нужно уточнить у технической команды или со стороны бизнеса
- Все возможные риски по качеству данных, внедрению нового источника, получения доступов и т.п (если есть)
✅ Полезные ссылки
- Все ссылки или материалы, которые были найдены или использованы во время анализа
Примерно так выглядит каждая страница в Confluence, которая создается мной после анализа и проверки источника данных.
Решил поделиться своим подходом к оформлению документации при анализе и профайлинге данных из нового источника.
Первым делом хочу отметить несколько правил, которых я придерживаюсь:
1. Пиши так, чтобы документация была понятна даже человеку из другой команды. Важно помнить, что в дальнейшем вашей докой будут пользоваться также и другие люди
2. Документируй каждый день свои новые находки, иначе завтра можешь уже не вспомнить ключевые моменты
3. Оценивай трудозатраты задач с учетом создания документации. Это помогает трезво оценить скоп работы и заложить время на фиксирование анализа
Я люблю все документировать в Confluence - это продукт Atlassian, который работает как некая база знаний во многих компаниях для организации документации. Не очень удобно распихивать отдельные части анализа в разные места: excel-файлы, cloud диски как google drive или box. Все стараюсь зафиксировать на одной странице или разделе страниц
📍Важная и полезная фишка: можно создавать под себя и команду шаблоны страниц, чтобы не тратить время на постоянную структуризацию
Как выглядит моя структура страницы:
✅ Название страницы (куда де без него 😅). Пишу обычно по теме анализа
✅ Ссылка на Jira-тикет
- Очень помогает связывать тикеты и страницы документации для быстрого доступа к нужным страницам сразу из таск-трекера
- Помогает задокументировать каждую открытую задачу и ни про что не забыть
✅ Описание источника данных
- Название БД, схемы, таблицы
- Кто бизнес-владелец источника (имя, контакт)
- Контакты технической команды поддержки
- Ссылка на документацию источника
- Как получить доступ (необходимы роли и действия
- Расписание обновления данных в источнике
✅ AS-IS схема данных (если есть)
- ER-диаграмма
- Data Dictionary (словарь всех атрибутов с бизнес-описанием)
✅ TO-BE схема данных
- ER-диаграмма
- Data Dictionary
- Source to Target mapping (таблица сопоставления атрибутов между источниками AS-IS и TO-BE) - если нужен
✅ Data Profiling
- Таблица с результатами исследования данных (что такое data profiling писал в предыдущих постах ⬆️)
- SQL-скрипт для профайлинга (прикрепляется макросом в Confluence очень удобно)
✅ Открытые вопросы и видимые риски
- Список вопросов, которые нужно уточнить у технической команды или со стороны бизнеса
- Все возможные риски по качеству данных, внедрению нового источника, получения доступов и т.п (если есть)
✅ Полезные ссылки
- Все ссылки или материалы, которые были найдены или использованы во время анализа
Примерно так выглядит каждая страница в Confluence, которая создается мной после анализа и проверки источника данных.
👍37🔥11❤5
Привет!
Хочу поделиться новостью, что вчера стартовала запись на курс "Основы анализа данных", который стартует 23 апреля.
Уроки курса:
1. Теория Баз Данных. Типы данных и работа с базами данных
2. Модели данных. Типы моделей данных + практика
3. Хранилище данных (DWH). Что такое OLTP. Озеро данных (Data Lake)
4. Основы SQL. SELECT запросы + практика
5. Python. Основы библиотеки pandas + практика
6. Метрики качества данных
7. Принципы визуализации данных + практика
8. Тестовое интервью (индивидуальное)
Главная ценность обучения: Получение структурированных знаний и практических навыков для старта работы в роли аналитика данных
Заявку на предзапись можно сделать на сайте https://datastudy.ru/ или личным сообщением @daniildzheparov (отвечу на все открытые вопросы)
Хочу поделиться новостью, что вчера стартовала запись на курс "Основы анализа данных", который стартует 23 апреля.
Уроки курса:
1. Теория Баз Данных. Типы данных и работа с базами данных
2. Модели данных. Типы моделей данных + практика
3. Хранилище данных (DWH). Что такое OLTP. Озеро данных (Data Lake)
4. Основы SQL. SELECT запросы + практика
5. Python. Основы библиотеки pandas + практика
6. Метрики качества данных
7. Принципы визуализации данных + практика
8. Тестовое интервью (индивидуальное)
Главная ценность обучения: Получение структурированных знаний и практических навыков для старта работы в роли аналитика данных
Заявку на предзапись можно сделать на сайте https://datastudy.ru/ или личным сообщением @daniildzheparov (отвечу на все открытые вопросы)
datastudy.ru
Data Study
Образовательный проект по развитию аналитических навыков и компетенций в сфере IT
👍11
Привет!
Сегодня наконец-то сделал для себя простую CRM-систему 😁
Логика очень простая:
1. вы заполняете заявку через google-форму на вводную консультацию/консультацию/курс по DA/курс по BA
2. запись поступает в привязанную к форме google-таблицу
3. при попадании записи в таблицу с помощью скрипта в Apps Script формируется и отправляется сообщение в телеграм-канал с ботом
С точки зрения технической реализации это очень простой пример так называемого data flow (потока данных), начиная от пользовательского интерфейса (сайта с кнопкой на google-форму), некой "базы данных" в виде google-таблицы, ну и ETL-процесса, который построен на инструментах Google и бота Telegram.
- ввод данных
- хранение данных
- обработка данных
- вывод результата
Всю основу кода брал отсюда https://pastebin.com/X0V2yGHQ
Видео с пояснениями здесь https://youtu.be/MR10T4WPBmc
P.S. Сейчас такое решение позволит не мониторить постоянно таблицы с записями, а получать автоматические уведомления в телеграм-чате
Сегодня наконец-то сделал для себя простую CRM-систему 😁
Логика очень простая:
1. вы заполняете заявку через google-форму на вводную консультацию/консультацию/курс по DA/курс по BA
2. запись поступает в привязанную к форме google-таблицу
3. при попадании записи в таблицу с помощью скрипта в Apps Script формируется и отправляется сообщение в телеграм-канал с ботом
С точки зрения технической реализации это очень простой пример так называемого data flow (потока данных), начиная от пользовательского интерфейса (сайта с кнопкой на google-форму), некой "базы данных" в виде google-таблицы, ну и ETL-процесса, который построен на инструментах Google и бота Telegram.
- ввод данных
- хранение данных
- обработка данных
- вывод результата
Всю основу кода брал отсюда https://pastebin.com/X0V2yGHQ
Видео с пояснениями здесь https://youtu.be/MR10T4WPBmc
P.S. Сейчас такое решение позволит не мониторить постоянно таблицы с записями, а получать автоматические уведомления в телеграм-чате
👍19
Привет!
В своём Instagram блоге мне часто задают вопросы про
- роль аналитика данных на проекте
- понятие data-продукта и как их создают компании
Поэтому я предлагаю обсудить эту интересную тему на онлайн-воркшопе вместе со мной, где я расскажу детально следующие темы:
1. Что такое data-продукт
2. Жизненный цикл проекта и data-продукта
3. Роль аналитика на data-проекте
4. Демонстрация небольшого практического проекта с помощью Python, SQL и Power BI
Участие в воркшопе полностью свободное и бесплатное, приветствуются живые вопросы по теме воркшопа во время встречи 😉
📍Когда - Воскресенье (17 апреля)
📍Время - 12:00 по МСК
📍Где и как подключиться - Яндекс.Телемост (ссылка на событие https://calendar.yandex.ru/event/1697132433?applyToFuture=0&event_date=2022-04-17T09%3A00%3A00&layerId=10423820&show_date=2022-04-17 )
Технические моменты по подключению:
1. Заполните форму записи (это поможет понять количество участников) - https://forms.gle/p34SmaUNB3ayKB9B7
2. Проверьте авторизацию в Яндекс и возможность зайти в Яндекс.Телемост
3. Если хотите подключиться с телефона, скачайте приложение Яндекс.Телемост
В своём Instagram блоге мне часто задают вопросы про
- роль аналитика данных на проекте
- понятие data-продукта и как их создают компании
Поэтому я предлагаю обсудить эту интересную тему на онлайн-воркшопе вместе со мной, где я расскажу детально следующие темы:
1. Что такое data-продукт
2. Жизненный цикл проекта и data-продукта
3. Роль аналитика на data-проекте
4. Демонстрация небольшого практического проекта с помощью Python, SQL и Power BI
Участие в воркшопе полностью свободное и бесплатное, приветствуются живые вопросы по теме воркшопа во время встречи 😉
📍Когда - Воскресенье (17 апреля)
📍Время - 12:00 по МСК
📍Где и как подключиться - Яндекс.Телемост (ссылка на событие https://calendar.yandex.ru/event/1697132433?applyToFuture=0&event_date=2022-04-17T09%3A00%3A00&layerId=10423820&show_date=2022-04-17 )
Технические моменты по подключению:
1. Заполните форму записи (это поможет понять количество участников) - https://forms.gle/p34SmaUNB3ayKB9B7
2. Проверьте авторизацию в Яндекс и возможность зайти в Яндекс.Телемост
3. Если хотите подключиться с телефона, скачайте приложение Яндекс.Телемост
Google Docs
Воркшоп по теме data-продукты
Привет! Это форма записи на онлайн-воркшоп. Заполни ее, пожалуйста, если планируешь присоединиться послушать. Приветствуется задавать все интересующие тебя вопросы по теме воркшопа во время встречи. По любым вопросам можно писать в Instagram @daniil.dzheparov…
👍8
Привет!
Напоминаю, что сегодня пройдет воркшоп на тему data-продуктов и роли аналитика в их создании.
Время: 12:00 по МСК
Ссылка для подключения: https://telemost.yandex.ru/j/96314518392068
Напоминаю, что сегодня пройдет воркшоп на тему data-продуктов и роли аналитика в их создании.
Время: 12:00 по МСК
Ссылка для подключения: https://telemost.yandex.ru/j/96314518392068
telemost.yandex.ru
Яндекс Телемост
Видеовстречи по ссылке. Собирайте в Телемосте рабочие конференции или встречайтесь с друзьями. Встречи не ограничены по времени. Можно скачать Телемост для Windows или macOS.
👍6
Всем привет!
Спасибо всем, кто подключился на воркшоп 😊
Как и обещал, прикрепляю конспект воркшопа со всей теоретической информацией по data-продуктам и роли аналитика в проекте.
Чуть позже выложу запись самой встречи, посмотрим куда удастся её без проблем выложить 😉
+ файлы книг из полезных ссылок
Спасибо всем, кто подключился на воркшоп 😊
Как и обещал, прикрепляю конспект воркшопа со всей теоретической информацией по data-продуктам и роли аналитика в проекте.
Чуть позже выложу запись самой встречи, посмотрим куда удастся её без проблем выложить 😉
+ файлы книг из полезных ссылок
❤14🔥4👍3