Аналитика данных / Data Study
8.48K subscribers
404 photos
38 videos
24 files
330 links
Сайт: https://datastudy.ru/
По всем вопросам: @daniildzheparov

Про аналитику и инженерию данных

Вакансии: https://t.iss.one/data_vacancy
Книги: https://t.iss.one/analyst_books
Download Telegram
Как ваши выходные проходят? 😃

Ездили в домик на природу, к ноутбуку подходил только 1 день из 4, это достижение 😅

Накидайте 🔥 если в выходные получилось отдохнуть
🔥43👍2
Привет!

Делюсь ссылкой на полезные упражнения по библиотеке pandas для работы с данными

Ссылка на упражнения

Есть ещё вот такой замечательный сайт pandaspractice.com с упражнениями и примерами. Подойдёт для новичков, кто только начинает знакомство с функционалом библиотеки.

Pandas Practice
16🔥8👍4
Все больше погружаюсь в область Data Governance и Data Marketplace, потому что это сильные инструменты для получения из данных ценности в масштабе корпораций.
Сейчас исследую тему каталогов данных (Data Catalog). Главный вопрос - Зачем они нужны?
Некое summary

📍Data Discovery: Data catalogs provide a central repository for all enterprise data, making it easier to discover and locate relevant data sources.

📍Metadata Management: Data catalogs provide a platform to store and manage metadata associated with each data source, such as the source of the data, its format, and any other relevant information about the data.

📍Data Governance: Data catalogs provide an effective way to manage access control lists and keep track of who has access to what data. This helps organizations to protect sensitive data.

📍Quality Assurance: Data catalogs allow organizations to easily monitor the quality of their data sources by providing visibility into any errors or inconsistencies in the underlying datasets.
👍8🔥3
Много у нас здесь студентов? Накидайте свои реакции 😉
😁45🔥9👍6🎉1
На многих курсах в университете нам рассказывали про алгоритмы машинного обучения, все одно и то же: регрессия, кластеризация, классификация.
На одном из курсов нам показали процесс построения ML-пайплайнов на очень простом и интуитивно понятном low-code решении Orange. Вещь реально классная, где можно с помощью drag and drop мышкой построить довольно замудреный процесс обработки данных, да еще и с применением ML, а в конце визуализировать результаты. Для учебных задач вообще 🔥. Естественно т.к. это готовый инструмент, есть свои ограничения по сравнению написания кода для работы с данными с нуля, для моделей доступно ограниченное количество параметров для настройки, зато красиво и интересно 😁

Orange Data Mining
👍19
Офис в Москва-Сити - престижно или нет?

Сегодня ездил в один из офисов Москва-Сити по вопросу документов по ИП. Поймал себя на мысли, что я бы не хотел ездить туда работать каждый день. Выделил 2 момента:
1. Очень большая суета вокруг, больше чем в других местах Москвы
2. Чувствуется лишняя напыщенность людей (явно не все такие, но сегодня я по большей части контактировал с такими)

Я никого не хочу сейчас обидеть или сказать, что так только в Москва-Сити. Это сегодняшнее мое наблюдение.
Еще интересный момент, что HR любят писать в сообщениях и указывать в вакансиях, что у компании офис в башнях. Для компании может это и круто, статусно, но это никак не влияет на статусность самой вакансии, разве что это хорошее уточнение про местоположение офиса для кандидата)
Почему-то сложилось вокруг мнение, что если человек работает в Москва-Сити, то он автоматически успешен все у него хорошо в карьере. При этом мало кто задаст второй вопрос: а кем ты там работаешь? Работа как и везде разная, начиная от дворников и заканчивая генеральными директорами.

В общем, для себя я понял 2 вещи:
1. Меня не цепляют вакансии, которые хотят удивить или заманить кандидата шикарным офисом (лучше пусть пишут про 100% удаленку и гибрид по желанию 😃)
2. Для меня важна тишина и комфорт в рабочем пространстве, а еще лучше когда это будет воплощено в доступности с природой. Только представьте: веранда, солнышко, птички поют, речка в пешей доступности, тишина, и при этом работает безлимитный скоростной Интернет 🥹😍
👍5734🥰25🔥20
На днях познакомился с библиотекой geopandas для работы с различными форматами геоданных и дальнейшей геоаланилитики над ними

🔎 geopandas - библиотека Python для работы с географическими данными. Она позволяет работатьс раличными стандартными файлами для записи геоданных: shape-файлами, GeoJSON-данными, KML-файлами, GeoPandas DataFrames и PostGIS. Есть множество функций для работы с точками координат, форматам данных полигонам и мультиполигон (области на карте). Соответственно все функции pandas для привычных типов данных совместимы. Доступна различная визуализация карт.

Для установки: pip install geopandas

Документация
👍13🔥5
Поздравляю всех девушке с международным женским днём!🌷🌷🌷

Любите и будьте любимы 😉💐
27
Самый важный навык для аналитика

Подумал на днях что чаще всего я использую в работе и без чего не обходится мой рабочий процесс. Понял, что я каждый день использую SQL в своих задачах.
Напомню, что позиция моя называется BI Analyst, здесь Business Intelligence в явном виде означает что на проектах я выполняю роль как бизнес-аналитика, так и data-аналитика. Узнал потребность бизнеса -> Подготовил требования -> Исследовал данные и подготовил ТЗ -> Передал задачи инженеру данных.

SQL для меня является универсальным инструментом, без которого невозможно работать на проектах по разработке хранилищ данных и внедрению аналитических BI-решений.
📍Первичное исследование структуры данных
📍Проверка качества данных
📍Написание бизнес-правил обработки данных
📍Подготовка витрин данных для визуализации
📍Ad-hoc запросы по расчету метрик
📍Валидация результатов визуализации

Все это делаю с помощью SQL, а уже к нему дополнительно применяю BI тулы с визуализацией, Python.
Не зря SQL сейчас встречается почти в каждой вакансии для аналитиков, без его знания вам будет туго. Поэтому считаю, что первым делом при обучении важно освоить теорию баз данных и хранилищ, изучить SQL на уверенном уровне, дальше уже нарабатывать другие навыки. Также важно правильно работать с требованиями и оформлять их в корректном и понятном виде, с применением общепринятых стандартов.
Думаю, что свои курсы дальше буду еще больше углублять в эти навыки, потому что это действительно важно на работе для учеников + мне это очень нравится 😍
🔥24👍124
This media is not supported in your browser
VIEW IN TELEGRAM
Попробовал сегодня поработать с pygwalker, библиотека Python для визуализации данных с удобным интерфейсом, очень схожим с Tableau.

Для быстрой визуализации результатов преобразований и анализа вообще супер! Всегда было запарно писать код для matplotlib или других визуалок, бывало что проще выгрузить sample данных в файлик и пойти повизуализировать в BI инструменте. Сейчас BI приехал прямо в Jupyter Notebook 🔥🔥🔥

Буду смотреть детально особенности и возможности библиотеки, уверен на курсах с учениками познакомимся с ней и будем применять в задачках 😃

Ссылка на описание pygwalker
🔥28👍1
Привет!
В последние дни много активностей происходит в жизни, даже некогда написать пост с интересными материалами. Немного распишу чем сейчас занимаюсь и сделаю несколько объявлений.

1. Закончил вести курс по SQL в одной из онлайн-школ. Ученики защитили итоговые проекты, получили от меня комментарии по работам (в основном положительные) и обратную связь, в ответ дали мне также положительный фидбэк за мою работу 😊

2. Разрабатываю материалы для другой онлайн-школы по курсу SQL. Там формат записи видео, для меня будет новый опыт. Материалов и идей куча, сейчас идет активная работа с точки зрения методологии. ✏️✏️✏️

3. На работе закончилась первая стадия проекта по разработке аналитической платформы. Сейчас переходим ко второй стадии, подключаем новые источники, берем в разработку новые витрины и дашборды 👨‍💻

4. Готовлю доработки по материалам и практике для курса "Основы анализа данных". Определился с началом обучения следующего потока - 16 мая . В таблице предзаписи уже 11 человек, частично оплачено участие на курсе. Если хотите попасть в группу, стоит задуматься о записи уже сейчас 😉📚
Сайт здесь https://datastudy.ru/

5. Пишу диплом и отчет по практике по Data Governance/Data Marketplace 🤓

6. Делаю проект на фрилансе по разработке дашбордов с данными по недвижимости 🔎

Пару дней назад каким-то магическим образом удалился мой бот, про который писал раньше. Там был доступен ChatGPT, вернее модель davinci. Решил пока не поднимать новый, потому что есть много чего взять на доработку, но пока не в приоритете по времени 😬
Все кто пользовался (~200 человек), не расстраивайтесь, через месяца полтора докручу функционал и выложу новую версию бота 🔝
🔥91👍1
Data Lineage как метод удобного просмотра всего процесса преобразования данных

🔎 Data Lineage - один из методов data governance, который позволяет отслеживать данные от их источника до конечного результата их обработки. Она помогает понимать, как данные были получены, кто их обрабатывал и как они использовались в последующих процессах. Это обеспечивает прозрачность и управляемость процесса работы с данными. Можно визуализировать на уровне таблиц или на уровне каждого атрибута.

Для аналитиков это очень удобный инструмент отслеживания всех сущностей данных, которые зависят друг от друга. Очень жаль, что такая штука доступна далеко не везде, для реализации нужна развитая data практика в компании и внедренные инструменты data governance, а это даже не во всех крупных корпорациях есть.

Поэтому часто приходится описывать такой lineage в документации, что конечно очень быстро может стать неактуальным при изменении процесса трансформаций
🔥7👍6
Откуда брать время на саморазвитие. Почему иногда можно сокращать свой рабочий день

У меня выработался такой подход к работе: часть рабочего времени можно (нужно) выделять на саморазвитие. Мне кажется, что никто не может работать 8 часов с одной и той же производительностью, не отвлекаясь ни на что вокруг. Иногда нужно переключаться между видами деятельности, или хотя бы между задачами.

Я считаю, что каждому сотруднику важно уделять время в течение рабочего дня на саморазвитие: проходить курсы, корпоративные тренинги, брать консультации с экспертами, смотреть материалы с конференций и т.д. Если все приоритетные задачи сделаны, то часа 2 можно потратить на себя и свое развитие. В этом же также заинтересован и работодатель, чтобы сотрудники поднимали свой уровень квалификации.

Лично я сейчас уделяю время саморазвития на подготовку новых материалов к курсам: для своего курса по "Основам анализа данных", и для разработки курса по SQL для другой школы. Это также позволяет мне еще раз погрузиться в темы для структуризации материала и поднятия из памяти забытых вещей, которые могут быть полезны в работе.

Конечно это получается не всегда, при загрузке бывает приходится и больше часов посвятить работе, но это не есть хорошая практика. На одном зарубежном проекте нам говорили: "First priority is your personal issues, second - work issues, cause life is worth the most", компания была ярым противником овертаймов.

Ставьте реакции если согласны, что в рабочее часы также стоит уделять время саморазвитию
🔥61👍222
Новые уроки на курсе, или как я развиваю Data Study

У себя в instagram-блоге рассказал, что на следующий набор курса "Основы анализа данных" я сейчас добавляю новые уроки. Думаю здесь тоже нужно этим поделиться.

Всего будет добавлено 8 уроков
Кто не в курсе, сейчас 14 уроков, поэтому прирост материала очень большой

📍2 по SQL
📍1 по Python
📍2 по BI и визуализации данных
📍1 по выполнению проекта
📍1 на тему "где и как сейчас искать работу на рынке"
📍1 на тему документации требований на data-проектах

✏️ SQL
Я уже писал не раз, что SQL считаю первичным навыком для аналитиков, кто работает с данными, иначе будет сложно.

Новые уроки будут расширять уже текущие темы на курсе

1️⃣ Работа с оконными функциями
Ученикам по собранной обратной связи было мало практики работы именно с оконками, они просили еще. оп. материалы, но самостоятельно со всем сложно и долго разбираться + есть фреймы оконных функций, там с первого раза самостоятельно можно вообще мозг сломать, поэтому их будем разбирать подробнее.

2️⃣ Оптимизация запросов и сбор витрин данных
Сейчас уже есть много практики по написанию простых и средних по сложности запросов. Я хочу дать более продвинутый материал, нетривиальные кейсы моего текущего проекта, будет интересно и ученики набьют сразу руку для практики

✏️ Python
Будем разбирать практическую задачу по анализу активности и лояльности клиентов одной из компаний. Необходимо будет из данных о покупках клиентов понять
какие клиенты самые лояльные, какие факторы на это могут влиять
каких клиентов компаниях рискует потерять в ближайшее время
как повысить лояльность второй группы клиентов и привлечь их к покупкам

Это типовая задача, с которой работают аналитики данных, продуктовые аналитики, data scientistы

Почему решил добавить уроки по визуализации данных расскажу в следующий раз
Спойлер: рынок BI инструментов в России очень сильно изменился. Да и в мире эта тенденция набирает обороты.

У нас в группу уже оплатили предзапись 7 учеников, 11 еще в листе ожидания 🔥
Старт обучения уже запланирован на 16 мая
Успевайте забронировать место в группе по текущей цене 25000, дальше будет выше - 45000 😉

Сайт Data Study
👍9🔥4
Привет!
27 февраля год назад я создал этот канал, сейчас мы чуть чуть не дотягиваем до цифры 5000 😍
Честно, очень рад что таким образом могу делиться с вами интересными материалам и просто своими мыслями. Знаю, что многие в этом видят ценность и пишут об этом мне лично 😃😊

Буду дальше развивать этот канал. Если вы здесь читаете интересный материал, не забывайте делиться им в других чатах/каналах и просто со своими коллегами и знакомыми. Мне приятно, а вам полезно 👍
👍617🔥3
Analysis.pdf
2 MB
Делюсь файлом с полезными видами анализа в бизнесе и проектах. Подойдет аналитикам, менеджерам, продактам, предпринимателям, там 30+ разных методов описано
🔥463👍1
Она сказала "Да! за айтишником хоть на край света"

Вчера с девушкой уезжали на базу отдыха на relax-день. Гладили много кошек, ходили в гости к хаски, кормили кроликов) Расслаблялись в бане и на spa-процедурах. Вернулся домой уже с невестой 💍👰‍♀️, вот так вот бывает да 😁

Парни, если хотите услышать от своей девушки твердое "Да", задумайтесь над работой в IT.
Девушки, солидных женихов сейчас стоит искать в IT чатах и каналах, а не на дорогих курортах
😅

Про IT конечно шутка) На самом деле занимайтесь просто любимым делом и пробуйте новое, если действительно этого хотите 😉
🎉63🔥3114😁10👍3
Развитие BI-рынка в России

Уже год рынок в России трансформируется под текущие реалии. Зарубежные компании отказывают в оформлении новых или продлении действующих лицензий на их продукты. В итоге такие лидеры рынка как Power BI и Tableau становятся практически недоступны для использования.

Все компании так или иначе поднимают вопрос о поиске и внедрении альтернативных инструментов. Сейчас есть 2 пути:

1. Использовать open source (бесплатные инструменты с открытым исходным кодом)
2. Использовать платные BI от российских или китайских компаний

Давайте подумаем, если компания переходит на другой BI инструмент, значит сотрудник компании должен научиться использовать и поддерживать этот инструмент
📍разрабатывать отчеты и дашборды
📍уметь технически настраивать и поддерживать
📍уметь использовать в решении разных бизнес-задач

Общаясь с коллегами и в целом наблюдая за BI-сообществом , выявил 3 основных продукта, на которые строят многие проекты

1️⃣ Apache Superset
open source, можно вести свою разработку

2️⃣ Yandex Datalens
облачное решение от Яндекс

3️⃣ Fine BI
некий китайский аналог Tableau

У всех этих инструментов есть свои + и -

Мы на текущем проекте используем Apache Superset. Наткнулись при использовании на огромное количество нюансов, которые нужно учитывать. Поэтому хочу этими деталями поделиться на курсе и дать реальную практику ученикам.

Многие компании используют Superset как бесплатную основу, а дальше разрабатывают поверх него свой собственный BI инструмент. Например, так сделал Сбер со своей SDP BI
Еще Superset стали уже давненько использовать в Леруа Мерлен (ссылка на статью). Когда я там работал еще использовался Tableau.

Есть явный запрос компаний на переезд на новые BI инструменты.
➡️ Для этого нужны специалисты

Если хотите изучить BI инструменты и разобраться как с ними работать, предлагаю пойти на курс, будем разбирать с учениками Superset.

Сейчас идет набор в группу на курс "Основы анализа данных", старт обучения 16 мая
Актуальную информацию о курсе можно посмотреть на сайте datastudy.ru
10 апреля цена увеличится из-за расширения программы курса, успевайте по текущей цене)
👍7
Наткнулся на классное расширение в VS Code для использования ChatGPT прямо во время работы с кодом 👨‍💻
📍можно писать любые запросы по написанию кода
📍можно просить объяснить выделенный фрагмент кода
📍можно просить сделать code review

Думаю каждый сам сможет найти применение расширения
Для быстрой настройки можно посмотреть это видео
🔥139
Привет!
От вас поступает много вопросов про курс и вам интересны советы по обучению.

Отвечаю лично всем кто пишет. Но возможно у вас есть вопросы, которые вы еще не задали или постеснялись задать.

Я подготовил материал, где собрал всю самую главную информацию про курс для вашего удобства ➡️ Раскрываю все составляющие обучения

📍Старт ближайшего обучения - 16 мая
📍Продолжительность - 3 месяца
📍Обучение проходит с нуля
📍Результат после курса: вы имеете знания и практические навыки junior-аналитика

Воспринимайте это обучение как 3 месяца стажировки с личным ментором, который вам помогает разобраться в каждой теме. Мы решаем задачи с реальных проектов и оформляем итоговый pet-проект по всем шагам проектной деятельности

Текущая стоимость: 25 000 рублей
↪️Стоимость с 10 апреля: 30 000 рублей
↪️Стоимость на момент начала курса: 45 000 рублей
👍3🔥2