Business Analyst vs Data Analyst vs Data Scientist
❓“С чего начать?” - один из самых шаблонных вопросов перед началом изучения чего-то нового. Помню, как еще на 2-м курсе университета я не имел никакого представления о том, кто такие аналитики в IT и чем они занимаются, непонятно было что изучать.
Давайте разберем чем отличаются между собой профессии бизнес-аналитика, аналитика данных и специалиста по науке о данных.
🔎 Бизнес-аналитик (BA) - специалист в области бизнес-анализа, который выступает ключевым связующим звеном между бизнес-заказчиками и командой разработки.
🔎 Аналитик данных (DA) - специалист в области исследования данных с целью выявления из них бизнес-ценности.
🔎 Специалист по науке о данных (DS) - специалист в области исследования данных, машинного обучения с применением знаний математики, алгоритмов и языков программирования.
Основные задачи и навыки каждого специалиста смотри в картинках ☝️
Понравился пост? Не забудь поставить реакцию и сделать репост ☺️
❓“С чего начать?” - один из самых шаблонных вопросов перед началом изучения чего-то нового. Помню, как еще на 2-м курсе университета я не имел никакого представления о том, кто такие аналитики в IT и чем они занимаются, непонятно было что изучать.
Давайте разберем чем отличаются между собой профессии бизнес-аналитика, аналитика данных и специалиста по науке о данных.
🔎 Бизнес-аналитик (BA) - специалист в области бизнес-анализа, который выступает ключевым связующим звеном между бизнес-заказчиками и командой разработки.
🔎 Аналитик данных (DA) - специалист в области исследования данных с целью выявления из них бизнес-ценности.
🔎 Специалист по науке о данных (DS) - специалист в области исследования данных, машинного обучения с применением знаний математики, алгоритмов и языков программирования.
Основные задачи и навыки каждого специалиста смотри в картинках ☝️
Понравился пост? Не забудь поставить реакцию и сделать репост ☺️
👍30🔥6🤔3❤1
Привет!
Нашел довольно хорошо написанную и очень свежую статью про Spark DataFrame. Это некое подобие датафрейма pandas, но со своим расширенным функционалом распределенных вычислений от PySpark.
Очень подойдет новичкам в Spark или начинающим инженерам данных.
Нашел довольно хорошо написанную и очень свежую статью про Spark DataFrame. Это некое подобие датафрейма pandas, но со своим расширенным функционалом распределенных вычислений от PySpark.
Очень подойдет новичкам в Spark или начинающим инженерам данных.
Хабр
Основы работы со Spark DataFrame
При работе с распределенными базами данных, возникают задачи, которые ввиду технических ограничений сложно или невозможно решить с помощью всем привычного пакета Pandas на Python . Решением может...
👍10🔥2🤬2
Привет!
Сегодня хотел написать пост про оконные функции в SQL, но получилась целая статья 😅
Выложил материал на Habr. Переходите, читайте, поддерживайте продвижение статьи, если материал интересный 😊
https://habr.com/ru/post/664000/
Сегодня хотел написать пост про оконные функции в SQL, но получилась целая статья 😅
Выложил материал на Habr. Переходите, читайте, поддерживайте продвижение статьи, если материал интересный 😊
https://habr.com/ru/post/664000/
Хабр
Оконные функции SQL простым языком с примерами
Привет всем! Сразу хочется отметить, что данная статья написана исключительно для людей, начинающих свой путь в изучении SQL и оконных функций. Здесь могут быть не разобраны сложные применения функций...
👍20🔥7🤔1
Привет!
У меня есть традиция, которая пошла с Instagram блога, делать каждый месяц тест на проверку знаний по аналитике данных.
Хорошие новости - вчера я подготовил тест и сегодня готов поделиться ссылкой на него 🔥🥳
И это ещё не все. После каждого теста я раздавал участникам полезный подарок - файл книги, связанной с аналитикой или data science.
В этот раз будет целых 2 подарка:
1. Файл книги «Изучаем SQL”
2. Бесплатный воркшоп 21 мая по практике очистке и обработки данных с помощью SQL
📍Воркшоп будет не для всех
Как на него попасть?
1. Пройти тест
2. Поделиться результатом теста в любом из ваших чатов в телеграм или опубликовать сторис в Инстаграм
3. На сторис или в сообщении отметить мой профиль Инстаграм daniil.dzheparov или дать ссылку на этот телеграм канал
📍Вы поможете этим охватить больше людей, а я вам буду благодарен и проведу для вас бесплатный воркшоп и поделюсь знаниями ☺️
Ссылка на тест: t.iss.one/QuizBot?start=8wzkoGMl
У меня есть традиция, которая пошла с Instagram блога, делать каждый месяц тест на проверку знаний по аналитике данных.
Хорошие новости - вчера я подготовил тест и сегодня готов поделиться ссылкой на него 🔥🥳
И это ещё не все. После каждого теста я раздавал участникам полезный подарок - файл книги, связанной с аналитикой или data science.
В этот раз будет целых 2 подарка:
1. Файл книги «Изучаем SQL”
2. Бесплатный воркшоп 21 мая по практике очистке и обработки данных с помощью SQL
📍Воркшоп будет не для всех
Как на него попасть?
1. Пройти тест
2. Поделиться результатом теста в любом из ваших чатов в телеграм или опубликовать сторис в Инстаграм
3. На сторис или в сообщении отметить мой профиль Инстаграм daniil.dzheparov или дать ссылку на этот телеграм канал
📍Вы поможете этим охватить больше людей, а я вам буду благодарен и проведу для вас бесплатный воркшоп и поделюсь знаниями ☺️
Ссылка на тест: t.iss.one/QuizBot?start=8wzkoGMl
Quiz Directory
Проверка знаний по аналитике данных
10 questions
🔥11👍3👎1
Привет!
Первым делом хотел поблагодарить всех вас, кто следит за каналом, нас уже больше 1000! 🥳🥳🥳
Я уже рассказывал в своём блоге, что с помощью знаний Python хотя бы нескольких библиотек и Баз данных можно построить свой ETL/ELT процесс для извлечения, обработки и загрузки данных.
1. Извлечение данных (Python и библиотека requests)
2. Обработка (Python с библиотекой pandas)
3. Загрузка данных в БД (библиотека sqlalchemy + БД)
4. Как итог работы - визуализация и построение BI решения (Power BI, Tableau …)
На habr нашёл статью с простым описание данного процесса https://habr.com/ru/post/664020/
P.S. На воркшопе мы тоже разбирали подобный процесс работы с данными по вакансиям аналитиков на hh
Ссылка на код и дашборд https://github.com/daniildzheparov999/workshop_project
Первым делом хотел поблагодарить всех вас, кто следит за каналом, нас уже больше 1000! 🥳🥳🥳
Я уже рассказывал в своём блоге, что с помощью знаний Python хотя бы нескольких библиотек и Баз данных можно построить свой ETL/ELT процесс для извлечения, обработки и загрузки данных.
1. Извлечение данных (Python и библиотека requests)
2. Обработка (Python с библиотекой pandas)
3. Загрузка данных в БД (библиотека sqlalchemy + БД)
4. Как итог работы - визуализация и построение BI решения (Power BI, Tableau …)
На habr нашёл статью с простым описание данного процесса https://habr.com/ru/post/664020/
P.S. На воркшопе мы тоже разбирали подобный процесс работы с данными по вакансиям аналитиков на hh
Ссылка на код и дашборд https://github.com/daniildzheparov999/workshop_project
Хабр
Создаем простой ETL на Python
Photo by Danny Meneses Обзор решения на Python В работе аналитика данных часто приходится использовать наборы данных, загружаемые из открытых источников. Рассмотрим простой пример использования...
👍19
Что такое постановка цели по SMART
SMART - одна из техник поставки целей в бизнес-анализе и менеджменте.
Правильно софрмулированные цели помогают эффективнее достичь результата. И что самое главное - позволяют измерить его
Статья на эту тему: https://yagla.ru/blog/marketing/celi-smart-kriterii-i-primery--2108u95038/
SMART - одна из техник поставки целей в бизнес-анализе и менеджменте.
Правильно софрмулированные цели помогают эффективнее достичь результата. И что самое главное - позволяют измерить его
Статья на эту тему: https://yagla.ru/blog/marketing/celi-smart-kriterii-i-primery--2108u95038/
Управление безопасностью данных и распределения доступов с помощью CRUD-матрицы
🔎 CRUD-матрица -это один из методов управления информационной безопасностью в управлении данными. Используется подход построения матрицы данные-роли (столбцы матрицы) и данные-процессы (строки матрицы). Доступ управляется уровнями по аббревиатуре CRUD:
📍C (Create) - создание
📍R (Read) - чтение
📍U (Update) - обновление
📍D (Delete) - удаление
Иногда добавляют еще одно действие E (Execute) - выполнение
В каждую ячейку матрицы можно поставить как одно действие, так и сразу все, если эта роль должна иметь все доступы и возможности.
🔎 CRUD-матрица -это один из методов управления информационной безопасностью в управлении данными. Используется подход построения матрицы данные-роли (столбцы матрицы) и данные-процессы (строки матрицы). Доступ управляется уровнями по аббревиатуре CRUD:
📍C (Create) - создание
📍R (Read) - чтение
📍U (Update) - обновление
📍D (Delete) - удаление
Иногда добавляют еще одно действие E (Execute) - выполнение
В каждую ячейку матрицы можно поставить как одно действие, так и сразу все, если эта роль должна иметь все доступы и возможности.
👍9❤1
Привет!
Для тех кто хочет погружаться в Машинное Обучение есть курс, который читают студентам НИУ ВШЭ на Факультете Компьютерных Наук.
Записи лекций и семинаров выложены на Github
https://github.com/esokolov/ml-course-hse
Для тех кто хочет погружаться в Машинное Обучение есть курс, который читают студентам НИУ ВШЭ на Факультете Компьютерных Наук.
Записи лекций и семинаров выложены на Github
https://github.com/esokolov/ml-course-hse
GitHub
GitHub - esokolov/ml-course-hse: Машинное обучение на ФКН ВШЭ
Машинное обучение на ФКН ВШЭ. Contribute to esokolov/ml-course-hse development by creating an account on GitHub.
🔥15👍8
Метрики и KPI - в чем разница?
Вы когда-нибудь задумывались в чем разница между метриками и KPI? Есть ли вообще разница? Если есть, то в чем она заключается?
Любой бизнес использует метрики и KPI при анализе данных и при принятии важных бизнес решений. И от как мы используем эти понятия может привести к недопониманию в общении с бизнес-заказчиками, так и неправильной разработке требований и конечного решения.
🔎 KPIs (Key Performance Indicators) - измеримые величины, которые показывают как эффективно компания достигает своих бизнес-целей. С их помощью измеряется успех достижения той или иной поставленной бизнес-цели и задачи. Для расчета KPI используется метрика, которую выделили как “ключевую”.
🔎 Метрики (Metrics) - также измеряемые величины, которые получаются из аналитических отчетов или других систем аналитики.
Все KPIs являются метриками, но не все метрики являются KPIs.
(Видел в одной из статей некое сравнение высказывания выше: Все квадраты являются прямоугольниками, но не все прямоугольники можно назвать квадратами.)
В чем же все таки разница?
Метрик в данных может быть огромное количество. Например: количество заказов в день, количество кликов по ссылке, количество пользователей на сайте, сумма заказов в месяц и т.д.
Нужно понимать, что бизнес-заказчикам не всегда бывает важно следить за каждой из этих метрик чтобы понять как успешно развивается бизнес.
Из всего множества метрик выбирается список самых главных и ключевых, которые и становятся KPI для дальнейшего отслеживания результатов.
Почему важны и KPI и Метрики?
KPI - показатели эффективности бизнеса
Метрики - вспомогательные показатели, которые могут указать на проблемы, почему тот или иной KPI снизился или не был достигнут.
Вы когда-нибудь задумывались в чем разница между метриками и KPI? Есть ли вообще разница? Если есть, то в чем она заключается?
Любой бизнес использует метрики и KPI при анализе данных и при принятии важных бизнес решений. И от как мы используем эти понятия может привести к недопониманию в общении с бизнес-заказчиками, так и неправильной разработке требований и конечного решения.
🔎 KPIs (Key Performance Indicators) - измеримые величины, которые показывают как эффективно компания достигает своих бизнес-целей. С их помощью измеряется успех достижения той или иной поставленной бизнес-цели и задачи. Для расчета KPI используется метрика, которую выделили как “ключевую”.
🔎 Метрики (Metrics) - также измеряемые величины, которые получаются из аналитических отчетов или других систем аналитики.
Все KPIs являются метриками, но не все метрики являются KPIs.
(Видел в одной из статей некое сравнение высказывания выше: Все квадраты являются прямоугольниками, но не все прямоугольники можно назвать квадратами.)
В чем же все таки разница?
Метрик в данных может быть огромное количество. Например: количество заказов в день, количество кликов по ссылке, количество пользователей на сайте, сумма заказов в месяц и т.д.
Нужно понимать, что бизнес-заказчикам не всегда бывает важно следить за каждой из этих метрик чтобы понять как успешно развивается бизнес.
Из всего множества метрик выбирается список самых главных и ключевых, которые и становятся KPI для дальнейшего отслеживания результатов.
Почему важны и KPI и Метрики?
KPI - показатели эффективности бизнеса
Метрики - вспомогательные показатели, которые могут указать на проблемы, почему тот или иной KPI снизился или не был достигнут.
👍18
Привет!
Может кому-то будет актуально почитать 😉
P.S. Рекомендую также почитать ещё другие источники на эту тему, чтобы проверить достоверность всего материала. Критическое мышление и проверку информации никто не отменял)
https://habr.com/ru/post/665370/
Может кому-то будет актуально почитать 😉
P.S. Рекомендую также почитать ещё другие источники на эту тему, чтобы проверить достоверность всего материала. Критическое мышление и проверку информации никто не отменял)
https://habr.com/ru/post/665370/
Хабр
Льготная ипотека для IT-специалистов — детальный разбор
30 апреля вышло постановление, в котором зафиксированы условия выдачи льготной ипотеки IT-специалистам. Разбираем непонятные и самые больные моменты. О чем постановление Несмотря на то что некоторые...
👍4🔥1
Data Mesh как подход к работе с хранилищами данных
Data Mesh - подход к организационной структуре управления данными в компании, в который закладывается принцип самоорганизации как процессов управления данными, так и открытая инженерная культура работы с данными.
В основу такого подхода можно отнести несколько главных идей:
📍“Self-serve data infrastructure as a platform to enable domain autonomy” (самоорганизация инфраструктуры данных как платформы для обеспечения бизнес-доменов)
📍“Data must be self-describing and documented, and customers should be able to consume all the data in the organization as-a-service Solution” (Данные должны быть описаны и задокументированы таким образом, что пользователи могли использовать их открыто как сервис)
📍“Distributed domain driven architecture” (Распределенная архитектура, где данные управляются командами разных бизнес-доменов, а не распределяются в централизованное хранилище данных.
📍“Product Thinking” (Данные как продукт, где команды с разных бизнес-доменов являются владельцами данных, они могут управлять качеством данных, доступами. Как владельцы данных, они отвечают за продукт (свои данные), поддерживают пользователей, которые работают с их источниками данных)
Выделяют следующие характеристики Product Thinking:
✏️ Discoverable (Пользователю должно быть просто найти необходимый дата-продукт. Осуществляется путем создания и поддержания data catalog или регистра продуктов с указанием бизнес-владельца, систем-источников, доступных сущностей таблиц/витрин)
✏️ Addressable (Должен применяться единый стандарт названий продуктов и сущностей, чтобы упростить пользовательский путь по использованию данных)
✏️ Trustworthy and truthful (Дата продукт должен иметь доверие со стороны пользователей, т.е. содержать реальные и актуальные данные с высоким качеством)
✏️ Self-Describing (Продукт должен быть подробно описан, чтобы пользователи могли самостоятельно найти продукт, проанализировать его и начать использовать в своих целях с минимальным вмешательством команды поддержки)
✏️ Inter-Operable and governed by Global Standards (Дата Продукты децентрализованных команд должны иметь возможность интегрироваться между собой с возможностью взаимосвязи данных. Это достигается путем введения глобальных стандартов Data Governance, которых должны придерживаться доменные команды)
✏️ Secured (Должны быть введены глобальные стандарты безопасности для всех продуктов. Также должен быть единый процесс получения доступа к данным, который может в конечном итоге направлять запросы с доступами в доменные команды, ответственные за данные)
Ссылка на статью источник
Data Mesh - подход к организационной структуре управления данными в компании, в который закладывается принцип самоорганизации как процессов управления данными, так и открытая инженерная культура работы с данными.
В основу такого подхода можно отнести несколько главных идей:
📍“Self-serve data infrastructure as a platform to enable domain autonomy” (самоорганизация инфраструктуры данных как платформы для обеспечения бизнес-доменов)
📍“Data must be self-describing and documented, and customers should be able to consume all the data in the organization as-a-service Solution” (Данные должны быть описаны и задокументированы таким образом, что пользователи могли использовать их открыто как сервис)
📍“Distributed domain driven architecture” (Распределенная архитектура, где данные управляются командами разных бизнес-доменов, а не распределяются в централизованное хранилище данных.
📍“Product Thinking” (Данные как продукт, где команды с разных бизнес-доменов являются владельцами данных, они могут управлять качеством данных, доступами. Как владельцы данных, они отвечают за продукт (свои данные), поддерживают пользователей, которые работают с их источниками данных)
Выделяют следующие характеристики Product Thinking:
✏️ Discoverable (Пользователю должно быть просто найти необходимый дата-продукт. Осуществляется путем создания и поддержания data catalog или регистра продуктов с указанием бизнес-владельца, систем-источников, доступных сущностей таблиц/витрин)
✏️ Addressable (Должен применяться единый стандарт названий продуктов и сущностей, чтобы упростить пользовательский путь по использованию данных)
✏️ Trustworthy and truthful (Дата продукт должен иметь доверие со стороны пользователей, т.е. содержать реальные и актуальные данные с высоким качеством)
✏️ Self-Describing (Продукт должен быть подробно описан, чтобы пользователи могли самостоятельно найти продукт, проанализировать его и начать использовать в своих целях с минимальным вмешательством команды поддержки)
✏️ Inter-Operable and governed by Global Standards (Дата Продукты децентрализованных команд должны иметь возможность интегрироваться между собой с возможностью взаимосвязи данных. Это достигается путем введения глобальных стандартов Data Governance, которых должны придерживаться доменные команды)
✏️ Secured (Должны быть введены глобальные стандарты безопасности для всех продуктов. Также должен быть единый процесс получения доступа к данным, который может в конечном итоге направлять запросы с доступами в доменные команды, ответственные за данные)
Ссылка на статью источник
martinfowler.com
How to Move Beyond a Monolithic Data Lake to a Distributed Data
Mesh
Mesh
There are problems with the centralized data lake. A future data mesh needs domains, self-service platforms, and product thinking.
👍6
Привет!
Коллеги поделились информацией о трёхдневном офлайн-курсе про работу с клиентскими данными. Все подробности в посте ниже и по ссылке ⬇️
Коллеги поделились информацией о трёхдневном офлайн-курсе про работу с клиентскими данными. Все подробности в посте ниже и по ссылке ⬇️
📚 Через неделю стартует курс «Клиентские данные в энтерпрайзе: от проектирования MDM-системы до Data Governance и аналитики»
26–28 мая HFLabs проведет уже четвертый поток авторского офлайн-курса. Мы изучили отзывы и доработали программу, чтобы новый набор был полезнее. А еще упаковали материал в три полных дня вместо пяти половинчатых.
Осталось пять мест.
🧠 Что узнают участники
Мы покажем принципы работы с клиентскими данными: как их правильно хранить, обновлять, стандартизировать, сливать дубликаты, передавать в другие системы и анализировать.
Даем мощную базу — все, что узнали за 10 лет работы с данными в крупном бизнесе.
👨🎓 Для кого наш курс
Обучение будет полезно всем, кто работает или будет работать с данными в крупной компании: банке, страховой, ритейле или телекоме.
Специальность роли не играет — знания помогут аналитикам, архитекторам, тестировщикам, инженерам по данным и представителям бизнес-подразделений.
✔️ Где пригодятся полученные знания
Мы рассказываем о работе с данными на примере MDM-систем — Master Data Management. Но эти знания пригодятся, чтобы встроить любую систему в архитектуру компании. Неважно, с какими инструментами студенты работают или будут работать.
✏️ Как записаться
Купить билет можно на странице курса. Там же — подробная программа, рассказ о преподавателях, примеры лекций и отзывы студентов.
https://bit.ly/3lB4bTn
26–28 мая HFLabs проведет уже четвертый поток авторского офлайн-курса. Мы изучили отзывы и доработали программу, чтобы новый набор был полезнее. А еще упаковали материал в три полных дня вместо пяти половинчатых.
Осталось пять мест.
🧠 Что узнают участники
Мы покажем принципы работы с клиентскими данными: как их правильно хранить, обновлять, стандартизировать, сливать дубликаты, передавать в другие системы и анализировать.
Даем мощную базу — все, что узнали за 10 лет работы с данными в крупном бизнесе.
👨🎓 Для кого наш курс
Обучение будет полезно всем, кто работает или будет работать с данными в крупной компании: банке, страховой, ритейле или телекоме.
Специальность роли не играет — знания помогут аналитикам, архитекторам, тестировщикам, инженерам по данным и представителям бизнес-подразделений.
✔️ Где пригодятся полученные знания
Мы рассказываем о работе с данными на примере MDM-систем — Master Data Management. Но эти знания пригодятся, чтобы встроить любую систему в архитектуру компании. Неважно, с какими инструментами студенты работают или будут работать.
✏️ Как записаться
Купить билет можно на странице курса. Там же — подробная программа, рассказ о преподавателях, примеры лекций и отзывы студентов.
https://bit.ly/3lB4bTn
course.hflabs.ru
Клиентские данные в энтерпрайзе: от проектирования MDM-системы до Data Governance и аналитики
Практический курс HFLabs
👍4🤔2