Аналитика данных / Data Study
8.42K subscribers
405 photos
38 videos
24 files
327 links
Сайт: https://datastudy.ru/
По всем вопросам: @daniildzheparov

Про аналитику и инженерию данных

Вакансии: https://t.iss.one/data_vacancy
Книги: https://t.iss.one/analyst_books
Download Telegram
ЧТО ТАКОЕ AGILE

Большинство проектных и продуктовых команд сейчас работают по Agile.

🔍 Agile - это набор методик и подходов для гибкого управления проектом по разработке программного обеспечения.

Сам подход Agile зародился еще в 2001 году, тогда был создан так называемый “Agile манифест”. Манифест описывает ценности Agile, вот некоторые из них:

“Люди и взаимодействие важнее процессов и инструментов.

Работающий продукт важнее исчерпывающей документации.

Сотрудничество с заказчиком важнее согласования условий контракта.

Готовность к изменениям важнее следования первоначальному плану."

❗️ Если вы работаете по Scrum, Kanban, у вас есть спринты, но вы не понимаете в чем ценность всего процесса - обязательно почитайте ценности Agile.

Например, по методологии Scrum есть довольно общее деление команды на роли:

- Владелец продукта
- Scrum мастер
- Команда разработки

Команда разработки считается кросс-функциональной, где не выделяются отдельные роли каждому члену команды.

В чем же ценность аналитика в такой команде?

Аналитик будет связующим звеном, скрам команды и бизнес заказчиков. И будет особенно нужен в случае недостатка времени у стейкхолдеров, или отсутствия владельца продукта.

Многие разработчики не имеют желания или времени общаться с бизнес-заказчиками, ведь им нужно писать код, реализовывать новый функционал и устранять баги.

Здесь как раз и приходит на помощь аналитик, который позволит эффективно использовать разработчиков, но при этом не снижая качество общения с бизнесом.

Также, аналитик будет центром накопления знаний о предметной области продукта, контролировать качество продукта, проводить review продукта, подготавливать данные для уточнения бэклога и т.п.
👍1
ХРАНИЛИЩЕ ДАННЫХ vs ОЗЕРО ДАННЫХ

Часто ли вы слышали понятия Хранилище данных и Озеро данных в своей жизни? А знаете чем они отличаются между собой?
Нет? - А зря, ведь это один из базовых вопросов на собеседовании аналитиков, инженеров, менеджеров, которые рассматривают работу на проектах, связанных с Data и Business Intelligence.

Данные генерируются во всех транзакционных системах и системах управления предприятиями или компаниями (ERP, CRM, BPM…) каждую секунду.

Возникает вопрос: а где хранить такие большие объемы данных и получать от них пользу и профит для компании?

Тут на помощь приходят технологии аналитических хранилищ данных, или OLAP Systems - Online Analytical Processing Systems.
С развитием технологий появилось несколько подходов хранения и обработки больших объемов данных в компаниях:
📍Хранилище данных (Data Warehouse)
📍Озеро данных (Data Lake)

Существуют также гибридные методологии вида Data Vault, Delta Lake, Lake House.
👍3
КАК НАЙТИ ВАКАНСИЮ В IT

Существует множество ресурсов и способов поиска работы в IT.

Но на что обращать внимание при поиске вакансии?

1. Описание компании и проекта

Смотрите на то, чем занимается компания, в какой проект открыта вакансия и самое главное, совпадают ли ваши интересы с той областью, в которой предстоит работать. Бывает, что в вакансии не описан конкретный проект - это нормально. Компании обычно ищут сотрудников на длительное сотрудничество и набирают штат не на определенные проекты, а просто в компанию, чтобы потом по необходимости и интересам сотрудника определить его на тот или иной проект.

2. Описание обязанностей

Важный пункт, который даёт понять кандидату, что от него ждут и какими навыками нужно обладать кандидату. Если обязанности расписаны общими словами: “быть ответственным и выполнять работу всегда качественно” - это не всегда полезное описание. Такие обязанности должны восприниматься как само собой выполняемые, вы должны обращать внимание на именно те задачи и обязанности, которые вы будете делать на работе. Например, «общаться с бизнес-пользователями, документировать требования в виде ТЗ для команды разработки». Здесь становится понятно, какие навыки нужно применять на данной работе.

3. Инструменты и стек применяемых технологий

Читая эту часть вакансии, задавайте себе вопрос: умею ли я работать с этими инструментами или мне нужно подтянуть свои знания? Самый простой пример: вы умеете работать в Power BI, а для вакансии требуются знания Tableau. Можно попробовать до интервью посмотреть обзоры и почитать документацию необходимых инструментов, если знания нужны только начальные и вас будут готовы обучить. Но если требуется именно специалист, то скорее всего нужно отложить эту вакансию в сторону или взяться всерьёз за обучение инструменту.

4. Предложение для соискателя

Ну и конечно тот пункт, который привлекает ваше внимание и иногда выглядит очень сладко.
Обязательно обрати внимание на
- Официальное оформление по ТК РФ
- График работы
- Условия получения ЗП, премий и бонусов
- Социальный пакет
- Все остальное, что для ВАС важно
👍1
PYTHON ДЛЯ РАБОТЫ С ДАННЫМИ

🔎 Python - язык программирования, который широко используется и применяется на проектах, связанных с обработкой и анализом данных.

Он удобен, прост в понимании и чтении кода, имеет множество полезных функций и библиотек для работы с данными.

1. Pandas
Библиотека позволяет загружать, очищать и обрабатывать данные, загружать данные из различных файлов и преобразовывать их в “датафрейм”, с которым в дальнейшем идет работа и его трансформация. Данные представляются в понятном и читаемом виде таблицы, а множество функций и методов позволяют проводить простые и сложные трансформации данных.

2. Pandas Profiling
Еще одна библиотека, которая позволяет в более автоматическом режиме сделать исследование датасета и собрать все базовые метрики.

3. Requests и BeautifulSoup
Библиотеке requests позволяет извлекать данные с помощью запросов API (Application Programming Interface) к приложениям, либо отправлять различные команды приложению через python скрипт. BeautifulSoup позволяет работать с web-страницами формата HTML и XML. Обе библиотеки дают хороший инструментарий для парсинга и извлечения данных.

4. NumPy
Библиотека позволяет использовать математические расчеты и работу с массивами в вашем проекте. Это больше подходит для Data Science задач, где нужны математические инструменты.

5. Plotly и Matplotlib
Библиотеки plotly и matplotlib дают огромный инструментарий построения различных графиков, диаграмм, чартов и т.д. Некоторые графики можно построить с помощью одной строчки кода и предоставить визуализацию коллегам.

6. SciKitLearn, Keras, Pytorch, Tensorflow
Все эти библиотеки используются для работы с машинным обучением. SciKitLearn подойдет больше для построения простых алгоритмов и моделей машинного обучения, в то время как Keras или Pytorch дают более широкий спектр функций для построения нейронных сетей, моделей компьютерного зрения или обработки естественного языка.

7. SQLAlchemy
Библиотека позволяет подключаться к базам данных. Можно создавать, изменять таблицы, писать запросы, извлекать/вставлять данные. Библиотека позволяет работать с базой данных с помощью объектно-ориентированного кода, не используя SQL-запросы.
👍3
ЧТО ТАКОЕ ТРАНЗАКЦИЯ В БАЗЕ ДАННЫХ

🔎 Транзакция — это неделимая (атомарная) операция, которую вы можете произвести с базой.

Неделимая — это значит, что база рассматривает операцию как единое целое. Она или выполняется полностью, или не выполняется вообще.

При этом транзакция может содержать в себе несколько операций. Например, вы можете вставить несколько строк в базу, и всё это будет считаться единой транзакцией. В случае если произошла ошибка, и только часть строк была вставлена в базу, транзакция "откатится", то есть все внесённые изменения будут отменены.

Когда мы выполняем несколько операций в коде, в конце нужно сделать коммит (commit), то есть показать системе, что мы должны выполнить предыдущие операции как единое целое. Каноничный пример транзакции в реальном мире — перевод денег с одного счета на другой в банке. Как происходит перевод:

Система снимает деньги с одного счета.
Система добавляет деньги на другой счет.
Если бы операция перевода не являлась транзакцией, то в случае ошибки между 1 и 2 этапом деньги пропали бы безвозвратно.

На самом деле дело не только в защите от ошибок при удалении, но и, например, в защите от неконсистентности данных. Что это значит? Допустим, вы переводите деньги с одного счета на другой. Допустим, вы хотите заплатить с первого счёта в магазине. Если транзакция еще не завершила первый этап, вы можете случайно подумать (во время другой параллельно идущей операции снятия денег), что денег у вас больше, чем есть на самом деле.

Транзакции подчиняются принципу ACID:

📍Atomic (атомарность) — если произошел коммит, значит, все операции были выполнены;
📍Consistent (консистентность) — можно сделать коммит, только если он удовлетворяет всем ограничениям (например, NOT NULL);
📍Isolated (изолированность) — снаружи транзакции не видно, что происходит внутри, пока не произошел коммит;
📍Durable (долговечность) — независимо от ошибок в системе, транзакция, которая была совершена (то есть, был коммит) останется совершённой, даже если сразу после коммита сервер упадет.
👍1
Если вы часто работаете в Excel, но у вас есть потребность учить Python, можно познакомиться с библиотекой Mito.
Mito позволяет представить данные в виде привычной таблицы и выполнять с ними все те же операции что и в Excel. При этом автоматически будет генерироваться Python код всех операций, выполненных с данными

https://towardsdatascience.com/how-to-analyze-data-using-mito-in-python-4bf817092367
👍31
ЧТО БУДЕТ ПРОИСХОДИТЬ С IT В БЛИЖАЙШЕЕ ВРЕМЯ?

Обстановка на рынке в РФ очень сильно поменялась и будет продолжать меняться. Многие компании временно или полностью останавливают свою деятельность.

IT-специалисты, чью компанию затронула обстановка, скорее всего видят перед собой 2 варианта:

1. Менять работу и искать другую вакансию на рынке
2. Релокация в другую страну, если компания поддерживает это и позволяет работать дальше

Каждый решает сам по своим личным обстоятельствам как поступать. Оба варианта сильно повлияют на дальнейшее развитие рынка IT в стране.

На мой взгляд сценарий будет выглядеть следующим образом:
- из-за большого оттока специалистов зарубеж ещё больше возрастёт нехватка спецов внутри страны
- спрос от компаний будет увеличиваться, следовательно будут привлекать новых работников любыми способами - бонусы, премии, большой соц. пакет (сюда также относятся новости про льготные ипотеки и про отказ от налогов для IT)
- будет рост зарплатных ожиданий, т.к. в сильной позиции чтобы "поторговаться" на интервью будет соискатель, а не работодатель
- получать ЗП в валюте станет сложнее находясь внутри страны, еще один мотиватор для релокации

ИТОГ:
Кто хочет попасть в IT, учитесь и повышайте свои навыки, чтобы получить классный оффер от работодателя. Текущая ситуация совсем не повод опускать руки и перечеркивать все свои планы. Это мотиватор вкладывать как можно больше в себя и в свое развитие.
👍1
Bruce_Bruce_2018_Practical Statistics for Data Scientists.pdf
8.5 MB
Книга "Практическая статистика для специалистов Data Science"
👍3
Вот такая мотивация у нас на кофеаппарате в офисе))))

Не забывайте отдыхать и делать перерывы, всем хороших выходных!

А учеников жду завтра и послезавтра на уроки 🖐
👍2
Наткнулся на один интересный материал про новую версию pandas и возможность ускорения чтения csv файлов. Вот этого как раз последнюю неделю очень не хватает, много задач появилась с применением pandas)
На 1-й скрине запускается обычное чтение, на 2-м чтение с применение engine 'pyarrow'. Там же можно увидеть сравнение в скорости чтения файлов.
Завтра буду тестить в своих задачках 😉
👍12
Для тех кто владеет английским языком, есть прекрасная возможность прослушать лекции по курсу Data Science for Business от Университета НИУ "Высшая Школа Экономики". Лекции доступны на Youtube в открытом доступе.

P.S. Буду проходить этот курс в рамках обучения в магистратуре, стартует со следующего месяца. У вас есть возможность прослушать качественный материал без поступления в универ)

https://youtube.com/playlist?list=PLriUvS7IljvlcLnrvYUyNc9nXhiM9kWjq
👍21🔥7