Аналитика данных / Data Study
8.41K subscribers
405 photos
38 videos
24 files
327 links
Сайт: https://datastudy.ru/
По всем вопросам: @daniildzheparov

Про аналитику и инженерию данных

Вакансии: https://t.iss.one/data_vacancy
Книги: https://t.iss.one/analyst_books
Download Telegram
PYTHON ДЛЯ РАБОТЫ С ДАННЫМИ

🔎 Python - язык программирования, который широко используется и применяется на проектах, связанных с обработкой и анализом данных.

Он удобен, прост в понимании и чтении кода, имеет множество полезных функций и библиотек для работы с данными.

1. Pandas
Библиотека позволяет загружать, очищать и обрабатывать данные, загружать данные из различных файлов и преобразовывать их в “датафрейм”, с которым в дальнейшем идет работа и его трансформация. Данные представляются в понятном и читаемом виде таблицы, а множество функций и методов позволяют проводить простые и сложные трансформации данных.

2. Pandas Profiling
Еще одна библиотека, которая позволяет в более автоматическом режиме сделать исследование датасета и собрать все базовые метрики.

3. Requests и BeautifulSoup
Библиотеке requests позволяет извлекать данные с помощью запросов API (Application Programming Interface) к приложениям, либо отправлять различные команды приложению через python скрипт. BeautifulSoup позволяет работать с web-страницами формата HTML и XML. Обе библиотеки дают хороший инструментарий для парсинга и извлечения данных.

4. NumPy
Библиотека позволяет использовать математические расчеты и работу с массивами в вашем проекте. Это больше подходит для Data Science задач, где нужны математические инструменты.

5. Plotly и Matplotlib
Библиотеки plotly и matplotlib дают огромный инструментарий построения различных графиков, диаграмм, чартов и т.д. Некоторые графики можно построить с помощью одной строчки кода и предоставить визуализацию коллегам.

6. SciKitLearn, Keras, Pytorch, Tensorflow
Все эти библиотеки используются для работы с машинным обучением. SciKitLearn подойдет больше для построения простых алгоритмов и моделей машинного обучения, в то время как Keras или Pytorch дают более широкий спектр функций для построения нейронных сетей, моделей компьютерного зрения или обработки естественного языка.

7. SQLAlchemy
Библиотека позволяет подключаться к базам данных. Можно создавать, изменять таблицы, писать запросы, извлекать/вставлять данные. Библиотека позволяет работать с базой данных с помощью объектно-ориентированного кода, не используя SQL-запросы.
👍3
ЧТО ТАКОЕ ТРАНЗАКЦИЯ В БАЗЕ ДАННЫХ

🔎 Транзакция — это неделимая (атомарная) операция, которую вы можете произвести с базой.

Неделимая — это значит, что база рассматривает операцию как единое целое. Она или выполняется полностью, или не выполняется вообще.

При этом транзакция может содержать в себе несколько операций. Например, вы можете вставить несколько строк в базу, и всё это будет считаться единой транзакцией. В случае если произошла ошибка, и только часть строк была вставлена в базу, транзакция "откатится", то есть все внесённые изменения будут отменены.

Когда мы выполняем несколько операций в коде, в конце нужно сделать коммит (commit), то есть показать системе, что мы должны выполнить предыдущие операции как единое целое. Каноничный пример транзакции в реальном мире — перевод денег с одного счета на другой в банке. Как происходит перевод:

Система снимает деньги с одного счета.
Система добавляет деньги на другой счет.
Если бы операция перевода не являлась транзакцией, то в случае ошибки между 1 и 2 этапом деньги пропали бы безвозвратно.

На самом деле дело не только в защите от ошибок при удалении, но и, например, в защите от неконсистентности данных. Что это значит? Допустим, вы переводите деньги с одного счета на другой. Допустим, вы хотите заплатить с первого счёта в магазине. Если транзакция еще не завершила первый этап, вы можете случайно подумать (во время другой параллельно идущей операции снятия денег), что денег у вас больше, чем есть на самом деле.

Транзакции подчиняются принципу ACID:

📍Atomic (атомарность) — если произошел коммит, значит, все операции были выполнены;
📍Consistent (консистентность) — можно сделать коммит, только если он удовлетворяет всем ограничениям (например, NOT NULL);
📍Isolated (изолированность) — снаружи транзакции не видно, что происходит внутри, пока не произошел коммит;
📍Durable (долговечность) — независимо от ошибок в системе, транзакция, которая была совершена (то есть, был коммит) останется совершённой, даже если сразу после коммита сервер упадет.
👍1
Если вы часто работаете в Excel, но у вас есть потребность учить Python, можно познакомиться с библиотекой Mito.
Mito позволяет представить данные в виде привычной таблицы и выполнять с ними все те же операции что и в Excel. При этом автоматически будет генерироваться Python код всех операций, выполненных с данными

https://towardsdatascience.com/how-to-analyze-data-using-mito-in-python-4bf817092367
👍31
ЧТО БУДЕТ ПРОИСХОДИТЬ С IT В БЛИЖАЙШЕЕ ВРЕМЯ?

Обстановка на рынке в РФ очень сильно поменялась и будет продолжать меняться. Многие компании временно или полностью останавливают свою деятельность.

IT-специалисты, чью компанию затронула обстановка, скорее всего видят перед собой 2 варианта:

1. Менять работу и искать другую вакансию на рынке
2. Релокация в другую страну, если компания поддерживает это и позволяет работать дальше

Каждый решает сам по своим личным обстоятельствам как поступать. Оба варианта сильно повлияют на дальнейшее развитие рынка IT в стране.

На мой взгляд сценарий будет выглядеть следующим образом:
- из-за большого оттока специалистов зарубеж ещё больше возрастёт нехватка спецов внутри страны
- спрос от компаний будет увеличиваться, следовательно будут привлекать новых работников любыми способами - бонусы, премии, большой соц. пакет (сюда также относятся новости про льготные ипотеки и про отказ от налогов для IT)
- будет рост зарплатных ожиданий, т.к. в сильной позиции чтобы "поторговаться" на интервью будет соискатель, а не работодатель
- получать ЗП в валюте станет сложнее находясь внутри страны, еще один мотиватор для релокации

ИТОГ:
Кто хочет попасть в IT, учитесь и повышайте свои навыки, чтобы получить классный оффер от работодателя. Текущая ситуация совсем не повод опускать руки и перечеркивать все свои планы. Это мотиватор вкладывать как можно больше в себя и в свое развитие.
👍1
Bruce_Bruce_2018_Practical Statistics for Data Scientists.pdf
8.5 MB
Книга "Практическая статистика для специалистов Data Science"
👍3
Вот такая мотивация у нас на кофеаппарате в офисе))))

Не забывайте отдыхать и делать перерывы, всем хороших выходных!

А учеников жду завтра и послезавтра на уроки 🖐
👍2
Наткнулся на один интересный материал про новую версию pandas и возможность ускорения чтения csv файлов. Вот этого как раз последнюю неделю очень не хватает, много задач появилась с применением pandas)
На 1-й скрине запускается обычное чтение, на 2-м чтение с применение engine 'pyarrow'. Там же можно увидеть сравнение в скорости чтения файлов.
Завтра буду тестить в своих задачках 😉
👍12
Для тех кто владеет английским языком, есть прекрасная возможность прослушать лекции по курсу Data Science for Business от Университета НИУ "Высшая Школа Экономики". Лекции доступны на Youtube в открытом доступе.

P.S. Буду проходить этот курс в рамках обучения в магистратуре, стартует со следующего месяца. У вас есть возможность прослушать качественный материал без поступления в универ)

https://youtube.com/playlist?list=PLriUvS7IljvlcLnrvYUyNc9nXhiM9kWjq
👍21🔥7
Всем привет!
Наткнулся на статью, в которой, на мой взгляд, очень точно определён набор навыков для работы аналитиком данных в IT:

1. Работать в Excel-таблицах, группировать, фильтровать данные — на ходу, без перекладывания из таблички в табличку.

2. Уметь писать SQL-запросы.

3. Изучить минимум один язык программирования: Python или R.

4. Делать выводы и представлять результаты в виде интерактивных дашбордов (Tableau, Power BI).

5. Разбираться в бизнес-процессах и понимать ключевые метрики анализа эффективности.

Эта работа связана с такими активностями как

📍Сбор и анализ требований заказчиков к отчетности.

📍Получение данных с помощью языка запросов SQL.

📍Применение в работе ключевых математических методов и основ статистики.

📍Очистка и трансформация данных с помощью Python.

📍Прогнозирование событий на основе данных.

📍Анализ результатов кампаний, исследований и тестирования продуктовых гипотез.

📍Способность создавать аналитические решения и представлять их бизнесу.

Хочу добавить, что помимо перечисленных навыков стоит прокачивать свои навыки в управлении и создании требований: бизнес-требования, функциональные требования, user-story

Всеми из перечисленных навыков владеете?
👍322
​​PostgreSQL. Основы языка SQL: учеб. пособие / Е. П. Моргунов; под ред. Е. В. Рогова, П. В. Лузанова
#литература

В пособии рассматриваются следующие темы:

° Введение в базы данных и SQL
° Создание рабочей среды
° Основные операции с таблицами
° Типы данных СУБД PostgreSQL
° Основы языка определения данных
° Запросы
° Изменение данных
° Индексы
° Транзакции
° Повышение производительности

Скачать книгу можно тут
👍23
Гайд_по_профессии_аналитика_данных.pdf
27.7 MB
Привет!

Как вы помните, я работаю Senior BI Analyst и знакомлю всех заинтересованных с профессией аналитика, в частности с аналитикой данных и бизнес-аналитикой. Делюсь с подписчиками лучшими практиками работы с данными, полезными ссылками и рассказываю как начать осваивать профессию.

📍Сегодня решил раскрыть чуть больше тему Business Intelligence (BI), как это связано с аналитикой и работой с данными. Смотри обновленный гайд по профессии аналитика:

1. Профессия аналитика данных
2. Задачи аналитика данных
3. Необходимые навыки
4. Business Intelligence и виды аналитики 🔥
5. Уровни аналитиков и компетенции
6. Как составить свое первое резюме
7. Как подготовиться к резюме
8. Вакансии аналитика данных (примеры)
9. Ссылки на полезные ресурсы
👍5018🔥9👎2
Ситуация прям очень хорошо описывает необходимость создания документации сделанной работы.

НЕ ВСЕГДА достаточно оставлять комментарии в коде или SQL-запросах при работе с данными. Важно помечать преобразования, условия фильтрации и взаимосвязей (джойнов) данных в понятном и структурированном формате, чтобы даже через месяц можно было посмотреть на доку и вспомнить что было сделано 😁.

На выходных поделюсь разными подходами создания документации в процессе работы 📝
👍28