Аналитика данных / Data Study
8.44K subscribers
405 photos
38 videos
24 files
329 links
Сайт: https://datastudy.ru/
По всем вопросам: @daniildzheparov

Про аналитику и инженерию данных

Вакансии: https://t.iss.one/data_vacancy
Книги: https://t.iss.one/analyst_books
Download Telegram
КАК НАЙТИ ВАКАНСИЮ В IT

Существует множество ресурсов и способов поиска работы в IT.

Но на что обращать внимание при поиске вакансии?

1. Описание компании и проекта

Смотрите на то, чем занимается компания, в какой проект открыта вакансия и самое главное, совпадают ли ваши интересы с той областью, в которой предстоит работать. Бывает, что в вакансии не описан конкретный проект - это нормально. Компании обычно ищут сотрудников на длительное сотрудничество и набирают штат не на определенные проекты, а просто в компанию, чтобы потом по необходимости и интересам сотрудника определить его на тот или иной проект.

2. Описание обязанностей

Важный пункт, который даёт понять кандидату, что от него ждут и какими навыками нужно обладать кандидату. Если обязанности расписаны общими словами: “быть ответственным и выполнять работу всегда качественно” - это не всегда полезное описание. Такие обязанности должны восприниматься как само собой выполняемые, вы должны обращать внимание на именно те задачи и обязанности, которые вы будете делать на работе. Например, «общаться с бизнес-пользователями, документировать требования в виде ТЗ для команды разработки». Здесь становится понятно, какие навыки нужно применять на данной работе.

3. Инструменты и стек применяемых технологий

Читая эту часть вакансии, задавайте себе вопрос: умею ли я работать с этими инструментами или мне нужно подтянуть свои знания? Самый простой пример: вы умеете работать в Power BI, а для вакансии требуются знания Tableau. Можно попробовать до интервью посмотреть обзоры и почитать документацию необходимых инструментов, если знания нужны только начальные и вас будут готовы обучить. Но если требуется именно специалист, то скорее всего нужно отложить эту вакансию в сторону или взяться всерьёз за обучение инструменту.

4. Предложение для соискателя

Ну и конечно тот пункт, который привлекает ваше внимание и иногда выглядит очень сладко.
Обязательно обрати внимание на
- Официальное оформление по ТК РФ
- График работы
- Условия получения ЗП, премий и бонусов
- Социальный пакет
- Все остальное, что для ВАС важно
👍1
PYTHON ДЛЯ РАБОТЫ С ДАННЫМИ

🔎 Python - язык программирования, который широко используется и применяется на проектах, связанных с обработкой и анализом данных.

Он удобен, прост в понимании и чтении кода, имеет множество полезных функций и библиотек для работы с данными.

1. Pandas
Библиотека позволяет загружать, очищать и обрабатывать данные, загружать данные из различных файлов и преобразовывать их в “датафрейм”, с которым в дальнейшем идет работа и его трансформация. Данные представляются в понятном и читаемом виде таблицы, а множество функций и методов позволяют проводить простые и сложные трансформации данных.

2. Pandas Profiling
Еще одна библиотека, которая позволяет в более автоматическом режиме сделать исследование датасета и собрать все базовые метрики.

3. Requests и BeautifulSoup
Библиотеке requests позволяет извлекать данные с помощью запросов API (Application Programming Interface) к приложениям, либо отправлять различные команды приложению через python скрипт. BeautifulSoup позволяет работать с web-страницами формата HTML и XML. Обе библиотеки дают хороший инструментарий для парсинга и извлечения данных.

4. NumPy
Библиотека позволяет использовать математические расчеты и работу с массивами в вашем проекте. Это больше подходит для Data Science задач, где нужны математические инструменты.

5. Plotly и Matplotlib
Библиотеки plotly и matplotlib дают огромный инструментарий построения различных графиков, диаграмм, чартов и т.д. Некоторые графики можно построить с помощью одной строчки кода и предоставить визуализацию коллегам.

6. SciKitLearn, Keras, Pytorch, Tensorflow
Все эти библиотеки используются для работы с машинным обучением. SciKitLearn подойдет больше для построения простых алгоритмов и моделей машинного обучения, в то время как Keras или Pytorch дают более широкий спектр функций для построения нейронных сетей, моделей компьютерного зрения или обработки естественного языка.

7. SQLAlchemy
Библиотека позволяет подключаться к базам данных. Можно создавать, изменять таблицы, писать запросы, извлекать/вставлять данные. Библиотека позволяет работать с базой данных с помощью объектно-ориентированного кода, не используя SQL-запросы.
👍3
ЧТО ТАКОЕ ТРАНЗАКЦИЯ В БАЗЕ ДАННЫХ

🔎 Транзакция — это неделимая (атомарная) операция, которую вы можете произвести с базой.

Неделимая — это значит, что база рассматривает операцию как единое целое. Она или выполняется полностью, или не выполняется вообще.

При этом транзакция может содержать в себе несколько операций. Например, вы можете вставить несколько строк в базу, и всё это будет считаться единой транзакцией. В случае если произошла ошибка, и только часть строк была вставлена в базу, транзакция "откатится", то есть все внесённые изменения будут отменены.

Когда мы выполняем несколько операций в коде, в конце нужно сделать коммит (commit), то есть показать системе, что мы должны выполнить предыдущие операции как единое целое. Каноничный пример транзакции в реальном мире — перевод денег с одного счета на другой в банке. Как происходит перевод:

Система снимает деньги с одного счета.
Система добавляет деньги на другой счет.
Если бы операция перевода не являлась транзакцией, то в случае ошибки между 1 и 2 этапом деньги пропали бы безвозвратно.

На самом деле дело не только в защите от ошибок при удалении, но и, например, в защите от неконсистентности данных. Что это значит? Допустим, вы переводите деньги с одного счета на другой. Допустим, вы хотите заплатить с первого счёта в магазине. Если транзакция еще не завершила первый этап, вы можете случайно подумать (во время другой параллельно идущей операции снятия денег), что денег у вас больше, чем есть на самом деле.

Транзакции подчиняются принципу ACID:

📍Atomic (атомарность) — если произошел коммит, значит, все операции были выполнены;
📍Consistent (консистентность) — можно сделать коммит, только если он удовлетворяет всем ограничениям (например, NOT NULL);
📍Isolated (изолированность) — снаружи транзакции не видно, что происходит внутри, пока не произошел коммит;
📍Durable (долговечность) — независимо от ошибок в системе, транзакция, которая была совершена (то есть, был коммит) останется совершённой, даже если сразу после коммита сервер упадет.
👍1
Если вы часто работаете в Excel, но у вас есть потребность учить Python, можно познакомиться с библиотекой Mito.
Mito позволяет представить данные в виде привычной таблицы и выполнять с ними все те же операции что и в Excel. При этом автоматически будет генерироваться Python код всех операций, выполненных с данными

https://towardsdatascience.com/how-to-analyze-data-using-mito-in-python-4bf817092367
👍31
ЧТО БУДЕТ ПРОИСХОДИТЬ С IT В БЛИЖАЙШЕЕ ВРЕМЯ?

Обстановка на рынке в РФ очень сильно поменялась и будет продолжать меняться. Многие компании временно или полностью останавливают свою деятельность.

IT-специалисты, чью компанию затронула обстановка, скорее всего видят перед собой 2 варианта:

1. Менять работу и искать другую вакансию на рынке
2. Релокация в другую страну, если компания поддерживает это и позволяет работать дальше

Каждый решает сам по своим личным обстоятельствам как поступать. Оба варианта сильно повлияют на дальнейшее развитие рынка IT в стране.

На мой взгляд сценарий будет выглядеть следующим образом:
- из-за большого оттока специалистов зарубеж ещё больше возрастёт нехватка спецов внутри страны
- спрос от компаний будет увеличиваться, следовательно будут привлекать новых работников любыми способами - бонусы, премии, большой соц. пакет (сюда также относятся новости про льготные ипотеки и про отказ от налогов для IT)
- будет рост зарплатных ожиданий, т.к. в сильной позиции чтобы "поторговаться" на интервью будет соискатель, а не работодатель
- получать ЗП в валюте станет сложнее находясь внутри страны, еще один мотиватор для релокации

ИТОГ:
Кто хочет попасть в IT, учитесь и повышайте свои навыки, чтобы получить классный оффер от работодателя. Текущая ситуация совсем не повод опускать руки и перечеркивать все свои планы. Это мотиватор вкладывать как можно больше в себя и в свое развитие.
👍1
Bruce_Bruce_2018_Practical Statistics for Data Scientists.pdf
8.5 MB
Книга "Практическая статистика для специалистов Data Science"
👍3
Вот такая мотивация у нас на кофеаппарате в офисе))))

Не забывайте отдыхать и делать перерывы, всем хороших выходных!

А учеников жду завтра и послезавтра на уроки 🖐
👍2
Наткнулся на один интересный материал про новую версию pandas и возможность ускорения чтения csv файлов. Вот этого как раз последнюю неделю очень не хватает, много задач появилась с применением pandas)
На 1-й скрине запускается обычное чтение, на 2-м чтение с применение engine 'pyarrow'. Там же можно увидеть сравнение в скорости чтения файлов.
Завтра буду тестить в своих задачках 😉
👍12
Для тех кто владеет английским языком, есть прекрасная возможность прослушать лекции по курсу Data Science for Business от Университета НИУ "Высшая Школа Экономики". Лекции доступны на Youtube в открытом доступе.

P.S. Буду проходить этот курс в рамках обучения в магистратуре, стартует со следующего месяца. У вас есть возможность прослушать качественный материал без поступления в универ)

https://youtube.com/playlist?list=PLriUvS7IljvlcLnrvYUyNc9nXhiM9kWjq
👍21🔥7
Всем привет!
Наткнулся на статью, в которой, на мой взгляд, очень точно определён набор навыков для работы аналитиком данных в IT:

1. Работать в Excel-таблицах, группировать, фильтровать данные — на ходу, без перекладывания из таблички в табличку.

2. Уметь писать SQL-запросы.

3. Изучить минимум один язык программирования: Python или R.

4. Делать выводы и представлять результаты в виде интерактивных дашбордов (Tableau, Power BI).

5. Разбираться в бизнес-процессах и понимать ключевые метрики анализа эффективности.

Эта работа связана с такими активностями как

📍Сбор и анализ требований заказчиков к отчетности.

📍Получение данных с помощью языка запросов SQL.

📍Применение в работе ключевых математических методов и основ статистики.

📍Очистка и трансформация данных с помощью Python.

📍Прогнозирование событий на основе данных.

📍Анализ результатов кампаний, исследований и тестирования продуктовых гипотез.

📍Способность создавать аналитические решения и представлять их бизнесу.

Хочу добавить, что помимо перечисленных навыков стоит прокачивать свои навыки в управлении и создании требований: бизнес-требования, функциональные требования, user-story

Всеми из перечисленных навыков владеете?
👍322
​​PostgreSQL. Основы языка SQL: учеб. пособие / Е. П. Моргунов; под ред. Е. В. Рогова, П. В. Лузанова
#литература

В пособии рассматриваются следующие темы:

° Введение в базы данных и SQL
° Создание рабочей среды
° Основные операции с таблицами
° Типы данных СУБД PostgreSQL
° Основы языка определения данных
° Запросы
° Изменение данных
° Индексы
° Транзакции
° Повышение производительности

Скачать книгу можно тут
👍23