PYTHON ДЛЯ РАБОТЫ С ДАННЫМИ
🔎 Python - язык программирования, который широко используется и применяется на проектах, связанных с обработкой и анализом данных.
Он удобен, прост в понимании и чтении кода, имеет множество полезных функций и библиотек для работы с данными.
1. Pandas
Библиотека позволяет загружать, очищать и обрабатывать данные, загружать данные из различных файлов и преобразовывать их в “датафрейм”, с которым в дальнейшем идет работа и его трансформация. Данные представляются в понятном и читаемом виде таблицы, а множество функций и методов позволяют проводить простые и сложные трансформации данных.
2. Pandas Profiling
Еще одна библиотека, которая позволяет в более автоматическом режиме сделать исследование датасета и собрать все базовые метрики.
3. Requests и BeautifulSoup
Библиотеке requests позволяет извлекать данные с помощью запросов API (Application Programming Interface) к приложениям, либо отправлять различные команды приложению через python скрипт. BeautifulSoup позволяет работать с web-страницами формата HTML и XML. Обе библиотеки дают хороший инструментарий для парсинга и извлечения данных.
4. NumPy
Библиотека позволяет использовать математические расчеты и работу с массивами в вашем проекте. Это больше подходит для Data Science задач, где нужны математические инструменты.
5. Plotly и Matplotlib
Библиотеки plotly и matplotlib дают огромный инструментарий построения различных графиков, диаграмм, чартов и т.д. Некоторые графики можно построить с помощью одной строчки кода и предоставить визуализацию коллегам.
6. SciKitLearn, Keras, Pytorch, Tensorflow
Все эти библиотеки используются для работы с машинным обучением. SciKitLearn подойдет больше для построения простых алгоритмов и моделей машинного обучения, в то время как Keras или Pytorch дают более широкий спектр функций для построения нейронных сетей, моделей компьютерного зрения или обработки естественного языка.
7. SQLAlchemy
Библиотека позволяет подключаться к базам данных. Можно создавать, изменять таблицы, писать запросы, извлекать/вставлять данные. Библиотека позволяет работать с базой данных с помощью объектно-ориентированного кода, не используя SQL-запросы.
🔎 Python - язык программирования, который широко используется и применяется на проектах, связанных с обработкой и анализом данных.
Он удобен, прост в понимании и чтении кода, имеет множество полезных функций и библиотек для работы с данными.
1. Pandas
Библиотека позволяет загружать, очищать и обрабатывать данные, загружать данные из различных файлов и преобразовывать их в “датафрейм”, с которым в дальнейшем идет работа и его трансформация. Данные представляются в понятном и читаемом виде таблицы, а множество функций и методов позволяют проводить простые и сложные трансформации данных.
2. Pandas Profiling
Еще одна библиотека, которая позволяет в более автоматическом режиме сделать исследование датасета и собрать все базовые метрики.
3. Requests и BeautifulSoup
Библиотеке requests позволяет извлекать данные с помощью запросов API (Application Programming Interface) к приложениям, либо отправлять различные команды приложению через python скрипт. BeautifulSoup позволяет работать с web-страницами формата HTML и XML. Обе библиотеки дают хороший инструментарий для парсинга и извлечения данных.
4. NumPy
Библиотека позволяет использовать математические расчеты и работу с массивами в вашем проекте. Это больше подходит для Data Science задач, где нужны математические инструменты.
5. Plotly и Matplotlib
Библиотеки plotly и matplotlib дают огромный инструментарий построения различных графиков, диаграмм, чартов и т.д. Некоторые графики можно построить с помощью одной строчки кода и предоставить визуализацию коллегам.
6. SciKitLearn, Keras, Pytorch, Tensorflow
Все эти библиотеки используются для работы с машинным обучением. SciKitLearn подойдет больше для построения простых алгоритмов и моделей машинного обучения, в то время как Keras или Pytorch дают более широкий спектр функций для построения нейронных сетей, моделей компьютерного зрения или обработки естественного языка.
7. SQLAlchemy
Библиотека позволяет подключаться к базам данных. Можно создавать, изменять таблицы, писать запросы, извлекать/вставлять данные. Библиотека позволяет работать с базой данных с помощью объектно-ориентированного кода, не используя SQL-запросы.
👍3
ЧТО ТАКОЕ ТРАНЗАКЦИЯ В БАЗЕ ДАННЫХ
🔎 Транзакция — это неделимая (атомарная) операция, которую вы можете произвести с базой.
Неделимая — это значит, что база рассматривает операцию как единое целое. Она или выполняется полностью, или не выполняется вообще.
При этом транзакция может содержать в себе несколько операций. Например, вы можете вставить несколько строк в базу, и всё это будет считаться единой транзакцией. В случае если произошла ошибка, и только часть строк была вставлена в базу, транзакция "откатится", то есть все внесённые изменения будут отменены.
Когда мы выполняем несколько операций в коде, в конце нужно сделать коммит (commit), то есть показать системе, что мы должны выполнить предыдущие операции как единое целое. Каноничный пример транзакции в реальном мире — перевод денег с одного счета на другой в банке. Как происходит перевод:
Система снимает деньги с одного счета.
Система добавляет деньги на другой счет.
Если бы операция перевода не являлась транзакцией, то в случае ошибки между 1 и 2 этапом деньги пропали бы безвозвратно.
На самом деле дело не только в защите от ошибок при удалении, но и, например, в защите от неконсистентности данных. Что это значит? Допустим, вы переводите деньги с одного счета на другой. Допустим, вы хотите заплатить с первого счёта в магазине. Если транзакция еще не завершила первый этап, вы можете случайно подумать (во время другой параллельно идущей операции снятия денег), что денег у вас больше, чем есть на самом деле.
Транзакции подчиняются принципу ACID:
📍Atomic (атомарность) — если произошел коммит, значит, все операции были выполнены;
📍Consistent (консистентность) — можно сделать коммит, только если он удовлетворяет всем ограничениям (например, NOT NULL);
📍Isolated (изолированность) — снаружи транзакции не видно, что происходит внутри, пока не произошел коммит;
📍Durable (долговечность) — независимо от ошибок в системе, транзакция, которая была совершена (то есть, был коммит) останется совершённой, даже если сразу после коммита сервер упадет.
🔎 Транзакция — это неделимая (атомарная) операция, которую вы можете произвести с базой.
Неделимая — это значит, что база рассматривает операцию как единое целое. Она или выполняется полностью, или не выполняется вообще.
При этом транзакция может содержать в себе несколько операций. Например, вы можете вставить несколько строк в базу, и всё это будет считаться единой транзакцией. В случае если произошла ошибка, и только часть строк была вставлена в базу, транзакция "откатится", то есть все внесённые изменения будут отменены.
Когда мы выполняем несколько операций в коде, в конце нужно сделать коммит (commit), то есть показать системе, что мы должны выполнить предыдущие операции как единое целое. Каноничный пример транзакции в реальном мире — перевод денег с одного счета на другой в банке. Как происходит перевод:
Система снимает деньги с одного счета.
Система добавляет деньги на другой счет.
Если бы операция перевода не являлась транзакцией, то в случае ошибки между 1 и 2 этапом деньги пропали бы безвозвратно.
На самом деле дело не только в защите от ошибок при удалении, но и, например, в защите от неконсистентности данных. Что это значит? Допустим, вы переводите деньги с одного счета на другой. Допустим, вы хотите заплатить с первого счёта в магазине. Если транзакция еще не завершила первый этап, вы можете случайно подумать (во время другой параллельно идущей операции снятия денег), что денег у вас больше, чем есть на самом деле.
Транзакции подчиняются принципу ACID:
📍Atomic (атомарность) — если произошел коммит, значит, все операции были выполнены;
📍Consistent (консистентность) — можно сделать коммит, только если он удовлетворяет всем ограничениям (например, NOT NULL);
📍Isolated (изолированность) — снаружи транзакции не видно, что происходит внутри, пока не произошел коммит;
📍Durable (долговечность) — независимо от ошибок в системе, транзакция, которая была совершена (то есть, был коммит) останется совершённой, даже если сразу после коммита сервер упадет.
👍1
ЧТО ИЗМЕНИТСЯ В НАЙМЕ КАНДИДАТОВ В IT в 2022
https://vc.ru/hr/368749-chto-izmenitsya-v-it-rekrutinge-v-2022-godu-osnovnye-trendy
https://vc.ru/hr/368749-chto-izmenitsya-v-it-rekrutinge-v-2022-godu-osnovnye-trendy
vc.ru
Что изменится в IT-рекрутинге в 2022 году? Основные тренды — Карьера на vc.ru
Рынок IT меняется очень быстро, и сегодня мы это ощущаем как никогда. Спрос на IT-специалистов только растет, и с каждым месяцем становится все труднее удовлетворить пожелания кандидатов.
👍1
Полезные материалы для развития навыков коммуникации для аналитиков (Soft skills)
https://vc.ru/hr/367462-kak-it-specialistu-razvit-kommunikativnye-navyki-20-poleznyh-materialov
https://vc.ru/hr/367462-kak-it-specialistu-razvit-kommunikativnye-navyki-20-poleznyh-materialov
vc.ru
Как ИТ-специалисту развить коммуникативные навыки. 20+ полезных материалов — Карьера на vc.ru
Думаю, каждый вспомнит какое-нибудь свое выступление, которое кажется провальным. Вроде и презентацию подготовил, и отрепетировал, но перед началом вдруг предательски дрожит голос, а слова вылетают из головы. В итоге рассказываешь какую-то ерунду… И это на…
👍1
Если вы часто работаете в Excel, но у вас есть потребность учить Python, можно познакомиться с библиотекой Mito.
Mito позволяет представить данные в виде привычной таблицы и выполнять с ними все те же операции что и в Excel. При этом автоматически будет генерироваться Python код всех операций, выполненных с данными
https://towardsdatascience.com/how-to-analyze-data-using-mito-in-python-4bf817092367
Mito позволяет представить данные в виде привычной таблицы и выполнять с ними все те же операции что и в Excel. При этом автоматически будет генерироваться Python код всех операций, выполненных с данными
https://towardsdatascience.com/how-to-analyze-data-using-mito-in-python-4bf817092367
👍3❤1
ЧТО БУДЕТ ПРОИСХОДИТЬ С IT В БЛИЖАЙШЕЕ ВРЕМЯ?
Обстановка на рынке в РФ очень сильно поменялась и будет продолжать меняться. Многие компании временно или полностью останавливают свою деятельность.
IT-специалисты, чью компанию затронула обстановка, скорее всего видят перед собой 2 варианта:
1. Менять работу и искать другую вакансию на рынке
2. Релокация в другую страну, если компания поддерживает это и позволяет работать дальше
Каждый решает сам по своим личным обстоятельствам как поступать. Оба варианта сильно повлияют на дальнейшее развитие рынка IT в стране.
На мой взгляд сценарий будет выглядеть следующим образом:
- из-за большого оттока специалистов зарубеж ещё больше возрастёт нехватка спецов внутри страны
- спрос от компаний будет увеличиваться, следовательно будут привлекать новых работников любыми способами - бонусы, премии, большой соц. пакет (сюда также относятся новости про льготные ипотеки и про отказ от налогов для IT)
- будет рост зарплатных ожиданий, т.к. в сильной позиции чтобы "поторговаться" на интервью будет соискатель, а не работодатель
- получать ЗП в валюте станет сложнее находясь внутри страны, еще один мотиватор для релокации
ИТОГ:
Кто хочет попасть в IT, учитесь и повышайте свои навыки, чтобы получить классный оффер от работодателя. Текущая ситуация совсем не повод опускать руки и перечеркивать все свои планы. Это мотиватор вкладывать как можно больше в себя и в свое развитие.
Обстановка на рынке в РФ очень сильно поменялась и будет продолжать меняться. Многие компании временно или полностью останавливают свою деятельность.
IT-специалисты, чью компанию затронула обстановка, скорее всего видят перед собой 2 варианта:
1. Менять работу и искать другую вакансию на рынке
2. Релокация в другую страну, если компания поддерживает это и позволяет работать дальше
Каждый решает сам по своим личным обстоятельствам как поступать. Оба варианта сильно повлияют на дальнейшее развитие рынка IT в стране.
На мой взгляд сценарий будет выглядеть следующим образом:
- из-за большого оттока специалистов зарубеж ещё больше возрастёт нехватка спецов внутри страны
- спрос от компаний будет увеличиваться, следовательно будут привлекать новых работников любыми способами - бонусы, премии, большой соц. пакет (сюда также относятся новости про льготные ипотеки и про отказ от налогов для IT)
- будет рост зарплатных ожиданий, т.к. в сильной позиции чтобы "поторговаться" на интервью будет соискатель, а не работодатель
- получать ЗП в валюте станет сложнее находясь внутри страны, еще один мотиватор для релокации
ИТОГ:
Кто хочет попасть в IT, учитесь и повышайте свои навыки, чтобы получить классный оффер от работодателя. Текущая ситуация совсем не повод опускать руки и перечеркивать все свои планы. Это мотиватор вкладывать как можно больше в себя и в свое развитие.
👍1
Bruce_Bruce_2018_Practical Statistics for Data Scientists.pdf
8.5 MB
Книга "Практическая статистика для специалистов Data Science"
👍3
Статья про soft-навыки, которые важно развивать IT-специалистам
https://vc.ru/hr/370050-kakie-soft-skily-stoit-razvivat-it-specialistam-v-2022-godu-atstrateh76
https://vc.ru/hr/370050-kakie-soft-skily-stoit-razvivat-it-specialistam-v-2022-godu-atstrateh76
vc.ru
Какие софт скилы стоит развивать IT специалистам в 2022 году? | @strateh76 — Карьера на vc.ru
Софт скилы очень важны для любого разработчика поскольку помогают успешно проходить собеседования, стимулируют более быстрый карьерный рост и улучшают внутренние процессы в команде. Они не менее важны чем хард скилы и это при том, что часто разработчики пренебрегают…
👍2
РЕСУРСЫ ДЛЯ ИЗУЧЕНИЯ GIT И GITHUB
1. Статья про использование Git/Github:
https://vc.ru/flood/45035-znakomstvo-s-github?ysclid=l0zionhi4x
2. Статья из 2 частей как начать работать с Git: https://habr.com/ru/post/541258/
3. Практический видео-урок по основам Git и GitHub (про GitHub можно найти со времени 34:00): https://youtu.be/zZBiln_2FhM
1. Статья про использование Git/Github:
https://vc.ru/flood/45035-znakomstvo-s-github?ysclid=l0zionhi4x
2. Статья из 2 частей как начать работать с Git: https://habr.com/ru/post/541258/
3. Практический видео-урок по основам Git и GitHub (про GitHub можно найти со времени 34:00): https://youtu.be/zZBiln_2FhM
vc.ru
Знакомство с GitHub — Офтоп на vc.ru
GitHub - это веб-сервис, на котором размещены миллиарды строк кода, и каждый день миллионы программистов со всего мира собираются вместе для совместной разработки IT проектов с открытым исходным кодом.
👍2
Наткнулся на один интересный материал про новую версию pandas и возможность ускорения чтения csv файлов. Вот этого как раз последнюю неделю очень не хватает, много задач появилась с применением pandas)
На 1-й скрине запускается обычное чтение, на 2-м чтение с применение engine 'pyarrow'. Там же можно увидеть сравнение в скорости чтения файлов.
Завтра буду тестить в своих задачках 😉
На 1-й скрине запускается обычное чтение, на 2-м чтение с применение engine 'pyarrow'. Там же можно увидеть сравнение в скорости чтения файлов.
Завтра буду тестить в своих задачках 😉
👍12
Привет!
Обещал поделиться кодом мини-проекта на pyspark. Ссылка на репозиторий: https://github.com/daniildzheparov999/Research_Seminar_Spark
Обещал поделиться кодом мини-проекта на pyspark. Ссылка на репозиторий: https://github.com/daniildzheparov999/Research_Seminar_Spark
GitHub
GitHub - daniildzheparov999/Research_Seminar_Spark
Contribute to daniildzheparov999/Research_Seminar_Spark development by creating an account on GitHub.
👍6
Для тех кто владеет английским языком, есть прекрасная возможность прослушать лекции по курсу Data Science for Business от Университета НИУ "Высшая Школа Экономики". Лекции доступны на Youtube в открытом доступе.
P.S. Буду проходить этот курс в рамках обучения в магистратуре, стартует со следующего месяца. У вас есть возможность прослушать качественный материал без поступления в универ)
https://youtube.com/playlist?list=PLriUvS7IljvlcLnrvYUyNc9nXhiM9kWjq
P.S. Буду проходить этот курс в рамках обучения в магистратуре, стартует со следующего месяца. У вас есть возможность прослушать качественный материал без поступления в универ)
https://youtube.com/playlist?list=PLriUvS7IljvlcLnrvYUyNc9nXhiM9kWjq
YouTube
Data Science for Business
Data Science for Business course at HSE 2020 Course website: https://www.leonidzhukov.net/hse/2020/datascience/ HSE catalog: https://www.hse.ru/en/edu/courses...
👍21🔥7
Всем привет!
Наткнулся на статью, в которой, на мой взгляд, очень точно определён набор навыков для работы аналитиком данных в IT:
1. Работать в Excel-таблицах, группировать, фильтровать данные — на ходу, без перекладывания из таблички в табличку.
2. Уметь писать SQL-запросы.
3. Изучить минимум один язык программирования: Python или R.
4. Делать выводы и представлять результаты в виде интерактивных дашбордов (Tableau, Power BI).
5. Разбираться в бизнес-процессах и понимать ключевые метрики анализа эффективности.
Эта работа связана с такими активностями как
📍Сбор и анализ требований заказчиков к отчетности.
📍Получение данных с помощью языка запросов SQL.
📍Применение в работе ключевых математических методов и основ статистики.
📍Очистка и трансформация данных с помощью Python.
📍Прогнозирование событий на основе данных.
📍Анализ результатов кампаний, исследований и тестирования продуктовых гипотез.
📍Способность создавать аналитические решения и представлять их бизнесу.
Хочу добавить, что помимо перечисленных навыков стоит прокачивать свои навыки в управлении и создании требований: бизнес-требования, функциональные требования, user-story
Всеми из перечисленных навыков владеете?
Наткнулся на статью, в которой, на мой взгляд, очень точно определён набор навыков для работы аналитиком данных в IT:
1. Работать в Excel-таблицах, группировать, фильтровать данные — на ходу, без перекладывания из таблички в табличку.
2. Уметь писать SQL-запросы.
3. Изучить минимум один язык программирования: Python или R.
4. Делать выводы и представлять результаты в виде интерактивных дашбордов (Tableau, Power BI).
5. Разбираться в бизнес-процессах и понимать ключевые метрики анализа эффективности.
Эта работа связана с такими активностями как
📍Сбор и анализ требований заказчиков к отчетности.
📍Получение данных с помощью языка запросов SQL.
📍Применение в работе ключевых математических методов и основ статистики.
📍Очистка и трансформация данных с помощью Python.
📍Прогнозирование событий на основе данных.
📍Анализ результатов кампаний, исследований и тестирования продуктовых гипотез.
📍Способность создавать аналитические решения и представлять их бизнесу.
Хочу добавить, что помимо перечисленных навыков стоит прокачивать свои навыки в управлении и создании требований: бизнес-требования, функциональные требования, user-story
Всеми из перечисленных навыков владеете?
👍32❤2
Forwarded from Базы данных & SQL
PostgreSQL. Основы языка SQL: учеб. пособие / Е. П. Моргунов; под ред. Е. В. Рогова, П. В. Лузанова
#литература
В пособии рассматриваются следующие темы:
° Введение в базы данных и SQL
° Создание рабочей среды
° Основные операции с таблицами
° Типы данных СУБД PostgreSQL
° Основы языка определения данных
° Запросы
° Изменение данных
° Индексы
° Транзакции
° Повышение производительности
Скачать книгу можно тут
#литература
В пособии рассматриваются следующие темы:
° Введение в базы данных и SQL
° Создание рабочей среды
° Основные операции с таблицами
° Типы данных СУБД PostgreSQL
° Основы языка определения данных
° Запросы
° Изменение данных
° Индексы
° Транзакции
° Повышение производительности
Скачать книгу можно тут
👍23
Гайд_по_профессии_аналитика_данных.pdf
27.7 MB
Привет!
Как вы помните, я работаю Senior BI Analyst и знакомлю всех заинтересованных с профессией аналитика, в частности с аналитикой данных и бизнес-аналитикой. Делюсь с подписчиками лучшими практиками работы с данными, полезными ссылками и рассказываю как начать осваивать профессию.
📍Сегодня решил раскрыть чуть больше тему Business Intelligence (BI), как это связано с аналитикой и работой с данными. Смотри обновленный гайд по профессии аналитика:
1. Профессия аналитика данных
2. Задачи аналитика данных
3. Необходимые навыки
4. Business Intelligence и виды аналитики 🔥
5. Уровни аналитиков и компетенции
6. Как составить свое первое резюме
7. Как подготовиться к резюме
8. Вакансии аналитика данных (примеры)
9. Ссылки на полезные ресурсы
Как вы помните, я работаю Senior BI Analyst и знакомлю всех заинтересованных с профессией аналитика, в частности с аналитикой данных и бизнес-аналитикой. Делюсь с подписчиками лучшими практиками работы с данными, полезными ссылками и рассказываю как начать осваивать профессию.
📍Сегодня решил раскрыть чуть больше тему Business Intelligence (BI), как это связано с аналитикой и работой с данными. Смотри обновленный гайд по профессии аналитика:
1. Профессия аналитика данных
2. Задачи аналитика данных
3. Необходимые навыки
4. Business Intelligence и виды аналитики 🔥
5. Уровни аналитиков и компетенции
6. Как составить свое первое резюме
7. Как подготовиться к резюме
8. Вакансии аналитика данных (примеры)
9. Ссылки на полезные ресурсы
👍50❤18🔥9👎2
Одна из главных задач аналитика - проведения исследования данных или data profiling.
Что это такое и почему это важный шаг каждого data-проекта, расписал в статье
https://zen.yandex.ru/media/id/623c6c3fb20595685d8b345f/profiling-dannyh-chto-eto-i-zachem-on-nujen-62489bbc4b15af5340523d3d
Что это такое и почему это важный шаг каждого data-проекта, расписал в статье
https://zen.yandex.ru/media/id/623c6c3fb20595685d8b345f/profiling-dannyh-chto-eto-i-zachem-on-nujen-62489bbc4b15af5340523d3d
Яндекс Дзен
Profiling данных - что это и зачем он нужен?
Ни один проект связанный с данными не обходится без стадии Data Profiling. Давайте разбираться что это такое. Data Profiling - это процесс исследования данных, понимания структуры, взаимосвязей, контекста и возможного применения этих данных в дальнейшем анализе.…
👍15
Ситуация прям очень хорошо описывает необходимость создания документации сделанной работы.
НЕ ВСЕГДА достаточно оставлять комментарии в коде или SQL-запросах при работе с данными. Важно помечать преобразования, условия фильтрации и взаимосвязей (джойнов) данных в понятном и структурированном формате, чтобы даже через месяц можно было посмотреть на доку и вспомнить что было сделано 😁.
На выходных поделюсь разными подходами создания документации в процессе работы 📝
НЕ ВСЕГДА достаточно оставлять комментарии в коде или SQL-запросах при работе с данными. Важно помечать преобразования, условия фильтрации и взаимосвязей (джойнов) данных в понятном и структурированном формате, чтобы даже через месяц можно было посмотреть на доку и вспомнить что было сделано 😁.
На выходных поделюсь разными подходами создания документации в процессе работы 📝
👍28