Аналитика данных / Data Study
8.45K subscribers
404 photos
38 videos
24 files
328 links
Сайт: https://datastudy.ru/
По всем вопросам: @daniildzheparov

Про аналитику и инженерию данных

Вакансии: https://t.iss.one/data_vacancy
Книги: https://t.iss.one/analyst_books
Download Telegram
Анализ навыков data-специализаций в вакансиях HH.ru

Уже много времени прошло с поста, в котором поделился с вами идеей проекта по анализу навыков на основе данных вакансий. Мне было интересно проанализировать вакансии и сделать анализ, на каких позициях и на каком уровне требуют те или иные навыки, также пост про это набрал очень много реакций.

Дошли руки все таки довести этот мини-проект до какой-то логической точки и оформить свою работу в виде статьи.
Переходите, читайте, там есть все шаги работы с ссылками на репозиторий с кодом, а также на получившийся дашборд.

Буду очень рад, если поделитесь статьей и дашбордом со своими коллегами, знакомыми, ну и в публичных каналах/чатах на эту тему 😉

Читать статью

Desktop версия дашборда
Mobile версия дашборда
🔥36👍93😁1
А у вас есть пушистые помощники на рабочем месте?)

Мне Маркиза постоянно напоминает о себе, чтобы не перерабатывать, а то кошке внимания меньше достается 😅
44🥰9👍2🔥1
Привет!

Зарегистрировался сегодня как участник конференции Arenaday. Основная тема конференции - разбор успешных кейсов построения DWH с использованием разных технологий, таких как Greenplum, Hadoop, ClickHouse ...

Посмотрел по программе, что будет много интересных докладов от больших компаний, будут рассказывать про свои подходы построения платформ данных

Конференция проходит в гибридном формате: онлайн + офлайн. А это значит, что в офлайне будет много различных активностей помимо докладов:
- Нетворкинг
- Новости про технические продукты на базе Greenplum 7, Impala, Lake House, Cloud
- Открытые дискуссии по проблематике проектов, реализованных в облаках
- Обсуждение трендов работы с данными и обзор состояния рынка данных в России.

Мероприятие бесплатное, только успейте зарегистрироваться, особенно если хотите попасть в офлайн формате 😉
👍145
Я всегда рекомендую своих сильных и замотивированных найти работу учеников работодателям. Обычно это рекомендация внутри своей же компании, либо рекомендация рекрутерам, которые пишут мне в личку.

Подумал, а почему бы не устроить формат сотрудничества с разными компаниями, в которые нужно обеспечивать приток классных ребят, готовых развиваться дальше в сфере Data.

Какая польза для компаний:
сильные junior+ специалисты (иногда даже middle, а с будущим курсом буду middle точно готовить). ребята знают на практике как работать с SQL, Python, Git, BI (Superset, Datalens), умеют решать аналитические задачи, а не просто писать код в песочнице и тренажеры с автопроверкой ответов

упрощенный поиск и сокращение расходов на найм. эту схему используют крупные корпорации и делают коллаборации с ВУЗами, онлайн-школами. Это не подготовка ребят к конкретной компании, а возможность компании получить быстро список отличных кандидатов, не тратя ресурсы на скрининг с внешнего рынка

Какая польза для учеников:
сократить время на поиск работы. в среднем поиск занимает 1-1.5 месяца после курса, с компаниями-партнерами это время может сократиться в 2 раза при желании.

контакты сильных технологических компании на рынке. как правило junior специалистов могут себе позволить нанимать технически устоявшиеся компании. как результат, в компании есть специалисты разных уровней. в таком коллективе новичкам будет проще первое время пройти адаптацию и вырасти на дальнейшие грейды.

Какая польза для Data Study:
повышение количества учеников на входе желающих найти работу и на выпуске нашедших работу за короткий срок. упрощение поиска работы учеников - одна из моих задач. с одной стороны для этого мы изучаем hard навыки, чтобы ученики были в себе уверенны технически. сейчас пришла пора второй стороны - сотрудничество с работодателями.

сделать Data Study узнаваемым учебным проектом среди работодателей, которые будут сами спрашивать "когда следующий выпуск учеников можно брать на работу?!" 😅

мне приятно получать от учеников сообщения с их успехами в поиске работы и получении офферов. получается делаю это в том числе для моего личного счастья) 😊

P.S.: это не значит никаких 100% гарантий трудоустройства после обучения. У всех в любом случае будет свой путь трудоустройства, но который мы вместе попробуем упростить и сделать полезным видом сотрудничества 👍

Завтра подумаю как такой колаб оформить удобно для компаний и учеников, а сейчас пока просто решил зафиксировать мысли, чтобы не убежали)
👍30🔥105
Функции и Хранимые процедуры SQL

🔎 Функция SQL предназначена для выполнения логики над данными с учетом входных параметров функции и возвращения одного значения, которое может быть либо скалярным (например, строка, число), либо табличным (набор строк). Функции обычно вызываются как часть выражения в SQL запросах и могут использоваться, например, для вычисления значения колонки, условий фильтрации в WHERE или как часть JOIN. Т.е. функции обычно включают в себя выполнение SELECT запросов, либо применение логических, математических функций с заданными параметрами.

🔎 Хранимая процедура включает в себя набор инструкций SQL, который сохранен под определенным именем и выполняется как единая операция. Хранимые процедуры могут принимать входные параметры, выполнять комплексные операции, включать логику управления потоком (например, условные конструкции IF и циклы LOOP), выполнять операции DML (create, insert, delete).

✏️ Сравнение функций и хранимых процедур:
1. Возвращаемые значения:
- Функции: Всегда возвращают значение. Функция может возвращать одно значение (скалярное) или набор строк (таблицу). Возвращаемый тип данных должен быть указан при определении функции.
- Хранимые процедуры: Не обязательно возвращают значения. В PostgreSQL, процедуры могут возвращать результат через выходные параметры (OUT), но они могут также быть использованы для выполнения операций без возвращения данных.

2. Вызов:
- Функции: Могут вызываться внутри SELECT запросов, либо вызываться как результат самого запроса, например SELECT название_функции()
- Хранимые процедуры: Вызов хранимой процедуры выполняется командой CALL название_процедуры()

3. Транзакции:
- Функции: Обычно выполняются внутри транзакции вызывающего запроса и не могут управлять транзакциями самостоятельно (не могут выполнять команды COMMIT и ROLLBACK).
- Хранимые процедуры: Могут включать команды управления транзакциями. Это позволяет процедурам выполнять несколько транзакций в рамках одного вызова.

4. Использование:
- Функции: часто используются в запросах SQL как часть выражения в SELECT, WHERE или JOIN и для вычислений, которые требуют возвращения результата.
- Хранимые процедуры: чаще используются для выполнения набора действий, которые могут включать несколько разных SQL операций, включая изменение схемы, обновление данных, управление пользователями и т. д.

Статьи на эту тему:
📍 Функции и хранимые процедуры в SQL: зачем нужны и как применять в реальных примерах
📍Документация функций PostgreSQL
📍Документация процедур PostgreSQL
📍Stored Procedure vs Function in PostgreSQL
🔥14👍94
Всем привет!

Недавно писал мысли про сотрудничество с разными компаниями в рамках вакансий, стажировок для моих студентов Data Study.

Первый шаг - запуск открытого канала с вакансиями в области Data

Я решил запустить канал с вакансиями @data_vacancy, в котором в удобном, стандартизированном формате будут публиковаться вакансии и стажировки. Этот канал для работодателей и соискателей в области Data вакансий:
📍Аналитик данных
📍Инженер данных
📍DWH аналитик/разработчик
📍BI аналитик/разработчик
📍Data Scientist
📍ML/AI разработчики
📍Менеджерские/руководящие позиции в Data проекты

Для работодателей
Чтобы опубликовать вакансию в канале, заполните форму в нужном формате, после заполнения вакансия опубликуется автоматически в ближайшее время.

Всем успешного поиска!
P.S. делитесь этим каналом со своими коллегами, знакомыми, друзьями, таким образом в нем будут собираться все самые крутые и актуальные вакансии 😉
🔥18👍2
Немного спойлерну как прошел сегодняшний вечер 🔥

Завтра распишу подробней со своими эмоциями
🔥10
Привет!
Вчера ученики 8 потока курса "Основы анализа данных" защитили свои проекты, успешно завершили обучение и некоторые уже монетизировали свои знания 🎉

Каждый раз планка проектов поднимается все выше и выше, у ребят получились очень разносторонние и технически проработанные проекты. Расскажу про парочку ⤵️

📍Разработка BI-отчета для сети фотостудий на основе данных CRM-системы
Анастасия в процессе обучения решила развиваться в сторону реализации проектов для заказчиков, и в качестве выпускного проекта реализовала уже работающий прототип
1. реализовала интеграцию с CRM системой для получения данных по API
2. создала эффективную модель данных в Postgres для хранения данных из CRM и других источников, разработала витрину для аналитики
3. разработала прототип дашборда в Superset

Самое важное - этот проект является полноценным заказом от владельца фотостудий и Анастасия уже получила за него предоплату!
А сейчас у нее на очереди уже есть следующий проект и заказчик, верю в Анастасию и желаю ей успехов! 😃


Накидайте 🔥 и в следующем посте расскажу про еще один крутой проект с применением GPT
🔥70👍1
Следующий проект ученика ⤵️

📍Генерация кратких обзоров статей на основе полного текста
Проект Алёны также имеет уже конечный продукт и дальнейший потенциал развития. Идея с одной стороны очень простая, но широко применимая в разных областях. Из полных текстов зарубежных статей готовить краткий пересказ с использованием GPT и публиковать посты в телеграм-канал.

1. реализован парсер сайта с текстом статей
2. статьи сохраняются в базу данных
3. используется API и разработанный промпт GPT для создания короткого пересказа и перевода с английского на русский
4. с помощью API бота в telegram реализован постинг этих статей в канал @NewsSummariesHub

вы наверняка сталкивались с сервисами разных компаний по подготовке краткого пересказа по тексту или видео (в том числе в Яндекс Браузере), а значит это пользуется спросом и может быть применено для разных задач: от автоматического ведения канала в телеграм с интересными новостями до задач оптимизации документооборота в компаниях

Подписывайтесь на канал Алёны с автопостингом интересных статей @NewsSummariesHub
Ей будет приятно и появится дополнительный стимул продолжать развивать проект 😉

Накидайте тоже 🔥
🔥39👍21
И самая Важная Информация для Вас! 🥳

Если вы не хотите оттягивать время до набора в следующий поток, хотите уже сейчас начать погружаться в Аналитику Данных, получать первые заказы на фрилансе и первые офферы от компаний - то есть возможность получить онлайн курс Основы Анализа Данных уже сейчас по очень выгодной цене 😉

35 онлайн уроков по темам:
✔️Теория Баз данных,
✔️Модели данных,
✔️Хранилища Данных,
✔️ETL/ELT,
✔️SQL
✔️Python
✔️BI и Визуализация данных
✔️Git, Jira/Confluence/Notion
✔️Практические домашние задания
🎁Дополнительный урок про поиск работы и составление резюме

По окончанию курса у вас будут все знания и инструменты для того, чтобы осуществить проекты, которые выполнили ребята выше, появится возможность устроиться на позицию Аналитик данных (junior) и вы сможете начать выполнять проекты от заказчиков 🔥

Только до 28 апреля цена 25000 22 000 📆

Не откладывай на потом, то что можешь сделать сейчас ⤵️
https://datastudy.ru/1#rec485669383
👍7🔥2🎉1
Подборка материалов для изучения Python

Друг попросил прислать материалы по Python, которые можно изучить для развития своих навыков программирования. Собрал порцию материала, решил а почему бы не поделиться здесь, явно кому-то будет тоже полезно 😉

📍Плейлист с основами программирования на Python (переменные, циклы, условные операторы, структуры данных и др.)
📍Плейлист с уроками по библиотекам Python (pandas + библиотеки парсинга scrapy, selenium, bs4)
📍Анализ данных с помощью pandas
📍Python для работы с Apache Airflow (на английском)

По теме Django и разработки web-приложений
📍Плейлист c уроками по Django
📍Другой плейлист с уроками по Django
📍Плейлист с уроками по FastAPI

Асинхронность и другие классные темы
📍Канал Диджитализируй (смотрел на нем видео про асинхронность и оптимизацию работы с памятью)
📍Видео про асинхронный парсинг

P.S. лично я сейчас в свободное время изучаю Django, мне нравится какие возможности дает фреймворк, также помогает переключить мозг с SQL, на котором необходимо много писать в рамках работы и проектов
26🔥9
Отвечу на вопрос про 9 поток - он будет зимой

Я беру перерыв в плане набора группы, чтобы создать другой продукт 🤓🧑‍💻

Поэтому кто желает уже сейчас идти учиться и иметь доступ к материалам - пользуйтесь скидкой на онлайн-тариф
👍5😁2
Нереляционные базы данных (NoSQL = Not Only SQL)

Мы привыкли в рамках аналитики над данными обсуждать традиционные (реляционные) базы данных или хранилища, в которых данные хранятся в привычной нам формы таблиц.

Однако в информационных системах большую роль играют другие виды баз данных - нереляционные, которые позволяют хранить данные в более эффективном виде в зависимости от задач.

✏️ Ключ-значение
Структура данных такой базы очень простая и состоит из пар "ключ - значение". Такие базы широко используются для задач кеширования, а также они дают возможно быстро получать нужные данные по ключу и упрощают масштабируемость приложений при быстро нарастающей нагрузки.
➡️ Пример базы: Redis
🔗 Key-value базы данных
🔗 Что такое база данных ключ-значение и про Redis


✏️ Документоориентированные БД
Данные хранятся в виде документов (обычно JSON формат), т.е. наборы пар ключ-значение, что позволяет хранить разнородные по структуре данные. Также это позволяет работать с иерархическими (вложенными) структурами. Широко используются в веб-приложениях.
➡️ Пример базы: MongoDB
🔗 Документоориентированные базы
🔗 Про MongoDB

✏️ Колоночные БД
Предназначены для обработки огромного количества данных, распределенных по разным узлам. Структура данных подобна табличной, но благодаря другому подходу к физическому хранению данных в формате "колонок и колоночных семейств" эти базы данных отлично работают с аналитическими запросами на больших объемах данных. Эффективно используются при работе с Big Data и аналитическими приложениями.
➡️ Пример базы: Clickhouse
🔗 Колоночные СУБД
🔗 Про Clickhouse и сравнение с традиционными СУБД

✏️ Графовые БД
Оптимизированы для работы с разветвленными данными и сложными связями. Идеальный выбор для социальных сетей, рекомендательных систем, а также для решения задач, связанных с анализом связей и путей.
➡️ Пример базы: Neo4j
🔗 Графовые базы данных
🔗 Практическая статья про работу с Neo4j

Обращу ваше внимание еще на то, что каждая NoSQL база данных имеет свой язык запросов и взаимодействия с ней. Здесь нет стандартизированного языка запроса, как SQL для реляционных баз, поэтому каждый инструмент NoSQL СУБД необходимо изучать отдельно.

🔥 за полезный пост, а май вообще объявляю месяцем полезного и разнообразного контента)
🔥408
🚀 Ускорьте анализ данных с Polars!

⚙️ Если вы работаете с большими объемами данных и вам нужна высокая производительность, то библиотека Polars может быть вашим выбором для операций с данными. Polars предлагает невероятную скорость и эффективность обработки за счет использования многопоточности и ленивых вычислений.

📊 В отличие от pandas, которая является стандартом де-факто в анализе данных на Python, Polars разработана так, чтобы быть более производительной при работе с большими наборами данных. Вот несколько случаев, когда Polars может превзойти pandas:

1️⃣ Многопоточная обработка: Polars эффективно использует все ядра процессора для выполнения операций, таких как группировки, объединения и сортировки, что позволяет обрабатывать данные быстрее.

2️⃣ Ленивые вычисления: Polars применяет концепцию ленивых вычислений, откладывая исполнение до момента, когда это действительно необходимо. Это означает, что вы можете создавать сложные цепочки операций, без непосредственного вычисления промежуточных результатов, что сокращает время исполнения и потребление памяти.

3️⃣ Масштабируемость: При работе с очень большими датасетами Polars демонстрирует лучшую масштабируемость, так как её производительность лишь незначительно уменьшается с ростом объема данных.

🔍 Если вы ищете способ оптимизации вашей работы с данными и готовы освоить новый инструмент, то Polars может стать отличным дополнением к вашим навыкам в data science. Испытайте ее на своих проектах и убедитесь в ее эффективности самостоятельно!

🔗 Полезные ссылки
▪️Официальный сайт Polars с документацией
▪️Сравнение Polars и Pandas
▪️Видео-туториал по функционалу и синтаксису Polars

Что используете вы?
🔥 - pandas
❤️ - polars
🔥232👍2
Много у нас здесь будущих абитуриентов ВУЗов или выпускников бакалавриата, кто собирается в магистратуру? Есть желание упростить вам жизнь в поиске хорошей программы обучения. Посмотрим по опросу сколько вас здесь 😉. Проголосуйте ниже
Anonymous Poll
5%
выпускник 11 класса
23%
выпускник бакалавриата и планирую поступать в магистратуру
71%
я не выпускник, но мне тоже интересно узнать про программы ВУЗов по IT направлениям
Проголосовало уже 137 человек, поэтому давайте сделаем для всех вас общий файл со сборником программ по IT специализациям.

📍С вас: список программ с ссылками на официальные страницы ВУЗов с набором абитуриентов в 2024

📍С меня: Структуризация этого списка в течение мая и публикация его повторно вам в открытый доступ

Почему мне кажется это важным
На своем опыте знаю на сколько сложно бывает искать место, в котором хотелось бы получить высшее образование, которое будет полезным и применимым в работе. Я будучи выпускником 11 класса, на 99% был уверен, что пойду поступать в Бауманку (МГТУ им. Н.Э. Баумана), а о Вышке (НИУ ВШЭ) я узнал случайно за 2 недели до подачи документов.

Подавал документы в итоге в 3 Московских ВУЗа: МФТИ, Бауманка, Вышка
и 2 ВУЗа для подстраховки: Казанский Университет и Пермский Политех

Если бы не тот случайный разговор, я мог бы вообще не узнать о Вышке и ее сильных учебных программах с подтверждением диплома на международном уровне.

Поэтому общим файлом мы явно поможем друг другу узнать о разных ВУЗах, специализациях и крутых возможностях! 😉

Ссылка на файл (доступ редактирования есть у всех) ⤵️
🔗 Бакалавриат/Специалитет (на отдельном листе Магистратура)
🔥10👍1
Пока все в Москве наслаждаются снегопадом, мы наслаждаемся солнышком 😁

Реализовал свою детскую мечту - приобрел кроссовый мотоцикл. Эмоции от покупки и покатушек просто 🔥
🔥2311🎉6