Я – Дата Инженер | Евгений Виндюков
4.54K subscribers
337 photos
34 videos
12 files
234 links
💵 Как стать Data Engineer
🗄 Смотри Roadmap в закрепе!
_____________________________
Автор @halltape
Все вопросы по рекламе @k_shredinger
Download Telegram
BI аналитик

Работает с SQL, делает графики бизнес показателей.
Например помните, как в COVID времена был dashboard с данными по заражениям. Вот такие штуки и будете делать. Дизайн можно делать абсолютно любой!

Стек:
1. SQL (PostgreSQL, MySQL и другие)
2. Визуализация (Power BI, Apache Superset, Yandex DataLens, Redash и другие). В целом они все похожи.

Здесь реально можно делать клевые дизайнерские дэшборды. Небольшой порог входа + творческие задачи. К слову на YouTube есть уроки, как делать дэшборды даже в Excel! И они выглядят будто из SpaceX! Хороший старт для аналитика

Учиться:
SQL - https://karpov.courses/simulator-sql (Отличная база + сразу можно поучить Redash)

Опыт:
Опыт можно набрать, беря данные с https://www.kaggle.com по любимой тематике. Делаешь GitHub со своими дашбордами и собесишься
🔥9👍41
Data Analyst (Дата аналитик)

Берешь готовые данные, агрегируешь, считаешь бизнес показатели, статистику. Много работаешь со сложными запросами, оконные функции. SQL это твой основной язык. Также здесь добавляется Pandas, Numpy, Matplotlib и другие. Это библиотеки для работы с данными. Ты довольно глубоко вникаешь в данные и их расчеты. Поэтому ты и аналитик, чтобы анализировать.

Стек:
1. SQL (+оконные функции, процедуры)
2. Python (pandas, Numpy, matplotlib)
3. Весь стек BI аналитика
4. Clickhouse, NoSQL
5. Нормализация, индексы в БД, алгоритмы соединения таблиц и так далее.

Учить:
SQL https://karpov.courses/simulator-sql
Pandas - https://stepik.org/course/120014
Pandas, Numpy - https://stepik.org/course/3356 [ГЛАВА 6]
Python - https://stepik.org/course/58852
Python - https://stepik.org/course/68343

Опыт:
Берешь данные с https://www.kaggle.com. Можно взять данные из разных источников. Придумать метрики, которые хочется посчитать. Найти инсайты, построить графики с помощью pandas или seaborn.
🔥5👍1
ℹ️ Какое направление выбрать?

Смотрите, направлений сейчас куча в IT. Для каждого нужно знать свой список технологий. Нет универсальных штук. Поскольку я иду в направление DATA, то подскажу со своей колокольни. Не буду писать про ML и Data Scientist, так как даже не рассматривал эти области. И это про ОЧЕНЬ СИЛЬНУЮ МАТЕМАТИКУ!

Дальше рассмотрим:
1. BI (Business intelligent)
2. DA (Data Analyst)
3. DE (Data Engineer)

Описываю на примитивном уровне. От вас все равно никто не ждет прорывов. Главное знать стек, а задачи найдутся! Поэтому, читайте мои посты ниже про эти направления и выбирайте!

Если не знаете с чего начать, то рекомендую начать отсюда
https://github.com/Data-Learn/data-engineering - Здесь путь от BI до DE. Первых 3-ех модулей вам будет достаточно уже для неплохого BI. Но будет сложно и очень много материала! Курс абсолютно бесплатный! Его делает парень из Амазона. Все на русском. Есть свое комьюнити + курс сейчас дополняется. Но того, что есть, уже достаточно!
🔥142👍1
Data Engineer (Дата Инженер)

0. Весь стек Data Analyst
1. Spark
2. Apache Airflow
3. ETL/ELT
4. Оптимизация запросов
5. Kafka
6. Очистка данных, нормализация, трансформация, создание витрин
7. Работа с облачными сервисами (AWS, Yandex.Cloud)

Короче DE скачивает данные, проверяет их, чистит, подготавливает и отдает уже аналитику, который в свою очередь ищет инсайты. Ну и эти же данные отдаются data scientist, которые пишут модели машинного обучения.

Учить:
https://github.com/Data-Learn/data-engineering - Это то, с чего вы можете начать! Абсолютно бесплатный курс от нашего парня из Канады. Курс постоянно обновляется, есть свое комьюнити + задачи.

SQL https://karpov.courses/simulator-sql
Pandas - https://stepik.org/course/120014
Pandas, Numpy - https://stepik.org/course/3356 [ГЛАВА 6]
Python - https://stepik.org/course/58852
Python - https://stepik.org/course/68343

Опыт:
Скачать данные с нескольких источников (сайты, базы данных, просто из файлов). Построить модель данных, отформатировать, соединить это всё в одну витрину данных и построить dashboard)
🔥174
GitHub Data Engineer

В одном случае из десяти посмотрят на ваш GitHub. Но именно этот случай и сыграет важную роль! Поэтому оформляйте свой гит от души.

Вот пример моего GitHub https://github.com/halltape

Обязательно оформите все в супер доступном виде. Человек должен зайти и понять насколько вы в теме. Выкладывайте пет проекты только по стеку или по теме! Не надо туда грузить все!

Если у вас есть оформленный гитхаб, значит вы как минимум понимаете Markdown, шарите за работу с Git'ом.

Идеальный проект:
Идеально, если вы сделаете проект по парсингу данных, использя pandas, напишите DAG для Airflow и на все это еще построите dashboard в одной из BI. Обязательно распишите цель исследования и замеченные инсайты!
🔥14👍6
По поводу подготовки!

Я работал инженером на заводе 5/2 08:00 - 16:50. Работа рядом, поэтому в 17:30 был уже дома. В 18:00 я уже садился за комп и занимался до 21:00 ежедневно. В Сб и Вс я старался начинать заниматься с 10:00, 11:00 и до самого вечера. Поначалу я еще практиковал Английский, но потом понял, что нужно сосредоточиться на одном. Один раз в мае съездил на 4 дня в Карелию, но даже туда взял комп и в Сапсане допиливал своего телеграм бота.

Можно прикинуть время на подготовку:

1. Март-Апрель (учил SQL)
2. Май (чистый Python). Поскольку я уже знал на некотором уровне си, то питон(как язык заметно легче) мне давался быстрее. Собственно на своем телеграмм боте я его и практиковал и мне не пришлось блевать от решения обычных задач. Все на энтузиазме.
3. Июнь (ровно 2 недели на Pandas, Numpy).
4. Июль (собеседования)

Плюс я уже был знаком с работой Git, Linux и понимал, как работает и выделяется память. Это важно знать, так как в питоне:
a = 5
b = 5
Оба объекта ссылаются на одну и ту же ячейку в памяти и имеют один и тот же адрес. Можно даже посчитать сколько сейчас объектов в питоне ссылаются например на число 0. Это абсолютно иной подход, нежели в Си. Нюансов на самом деле еще больше!

Важно!
Едешь с работы, на работу, к бабушке, в магазин.. везде.. Старайся читать теорию. Я например пинал ChatGPT по вопросам о Базах Данных, алгоритмах и структурах. И всегда старайтесь читать еще Гугл, потому что ИИ может ошибаться. Но в большинстве случаев он отвечал максимально полезно!

Книги бесполезно было читать. Спасал chatGPT, он хотя бы мог намекнуть на тему, в которой потом можно гуглить.

Также важно!
ChatGPT невероятно хорошо может генерировать вам тестовые таблицы для ваших запросов в SQL! Например если вам нужно разобраться, как работает Cross Join или поиграться с оконными функциями и не хочется выдумывать данные, то чат сделает все за вас. Также можно просить генерировать его датасеты для того же pandas, да и многое многое другое!
🔥155❤‍🔥2👍2
Качаем Hard Skills!

Вот вы прошли все курсы, сделали Пет проект, подтянули теорию, теперь самое важное - прокачивать ваши Hard Skills.

Как бы вы не знали теорию, если не умеете решать задачи, вы в пролете.

Итак по SQL:
1. Leetcode (можно и CodeWars). Также рекомендую переписывать все запросы с sql на pandas и spark
2. SQL-EX (сайт не меняли с момента, как Ленин стоял на броневике, но упражнения хорошие). Старайтесь писать сразу без дебага - это тренировка режима live coding на собеседованиях.
3. IT Resume (русскоязычный LeetCode. Здесь есть и питон и сиквел. Также можно решать задачи от Тинькофф, Авито)

Этого реально достаточно!


Следующий пост про Резюме
👍124