it пингвин | data engineer

🦦

🤣177🔥3😁2❤1👍1🙈1

1.95K views06:21

Закончил курс по DE от NewProLab

В начале декабря закончился курс. Кратко расскажу какие еще были лабы и дальше общее мнение по курсу.
Прошлый обзор лаб

Лаба5: Сервис персонализации интернет-магазина

Загрузка данных в клик -> рассчитываем данные-> сохраняем в Redis c помощью Airflow и вспомогательных справочников в Postgres

По-моему это самая сложная лаба и больше половины студентов ее не решили. Самое сложное не поднять сервисы, связать все, скачать данные и тд. А написать несколько хитрых SQL запросов! Здесь нужна та самая рекурсия 🥲 Надо собрать многоуровненое дерево категорий и потом к нему обращаться. И дерево может быть с косяками, с несколькими родителями..
И до всего этого реально сложно догадаться. Какие-то около олимпиадные задачки. И честно именно это мне не очень понравилось. То есть я понимал, что нужно многоо времени потратить чтоб все сделать. А желания особого не было. Таких бизнесовых задач мне и на работе хватает, а на курсе я больше всего хотел потрогать инструменты.
Но опять же, кураторы и говорили что это сложная лаба. Там дальше еще и суперачивка.. Без подробностей, просто нужно еще более сложные sql запросы написать.
Я эти лабы выполнил😎 НО с хитростями💅 Чекер проверил данные, все сошлось. Но как я этого добился история умалчивает. Мне кажется я даже более сложную работу проделал, чем написать эти хитрые sql запросы. Наверное я эти лабы выполнял ~30 часов. Запомнится мне это надолго)
При решении этой лабы очень много работал с командной строкой, редисом, Аирфлоу.

Лаба6: Сам себе CI/CD

В лабе нужно было собрать свой Docker-образ Airflow с вашим DAG внутри (через Dockerfile: зависимости + копирование дага/конфигов), чтобы пайплайн был «запечён» в образ и версионировался вместе с ним.
Потом - настроить GitHub Actions, чтобы автоматически билдить этот образ на GitHub и пушить в Docker Hub.
Дальше - обновить docker-compose.yml, чтобы он тянул опубликованные образы, добавить README с инструкцией запуска/создания пользователей и выложить всё в приватный репозиторий, дав доступ ментору/координатору
В целом классная лаба.

Лаба7: Расчёт данных при помощи DBT

Нужно было установить dbt-core с адаптером для ClickHouse, инициализировать dbt‑проект и настроить подключение (profiles.yml/переменные окружения), чтобы dbt debug проходил успешно.
Дальше - в ClickHouse создать таблицы, читающие CSV из S3, и через dbt выстроить преобразования по слоям RAW -> CORE -> DM (в RAW добавить служебные поля src и created_dttm, в CORE/DM сделать требуемые расчёты и витрины).
В конце - запустить dbt run с переменной run_date (чтобы она попала в витрины) и прогнать чекер, который сверяет результат по хэш-суммам целевых DM-таблиц.

Тоже классная лаба, давно хотел сам поднять дбт, но руки не доходили. Почему-то hash суммы не сходились и по итогу тоже долго просидел над sql запросом🤦‍♂️

Лаба8: Дашборд для e-commerce кликстрима

Это лаба по сути - дипломная работа. Нужно поделиться на команды, выбрать стек технологий, поднять всю инфру, построить dwh, обработку данных, должна быть историчность и возможность делать пересчет, построить графики в биайке и проанализировать данные, все опубликовать и описать в гите. Этот проект сделали 10 человек (4 команды). Они потом выступали с защитой. Ребята проделали реально большую работу.
Я к сожалению поздно спохватился, где-то за неделю до сдачи. Другие команды уже собрались почти за месяц до сдачи. В общем, я не нашел команду и эту лабу не сдал 🥺
Я сделал все лабы, с суперачивками и знал что уже получу красный диплом. Поэтому делать лабу в соло уже не хотел.

По итогу, да. Я получил Красный диплом. ХЗ зачем, сам себе поставил и задачу и хотел этого добиться. Хотя это вообще необязательно было. Какой-то синдром отличника 🤡 Вошел в топ 7. Как раз до первых ребят не хватило выполненной 8 лабы.
И половину лекций до сих пор я не посмотрел. Круто, что доступ к гиту и лекциям остается у нас. Я в спокойном темпе все посмотрю. Лекции мне прям нравились.

Продолжение ⬇️

Please open Telegram to view this post