Я – Дата Инженер | Евгений Виндюков
4.37K subscribers
335 photos
32 videos
12 files
231 links
💵 Как стать Data Engineer
🗄 Смотри Roadmap в закрепе!
_____________________________
Автор @halltape
Все вопросы по рекламе @k_shredinger
Download Telegram
🔤🔤🔤🔤🔤 Стрим по Spark!

Уже завтра я буду вести стрим по казино spark!

🟡 Мы соберем самую настоящую витрину данных
🟡 Покажу некоторые проблемы при расчете, а также обсудим их оптимальное решение
⚫️ Если останется время, то запустим скрипт за несколько дней и подключим логгирование

Это пример реальной задачи на работе.

Важно:
Это будет тестовый прогон в реальном времени. Можно будет задать любые вопросы по коду, настройке и так далее.
Чистовик я выпущу только осенью на своем Youtube канале (будет доступно всем бесплатно)
Более того, данные и сам скрипт я добавлю в свой проект на github, поэтому любой из вас сможет повторить это у себя дома!

Проводить стрим буду на своем Boosty!
Подписывайся
, если не хочешь пропустить!

🅱️🩸🩸🩸🩸
https://boosty.to/halltape_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33👍52👎1👏1
😥 Я ничего из этого не знал!

Это 27 июля 2022. Я почти в самом начале. Я тогда пробежался по вакансиям на hh.ru и просто выписал слова из вакансий Data Engineer.

Для меня это были просто слова, ну кроме Git и python. Git я знал из школы21, а питон и так на слуху у всех. Тогда я с ужасом смотрел на этот список и сразу впадал в кому. Ментально казалось, что эти технологии надо начинать учить еще со школы, класса так с 5 (ладно, я уже утрирую), с шестого.

Т.е. видно, что я пишу PostgreSQL, а потом СУБД Postgres, хотя это одно и тоже. Или пишу Hive, хотя он входит в Hadoop. А еще мне нравится, как я написал Spark, а потом сразу же уточнил, что PySpark)) Кстати SSIS я до сих пор не знаю что это (Это что-то из MSSQL?). Если вы на этом этапе, то: "Не все технологии нужно знать сразу, какие-то догоните уже на работе"

Вот, как бы я рекомендовал идти:
1. SQL (postgre, mysql)
2. python
3. spark (pandas)
4. docker (+ Git)
5. Airflow
6. BI


Читаем теорию (по возможности тыкаем в технологию): Clickhouse, Kafka, Scala

Jira – это вообще трекер задач на работе. Максимум про него в Youtube можно глянуть.
Redis – это субд, можете в докере развернуть. Она вроде для кэша используется больше.

Короче говоря, если только начали, то не пытайтесь овладеть всем! Основа всегда одна, а там дальше соориентируетесь уже сами, когда будете на работе!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥48👍123👏3
Обучаем IT-специалистов и берём в команду ⚡️

Приглашаем всех, кто любит работать с данными и имеет опыт работы с DWH от 6 месяцев, в Открытые школы Т1 — программу найма в формате ИТ-интенсива.

🚀 Это отличный шанс бесплатно прокачать навыки и присоединиться к одному из крупнейших проектов по созданию новой технологичной платформы данных в России в банковском секторе.

Лучшим участникам предложат оффер в команду Т1 — крупнейшей ИТ-компании в России по версии RAEX 2023, в портфеле которой 800+ масштабных проектов и 70+ продуктов и услуг.

Зачем участвовать?

🔹 Уникальный рыночный опыт. Т1 одни из первых на рынке, кто внедряет технологии для управления данными.

🔹 Попасть в число лучших. Проекты Т1 ежегодно получают лучшие награды на ИТ-конкурсах.

🔹 Поддержка. Тебя ждёт команда опытных профессионалов в области разработки хранилищ данных и аналитических систем, которые помогут расти и развиваться.

Выбирай:
📁 аналитик DWH
🖥 разработчик DWH

Для участия нужен опыт работы от 6 месяцев в DWH.

Быстрое обучение: 1 месяц
📱 Гибкий формат: онлайн по вечерам (от 8 часов в неделю на вебинары и практику)

Подавай заявку до 2 августа!
Предусмотрено входное тестирование.

Старт интенсива: 5 августа.

Реклама. Информация о рекламодателе
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10👍6🤔42🔥2
Стрим#1

Можем проводить такие стримы раз в две недели или по-моему настроению))

Буду на свежем воздухе стримить, пока погода позволяет)
👍12🔥4😁1
😞 Мем смешной, ситуация страшная!

Да ладно вам, расслабьтесь, вкатываться можно и в 100 лет. Но правда не в IT, а в другое место. Но не суть.

Я уже встречал в комментах под моими видосами, как люди вкатывались и в 40 и даже в 50 лет. Это конечно по сложнее задача, но все таки шанс есть. А еще есть шанс залететь на мой бусти!

Очередной раз вам напоминаю, что я раздаю там БАЗУ! А также мы проводим еженедельные созвоны на пылающие темы в DE. У нас мощнейший телеграм канал, который уже перевалил за несколько тысяч сообщений. Плюс у нас есть топик, где сохранены все аудио сообщения с созвонов, а также полезные материалы и самое главное вопросы с реальных собеседований! И их немало!

Вот список вопросов, которые мы очень глубоко обсудили и это уже доступно на бусти:
⚫️Какую зарплату просить на старте?
⚫️Сколько зарабатывают действующие DE?
⚫️Расскажи типичный день DE?
⚫️Как не спалиться в том, что не шаришь? И надо ли?
⚫️Что надо, а что точно не стоит учить для DE?
⚫️Тестовые - есть ли для данной специальности? И что в себя включают?
⚫️Отвечаем на классические вопросы с собесов (есть подготовленный список)
⚫️Показываю, как работать с Apache Spark.
⚫️Строим витрину данных с простым циклом
⚫️ Разбираем конкретный пет проект одного из участников

При этом у нас запланировано еще куча вопросов, которые мы разбираем каждую неделю по полтора-два часа. Все созвоны записываются и их можно прослушать в телеграме как подкаст!

Поэтому даже если вы залетите на бусти сегодня-завтра, вы сможете наверстать упущенное буквально в первый вечер!

🅱️🩸🩸🩸🩸
https://boosty.to/halltape_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6👏1
Вакансия!

Ищем NULL Data Engineer!

Требуется NULL Инженер в компанию NULLTech

💵 Зарплата: от NULL руб. на руки

📍 График работы: любой офис из списка (null, null, null, null)

Наша компания на рынке уже null лет, поэтому мы решили развиваться с сторону null технологий!
Если ты хорошо разбираешься в null и хочешь активно в нем расти, то иди на null!

Коротко про наш null:
Оркестратор на Airnull
Код пишем на null
Хранилище в HDnull

Требования:
Нам очень важно, чтобы вы разбирались в null
Оптимизировать код на null и переписывать его на null
Обязательный коммерческий опыт с null

🔥Наши плюшки:
Выдаем технику (можешь выбрать между null и null)
Также есть семейный null
Компенсация null, а также корпоративный null язык и возможность посещать null
Please open Telegram to view this post
VIEW IN TELEGRAM
😁41🔥11👎52👍2
⚠️ Вопросы, которые ни разу не спрашивали!

Посмотрел видос про инженера данных. Сделал скрин требований на магистратуру DE и вот, что я хочу сказать:

Я прошел уже больше 20 собесов. И записывал с них почти все вопросы и задачи с лайвкодинга. Так вот ни на одном собесе не спрашивали даже близко про комбинаторику или про математический анализ. Алгосы были только в Яндексе (но это чисто прикол Яндекса).

Самые годные вопросы – это вопросы по кейсам.
Например:
1. Представь у тебя spill в Spark. Что будешь делать?
2. Какие есть варианты версионности строки?
3. Можно ли убрать поле valid_to в модели Data Vault и чем оно будет лучше или хуже?
4. У нас начал тормозить Airflow (более 200 дагов). Как думаешь, из-за чего?

Это вопросы-боли, которые команды DE решают каждый день. Дата инженеры это не ученые, это конкретные спецы, которые следят за тем, чтобы расчеты велись оптимально, данные складывались аккуратно, а скорость вычислений стремилась к бесконечности. У нас очень конкретные задачи. Мы не дата саентисты и не аналитики. У нас задача довольно понятная. Код упал, надо понять почему и починить его. Все.

И в комментах увидел такой ответ (Смотрите на скриншот комментария).
Мне не понятно откуда он взял эти вопросы и в какой компании их задают, а самое главное, что это вообще за вопросы:
Стратегия нормализации данных реляционных БД
Меры центральной тенденции
Статистическая оценка параметров распределения
EDA

Причем я смотрел собесы на сеньоров, мидлов и там не было таких вопросов. Рынок вообще спрашивает либо классические вопросы с гугла, либо по кейсам, либо дают задачку с leetcode.

Я не понимаю приколов с этими образованиями. Я вам в канале все и так бесплатно даю. Когда я учился, у меня не было моего канала. Какие магистратуры. Для чего? Или там на выходе сразу тех лидом на 600к можно выйти?

Либо я реально чего-то недогоняю. Прошу подсказать в комментах об этом!

Для тех, кто хочет знать, че по рынку спрашивают, то всегда можно залететь на мой бусти. Я там уже слил и зарплаты на рынке и вопросы на рынке и кучу материалов полезных.

Видос по ссылке
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
24👍8🔥4😱3
Трамплин в карьере для системных аналитиков 🚀

Есть опыт работы от года и желание развиваться в профессии? Приходи на онлайн-интенсив в Открытые школы Т1!

🎓Открытые школы — это обучение с возможностью попасть в штат Холдинга Т1 — крупнейшей ИТ-компании в России по версии RAEX 2023, в портфеле которой 800+ масштабных проектов и 70+ продуктов и услуг.


Всего за полгода мы выпустили 500+ специалистов, лучшие из которых уже присоединились к командам финтех-разработки и разработки ИТ-продуктов. Также выпускников ждут в юнитах облачных сервисов, развития ИИ-решений, интеграции и консалтинга.

Что в программе?

— курс по работе с требованиями,
— проектирование REST API,
— понимание банковской специфики.

⌛️ Быстрое обучение: 1 месяц.
💻Гибкий формат: все этапы онлайн, занятия по вечерам.

Врывайся в бигтех и подавай заявку до 22 августа!
Старт бесплатного интенсива: 28 августа.

Реклама. Информация о рекламодателе
4👍2👎1🔥1
📶 Завтра придешь?

Ставь 👍🏻 если придешь

Ставь 👎🏻 если не придешь


Вообще не планировал прям целенаправленно собирать группу, но пересечься там сможем!)

Пару слов туда сюда сделаем
Please open Telegram to view this post
VIEW IN TELEGRAM
👎58👍25😁2
Media is too big
VIEW IN TELEGRAM
🧐 HDFS | Что это такое и как оно работает? [Hadoop HDFS]

Deep Dive по HDFS.
Рассказываю базу про HDFS. О том, что это такое, как хранятся блоки, репликация, топология сети, что внутри и какие есть с этим проблемы.

Подписывайся на telegram канал про Дата Инжиниринг!
https://t.iss.one/halltape_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍235🔥3👎1🤔1
🤨 Мой обновленный ETL проект на GitHub!

https://github.com/halltape/HalltapeETL
Это полноценный инструмент собранный на базе Docker-Compose.
С ним можно запустить ETL процесс от загрузки данных до их визуализации!

Вот, что я добавил и исправил:
⚫️Добавил Jupyter Lab (Spark + Pandas) - Теперь можно отлаживать код в Jupyter Lab
⚫️Установил Spark в Apache Airflow - Теперь можно собирать витрины данных еще и на Spark (до этого был только Pandas)
⚫️Подключил Data Lake к Clickhouse - Теперь Clickhouse может читать данные напрямую из Data Lake
⚫️Добавил Apache Superset - Можно подключиться, как к Clickhouse, так и к PostgreSQL
⚫️Синтетические данные - Залил готовые данные, на которых можно тренироваться
⚫️Написанные и подготовленные DAG в Airflow - Написал скрипты для сборки витрины на PySpark
⚫️DAG для мониторинга загрузки данных - Написал скрипты для мониторинга загрузки данных на дашборде!

Крайне рекомендую дойти до этого проекта и собрать его самостоятельно. Попробуйте там собрать свою первую витрину на Spark. И обязательно доведите всё до визуализации. В процессе отладки вы очень сильно прокачаетесь, а если еще и разберетесь, как этот проект собирается и работает, то у вас будет сильное преимущество перед теми, кто просто проходит курсы на степике.

Считайте, что это бесплатное повышение вашей квалификации. Более того, вы можете использовать это либо на работе или для своего пет проекта. Реальное отличие этого проекта от коммерческого будет в объеме данных и доступных ресурсах. А так, python он и в Африке python!

🤘 Выражаю огромную благодарность тем, кто помогал и делал pull request в мой проект:
https://github.com/ATAGAEV95
https://github.com/kirill505
https://github.com/RiskofStorm

P.S Сейчас Data Lake – это просто папка, к которой примонтировано несколько контейнеров. В планах сделать из нее либо HDFS, либо S3. Либо S3 добавить в качестве источника. Расширяться здесь можно бесконечно, главное, чтобы памяти на все хватило. Кстати вы всегда можете контрибьютить в мой проект и кидать pull request, если нашли ошибку или хотите добавить функционала!

Спасибо!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥46👍123😱2👏1
Forwarded from rzv Data Engineering
#видео #моксобес

Новое видео на канале -- пробую систем дизайн секцию технического интервью. Пока неказисто, но дорогу осилит идущий!

-> Ссылка на видео (youtube)
-> Ссылка на видео (vk video)

Видео записали вместе с @halltape_data, спасибо, Женя, за участие.

Оставляй благодарность и критику, пробуй спроектировать платформу данных по вводным самостоятельно. Прокачиваемся!
🔥11👍31👏1😁1
🗺 Есть кто сейчас в Алании? Turkey.

Наверное тут минимальная вероятность, но вдруг) могли бы пересечься!

Я до 29 августа в отпуске, поэтому в канале отвечаю редко.

Кстати если есть места или кафе, которые порекомендуете, welcome в комменты!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👏4😁2👎1