Посмотрел видос про инженера данных. Сделал скрин требований на магистратуру DE и вот, что я хочу сказать:
Я прошел уже больше 20 собесов. И записывал с них почти все вопросы и задачи с лайвкодинга. Так вот ни на одном собесе не спрашивали даже близко про комбинаторику или про математический анализ. Алгосы были только в Яндексе (но это чисто прикол Яндекса).
Самые годные вопросы – это вопросы по кейсам.
Например:
1. Представь у тебя spill в Spark. Что будешь делать?
2. Какие есть варианты версионности строки?
3. Можно ли убрать поле valid_to в модели Data Vault и чем оно будет лучше или хуже?
4. У нас начал тормозить Airflow (более 200 дагов). Как думаешь, из-за чего?
Это вопросы-боли, которые команды DE решают каждый день. Дата инженеры это не ученые, это конкретные спецы, которые следят за тем, чтобы расчеты велись оптимально, данные складывались аккуратно, а скорость вычислений стремилась к бесконечности. У нас очень конкретные задачи. Мы не дата саентисты и не аналитики. У нас задача довольно понятная. Код упал, надо понять почему и починить его. Все.
И в комментах увидел такой ответ (Смотрите на скриншот комментария).
Мне не понятно откуда он взял эти вопросы и в какой компании их задают, а самое главное, что это вообще за вопросы:
Причем я смотрел собесы на сеньоров, мидлов и там не было таких вопросов. Рынок вообще спрашивает либо классические вопросы с гугла, либо по кейсам, либо дают задачку с leetcode.
Я не понимаю приколов с этими образованиями. Я вам в канале все и так бесплатно даю. Когда я учился, у меня не было моего канала. Какие магистратуры. Для чего? Или там на выходе сразу тех лидом на 600к можно выйти?
Либо я реально чего-то недогоняю. Прошу подсказать в комментах об этом!
Для тех, кто хочет знать, че по рынку спрашивают, то всегда можно залететь на мой бусти. Я там уже слил и зарплаты на рынке и вопросы на рынке и кучу материалов полезных.
Видос по ссылке
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤24👍8🔥4😱3
Трамплин в карьере для системных аналитиков 🚀
Есть опыт работы от года и желание развиваться в профессии? Приходи на онлайн-интенсив в Открытые школы Т1!
🎓Открытые школы — это обучение с возможностью попасть в штат Холдинга Т1 — крупнейшей ИТ-компании в России по версии RAEX 2023, в портфеле которой 800+ масштабных проектов и 70+ продуктов и услуг.
Всего за полгода мы выпустили 500+ специалистов, лучшие из которых уже присоединились к командам финтех-разработки и разработки ИТ-продуктов. Также выпускников ждут в юнитах облачных сервисов, развития ИИ-решений, интеграции и консалтинга.
Что в программе?
— курс по работе с требованиями,
— проектирование REST API,
— понимание банковской специфики.
⌛️ Быстрое обучение: 1 месяц.
💻Гибкий формат: все этапы онлайн, занятия по вечерам.
Врывайся в бигтех и подавай заявку до 22 августа!
Старт бесплатного интенсива: 28 августа.
Реклама. Информация о рекламодателе
Есть опыт работы от года и желание развиваться в профессии? Приходи на онлайн-интенсив в Открытые школы Т1!
🎓Открытые школы — это обучение с возможностью попасть в штат Холдинга Т1 — крупнейшей ИТ-компании в России по версии RAEX 2023, в портфеле которой 800+ масштабных проектов и 70+ продуктов и услуг.
Всего за полгода мы выпустили 500+ специалистов, лучшие из которых уже присоединились к командам финтех-разработки и разработки ИТ-продуктов. Также выпускников ждут в юнитах облачных сервисов, развития ИИ-решений, интеграции и консалтинга.
Что в программе?
— курс по работе с требованиями,
— проектирование REST API,
— понимание банковской специфики.
⌛️ Быстрое обучение: 1 месяц.
💻Гибкий формат: все этапы онлайн, занятия по вечерам.
Врывайся в бигтех и подавай заявку до 22 августа!
Старт бесплатного интенсива: 28 августа.
Реклама. Информация о рекламодателе
❤4👍2👎1🔥1
Ставь 👍🏻 если придешь
Ставь 👎🏻 если не придешь
Вообще не планировал прям целенаправленно собирать группу, но пересечься там сможем!)
Пару слов туда сюда сделаем
Please open Telegram to view this post
VIEW IN TELEGRAM
👎58👍25😁2
Media is too big
VIEW IN TELEGRAM
Deep Dive по HDFS.
Рассказываю базу про HDFS. О том, что это такое, как хранятся блоки, репликация, топология сети, что внутри и какие есть с этим проблемы.
Подписывайся на telegram канал про Дата Инжиниринг!
https://t.iss.one/halltape_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤5🔥3👎1🤔1
https://github.com/halltape/HalltapeETL
Это полноценный инструмент собранный на базе Docker-Compose.
С ним можно запустить ETL процесс от загрузки данных до их визуализации!
Вот, что я добавил и исправил:
Крайне рекомендую дойти до этого проекта и собрать его самостоятельно. Попробуйте там собрать свою первую витрину на Spark. И обязательно доведите всё до визуализации. В процессе отладки вы очень сильно прокачаетесь, а если еще и разберетесь, как этот проект собирается и работает, то у вас будет сильное преимущество перед теми, кто просто проходит курсы на степике.
Считайте, что это бесплатное повышение вашей квалификации. Более того, вы можете использовать это либо на работе или для своего пет проекта. Реальное отличие этого проекта от коммерческого будет в объеме данных и доступных ресурсах. А так, python он и в Африке python!
https://github.com/ATAGAEV95
https://github.com/kirill505
https://github.com/RiskofStorm
P.S Сейчас Data Lake – это просто папка, к которой примонтировано несколько контейнеров. В планах сделать из нее либо HDFS, либо S3. Либо S3 добавить в качестве источника. Расширяться здесь можно бесконечно, главное, чтобы памяти на все хватило. Кстати вы всегда можете контрибьютить в мой проект и кидать pull request, если нашли ошибку или хотите добавить функционала!
Спасибо!
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - halltape/HalltapeETL: The simple ETL with docker container
The simple ETL with docker container. Contribute to halltape/HalltapeETL development by creating an account on GitHub.
🔥46👍12❤3😱2👏1
Forwarded from rzv Data Engineering
#видео #моксобес
Новое видео на канале -- пробую систем дизайн секцию технического интервью. Пока неказисто, но дорогу осилит идущий!
-> Ссылка на видео (youtube)
-> Ссылка на видео (vk video)
Видео записали вместе с @halltape_data, спасибо, Женя, за участие.
Оставляй благодарность и критику, пробуй спроектировать платформу данных по вводным самостоятельно. Прокачиваемся!
Новое видео на канале -- пробую систем дизайн секцию технического интервью. Пока неказисто, но дорогу осилит идущий!
-> Ссылка на видео (youtube)
-> Ссылка на видео (vk video)
Видео записали вместе с @halltape_data, спасибо, Женя, за участие.
Оставляй благодарность и критику, пробуй спроектировать платформу данных по вводным самостоятельно. Прокачиваемся!
YouTube
Data Engineer тренирует System Design секцию. Собеседует @halltape | rzv_de | Aug 2024
-- Больше контента по ссылкам --
Канал Жени DE - https://t.iss.one/halltape_data
Boosty Жени DE - https://boosty.to/halltape_data
Канал Лёши DE - https://t.iss.one/rzv_de
Boosty Лёши DE - https://boosty.to/rzv_de
-- Пояснение к видео --
Публично тренируюсь проходить…
Канал Жени DE - https://t.iss.one/halltape_data
Boosty Жени DE - https://boosty.to/halltape_data
Канал Лёши DE - https://t.iss.one/rzv_de
Boosty Лёши DE - https://boosty.to/rzv_de
-- Пояснение к видео --
Публично тренируюсь проходить…
🔥11👍3❤1👏1😁1
Наверное тут минимальная вероятность, но вдруг) могли бы пересечься!
Я до 29 августа в отпуске, поэтому в канале отвечаю редко.
Кстати если есть места или кафе, которые порекомендуете, welcome в комменты!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👏4😁2👎1
Я вернулся с отпуска и забыл, что такое дата инжиниринг. Поэтому давайте вспомним здесь для чего вы тут сидите.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥12😁8❤3👏2
пост писал еще будучи в Сбере в мае. Вариантов на самом деле намного больше. Вопрос какие инструменты у вас под рукой.
Постараюсь кратко. У меня есть витрина, в которую летят данные по кредитам, картам, ипотекам и куче других продуктов. Источники для каждого продукта разные, поэтому если я буду каждый день грузить данные всегда за вчера, а источник по картам еще не обновился или вообще умер, то у меня какие-то продукты загрузятся, а какие-то нет. Очевидно, что завтра и послезавтра данные по картам за позавчера, даже если они появились, уже никогда не прогрузятся.
Если конкретно, то пусть по кредитам у меня прилетело 500 000 строк, а по картам прилетело 0 строк (пустой датафрейм). Мне надо запомнить, что по картам в этот день было пусто, но ошибки не было. Скрипт успешно отработал. Или прилетело по картам всего 2 строки, а ожидается 10 000. Мне по-любому надо запомнить, что в эти даты был сбой!
Брать просто максимальную дату загруженных данных из витрины тоже нельзя. Ну он покажет, что данные актуальны. Но они ведь актуальны только по кредитам. А считать максимальнуюю дату по каждому продукту, учитывая, что таблица растет стремительно, будет все сложнее и сложнее.
Поэтому я подумал сделать маленьку таблицу, куда будут писать логи, типа
date, product_name, total_rows
Т.е. при каждом вычислении я пишу туда тип продукта, кол-во строк в датафрейме и дату загрузки. Тем самым у меня будет табличка из 2000-4000 строк ЗА ГОД! И это если у меня около 10 продуктов. Такое можно и в Excel открыть!
И при каждой загрузке мой спарк будет ходить в эту маленькую таблицу и просто забирать даты, по которым либо прилетело 0 строк, либо высчитывать разницу дат между сегодня и максимальной датой по каждому продукту в этой таблице. По ресурсам это просто смехотворно! Очень быстро.
Здесь можно конечно сделать историю с партиционированием в самой витрине по типу продукта и дате, тем самым объединить данные в рамках продуктов. Но тогда мы не сможем контроллировать кол-во строк. Нам придется вычислять отсутствующие даты в метаданных партиций со списком сгенерированных дат. Короче это сложно и не наглядно.
Тем более моя таблица с логами прекрасно может быть визуализирована в BI. Все метрики уже посчитаны, остается лишь написать очень простые запросы и при том очень легкие по отношению к СУБД. Т.е. мы буквально сможем контроллировать загрузку и актуальность данных по стольким продуктам, сколько сами пожелаем!
Кстати эта маленькая табличка должна иметь свойство обновляться. Если за 2024-06-01 у нас было 0 строк и мы сделали загрузку на 4 000 строк, то очевидно, что логи с нулем надо удалить. Здесь можно внедрить SCD, но мне историчность пока не нужна и я просто делаю group by и оставляю max(date).
Насколько понятно, что я написал?))
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥8❤2🤯1
Anonymous Poll
27%
17 сентября
13%
18 сентября
14%
19 сентября
19%
20 сентября
31%
21 сентября
29%
22 сентября
👍1🔥1👏1
Обучаем разработчиков платформы данных и берём в команду ⚡️
Регистрируйся на онлайн-интенсив в Открытые школы Т1!
От тебя нужен только опыт работы от 6 месяцев в проектах разработки хранилищ данных и желание попасть в команду Т1.
Лучшим участникам предложим оффер в Т1 — крупнейшую ИТ-компанию страны по версии RAEX и CNews Analytics 2023🔝.
Зачем участвовать?
⚙️Приобрести ценный опыт. Одними из первых на рынке внедряем технологии для управления данными.
⚙️Получить поддержку наставников. Карьерные треки для выпускников Открытых школ позволяют быстрее вырасти в мидла.
⚙️ Работать в классной компании, где есть все айтишные бонусы (ДМС, удалёнка и крутые офисы, спорт и обучение).
⌛️ Быстрое обучение: 1 месяц.
💻 Гибкий формат: все этапы онлайн, занятия по вечерам.
Бигтех ждёт тебя, подавай заявку до 13 сентября!
Старт интенсива: 16 сентября.
Реклама. Информация о рекламодателе
Регистрируйся на онлайн-интенсив в Открытые школы Т1!
От тебя нужен только опыт работы от 6 месяцев в проектах разработки хранилищ данных и желание попасть в команду Т1.
Лучшим участникам предложим оффер в Т1 — крупнейшую ИТ-компанию страны по версии RAEX и CNews Analytics 2023🔝.
Зачем участвовать?
⚙️Приобрести ценный опыт. Одними из первых на рынке внедряем технологии для управления данными.
⚙️Получить поддержку наставников. Карьерные треки для выпускников Открытых школ позволяют быстрее вырасти в мидла.
⚙️ Работать в классной компании, где есть все айтишные бонусы (ДМС, удалёнка и крутые офисы, спорт и обучение).
⌛️ Быстрое обучение: 1 месяц.
💻 Гибкий формат: все этапы онлайн, занятия по вечерам.
Бигтех ждёт тебя, подавай заявку до 13 сентября!
Старт интенсива: 16 сентября.
Реклама. Информация о рекламодателе
👎9🤔5🔥4❤3👍3
21 сентября в 12:00
Мощнейший стрим, где я отвечу на часто задаваемые вопросы про то, как сейчас на рынке DE, с какими проектами залетать в IT и не поздно ли?
Плюс вы накинули мне в комментах кучу дополнительных тем, которые могут даже не уместиться и в ДВА СТРИМА!
Постараюсь ответить на бОльшую часть, а также зарядить вас мотивацией и пушечной энергией, чтобы вы уже в этом году или край ВЕСНОЙ следующего года залетели в профессию!
Также анонсирую менторство и в целом расскажу, кому оно может быть нужно, а кому и бесполезно!
Стрим будет под запись, поэтому не страшно, если пропустишь. Сможешь вернуться позже и посмотреть в записи!
P.S. Вы также сможете задать свой вопрос на стриме, если хотите!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21❤10👍2😁1
Когда я пришел на свою первую работу в качестве Data Engineer, то первое время я ВООБЩЕ НИЧЕГО НЕ ПОНИМАЛ!
Т.е. эта витрина очевидно собиралась из каких-то сырых данных (таблиц), потом соединялась с другими по своей сложной логике, потом обновляла данные из другой таблицы и черти что еще! Я, пришел, такой зеленый, смотрел на код на Spark и не понимал даже откуда начать копать, чтобы разобраться...
🏗 При этом сборка витрины – это же ведь просто написанный код. И он часто меняется, дополняется. В некоторых источниках могло измениться поле (столбец), поэтому надо переписывать часть блока кода. А иногда могла замениться и вся таблица источник!
Как вы понимаете, документация не может так быстро корректироваться. Это надо еще отследить, передать в задачи системному аналитику! Я за то, чтобы документация писалась хотя бы на полгода жизни. Иначе в ней смысла абсолютно нет.
Но не везде так сложно. Умные люди придумали решение этой проблемы. Одно из решений – это DataHub. Оно open source, поэтому можете поставить у себя локально. Визуально это просто интерфейс, в котором вы можете проследить, как собирается табличка и из каких источников. Более того, можно увидить имена пользователей, типы полей, их наименование и разную статистику. Короче максимально удобная вещь, особенно при онбординге на новом месте!
Будете на собесе, можете спросить, есть ли у команды что-то похожее на DataHub! Кстати, из тех компаний, которые используют DataHub – это компания Сравни (кстати можете подписаться на их TG канал). Они даже статью отдельно об этом написали на Хабре! Да и в целом рекомендую на них подписаться. Довольно прогрессивные ребята в плане data стека.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19👍13🔥5😁2
В 12:00 стрим по московскому времени. Отвечу на ваши вопросы, расскажу про рынок DE, стек, а также анонсирую менторство!
Будет запись, поэтому сможете посмотреть потом в записи.
По времени не дольше двух часов.
Кстати, вы еще можете накинуть сюда дополнительных вопросов в комменты, пока есть возможность!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍4🔥3
Запись СТРИМА
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13