Я – Дата Инженер | Евгений Виндюков – Telegram

Я – Дата Инженер | Евгений Виндюков

4.37K subscribers

334 photos

32 videos

12 files

231 links

💻 Как войти в IT?
💵 Как стать Data Engineer
🗄 Что такое Big Data и кто ей управляет?
_____________________________
Автор @halltape
Все вопросы по рекламе @k_shredinger

Download Telegram

About

Blog

Apps

Platform

Я – Дата Инженер | Евгений Виндюков

4.37K subscribers

Я – Дата Инженер | Евгений Виндюков

Обучаем разработчиков платформы данных и берём в команду ⚡️

Регистрируйся на онлайн-интенсив в Открытые школы Т1!
От тебя нужен только опыт работы от 6 месяцев в проектах разработки хранилищ данных и желание попасть в команду Т1.

Лучшим участникам предложим оффер в Т1 — крупнейшую ИТ-компанию страны по версии RAEX и CNews Analytics 2023🔝.

Зачем участвовать?

⚙️Приобрести ценный опыт. Одними из первых на рынке внедряем технологии для управления данными.

⚙️Получить поддержку наставников. Карьерные треки для выпускников Открытых школ позволяют быстрее вырасти в мидла.

⚙️ Работать в классной компании, где есть все айтишные бонусы (ДМС, удалёнка и крутые офисы, спорт и обучение).

⌛️ Быстрое обучение: 1 месяц.
💻 Гибкий формат: все этапы онлайн, занятия по вечерам.

Бигтех ждёт тебя, подавай заявку до 13 сентября!
Старт интенсива: 16 сентября.

Реклама. Информация о рекламодателе

👎9🤔5🔥4❤3👍3

2.45K views09:19

Я – Дата Инженер | Евгений Виндюков

🔴

СТРИМ уже в ЭТУ СУББОТУ! 12:00!

21 сентября в 12:00

Мощнейший стрим, где я отвечу на часто задаваемые вопросы про то, как сейчас на рынке DE, с какими проектами залетать в IT и не поздно ли?

Плюс вы накинули мне в комментах кучу дополнительных тем, которые могут даже не уместиться и в ДВА СТРИМА!

Постараюсь ответить на бОльшую часть, а также зарядить вас мотивацией и пушечной энергией, чтобы вы уже в этом году или край ВЕСНОЙ следующего года залетели в профессию!

Также анонсирую менторство и в целом расскажу, кому оно может быть нужно, а кому и бесполезно!

Стрим будет под запись, поэтому не страшно, если пропустишь. Сможешь вернуться позже и посмотреть в записи!

P.S. Вы также сможете задать свой вопрос на стриме, если хотите!

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥21❤10👍2😁1

1.98K views18:39

Я – Дата Инженер | Евгений Виндюков

🗑

Полгода работы в мусорку!

Когда я пришел на свою первую работу в качестве Data Engineer, то первое время я ВООБЩЕ НИЧЕГО НЕ ПОНИМАЛ!

📉 Например есть таблица для аналитиков, которая содержит данные по кредитам. Там номер кредита, user_id, статус кредита, дата заявки и еще парочка полей с данными. Но как собирается эта витрина я вообще не понимал и, смотря первое время на код, мне становилось плохо и я ~~умирал~~.

Т.е. эта витрина очевидно собиралась из каких-то сырых данных (таблиц), потом соединялась с другими по своей сложной логике, потом обновляла данные из другой таблицы и черти что еще! Я, пришел, такой зеленый, смотрел на код на Spark и не понимал даже откуда начать копать, чтобы разобраться...

🏗 При этом сборка витрины – это же ведь просто написанный код. И он часто меняется, дополняется. В некоторых источниках могло измениться поле (столбец), поэтому надо переписывать часть блока кода. А иногда могла замениться и вся таблица источник!

Как вы понимаете, документация не может так быстро корректироваться. Это надо еще отследить, передать в задачи системному аналитику! Я за то, чтобы документация писалась хотя бы на полгода жизни. Иначе в ней смысла абсолютно нет.

☠️ Представили ситуацию? Это кстати ждет каждого из вас, когда вы придете на новое рабочее место. Если у вас нет, как минимум, схемы в документации, как собирается витрина, то вас ждет АД!

Но не везде так сложно. Умные люди придумали решение этой проблемы. Одно из решений – это DataHub. Оно open source, поэтому можете поставить у себя локально. Визуально это просто интерфейс, в котором вы можете проследить, как собирается табличка и из каких источников. Более того, можно увидить имена пользователей, типы полей, их наименование и разную статистику. Короче максимально удобная вещь, особенно при онбординге на новом месте!

Будете на собесе, можете спросить, есть ли у команды что-то похожее на DataHub! Кстати, из тех компаний, которые используют DataHub – это компания Сравни (кстати можете подписаться на их TG канал). Они даже статью отдельно об этом написали на Хабре! Да и в целом рекомендую на них подписаться. Довольно прогрессивные ребята в плане data стека.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤19👍13🔥5😁2

2.06K views14:16

Я – Дата Инженер | Евгений Виндюков

🔴

Уже ЗАВТРА стрим!

В 12:00 стрим по московскому времени. Отвечу на ваши вопросы, расскажу про рынок DE, стек, а также анонсирую менторство!

Будет запись, поэтому сможете посмотреть потом в записи.

По времени не дольше двух часов.

Кстати, вы еще можете накинуть сюда дополнительных вопросов в комменты, пока есть возможность!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍4🔥3

2.02K views14:36

Я – Дата Инженер | Евгений Виндюков

Live stream scheduled for Sep 21, 2024 at 09:00

14:38

Я – Дата Инженер | Евгений Виндюков

🟢

Стрим

➡️

https://t.iss.one/halltape_data?livestream=9c77fb4861cc7957d6

Please open Telegram to view this post

VIEW IN TELEGRAM

Я – Дата Инженер

💻 Как войти в IT?
💵 Как стать Data Engineer
🗄 Что такое Big Data и кто ей управляет?
_____________________________
Автор @halltape
Все вопросы по рекламе @k_shredinger

🔥10👍2❤1

2.22K viewsedited 14:38

Я – Дата Инженер | Евгений Виндюков

Ну че, готовы собираться в 12:00?

Anonymous Poll

Посмотрю в записи

117 voters2.16K views08:54

Я – Дата Инженер | Евгений Виндюков

Live stream started

09:00

Я – Дата Инженер | Евгений Виндюков

ЗАХОДИМ!

https://t.iss.one/halltape_data?livestream=9c77fb4861cc7957d6

Ждем еще минуты 4 и начинаем!

Я – Дата Инженер

💻 Как войти в IT?
💵 Как стать Data Engineer
🗄 Что такое Big Data и кто ей управляет?
_____________________________
Автор @halltape
Все вопросы по рекламе @k_shredinger

👍1

2.77K views09:01

Я – Дата Инженер | Евгений Виндюков

Live stream finished (2 hours)

11:00

Я – Дата Инженер | Евгений Виндюков

🔴

Спасибо всем, кто был на стриме!

Запись СТРИМА

⬇️

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13

2.42K viewsedited 11:09

Я – Дата Инженер | Евгений Виндюков

Media is too big

VIEW IN TELEGRAM

❤27👍7🔥3

2.38K views11:09

Я – Дата Инженер | Евгений Виндюков

Что делать c Youtube. Где теперь смотрите контент?

Anonymous Poll

💬 VK Видео

😘 Youtube + VPN

💬 Телеграм (качаю видосы)

Свой вариант (в комменты)

476 voters2.34K views09:01

Я – Дата Инженер | Евгений Виндюков

😘

Стрим на Youtube!

Это субботний стрим с лучшей картинкой + лучше звук!

➡️ Смотреть здесь

У меня Youtube работает нормально только через YOTA. Т.е. когда я раздаю интернет с телефона, то ютуб работает нормально. А вот с домашнего провайдера все печально. Но пока ютуб остается лучшей площадкой для распространения и просмотра контента. Я конечно гружу параллелльно на альтернативные площадки, но это в целом не имеет смысла. Только, как хранилище видео. Просмотров и трафика там нет.

Я на ютубе с июня 2008 года и помню все его интерфейсы. И просто взять и заменить его не получится. Там уже загружено невероятное кол-во контента + система рекомендаций.

Ну все равно подписывайтесь на ютуб канал!
https://www.youtube.com/@halltape/videos

Please open Telegram to view this post

VIEW IN TELEGRAM

РАЗДАЮ БАЗУ И МОТИВАЦИЮ ПО DATA ENGINEER!

Стрим в канале https://t.iss.one/halltape_data
Раздаю базу и мотивацию для тех, кто хочет залететь в профессию, но не знает с чего начать или столкнулся с блокером

Полезные ссылки:
Telegram канал: https://t.iss.one/halltape_data
Twitch канал: https://www.twitch.tv/halltape…

👍13🔥4❤3

2.37K views14:52

Я – Дата Инженер | Евгений Виндюков

🟢 Открываю ЗАПИСЬ на менторство!

Записаться здесь ➡️ КЛИКАЙ СЮДА

Приходи на менторство, если есть такие вопросы:

📌 Сколько просить денег на собеседовании?

📌 Крутить ли опыт или нет?

📌 Идти на стажировку или сразу на джуна?

📌 Берут ли после 30, 40, 50 лет в IT?

📌 Не знаешь с чего начать изучение

📌 Не понимаешь какой пет проект нужен и нужен ли он вообще

📌 Запутался в теории и уже не понимаешь, что надо знать на джуна

А может у тебя есть вопросы конкретно по технологии. Например тебе неясно, как работает Spark, чем он отличается от Pandas, а может ты до сих пор не понял(а), что такое Hadoop и как он связан с HDFS? Или может тебе хочется понять, что именно делает (прямо руками) на работе Дата Инженер!

Со всеми этими вопросами ты можешь писать мне! Разберемся!

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥16👎12👍10😁3❤2

2.28K views09:45

Я – Дата Инженер | Евгений Виндюков

🗣

Вакансия! BI

BI разработчик в Магнит Tech

Проект: СУСМ ОЦО (отдельное направление)
4 дашборда на данным момент
Отчет аналитика SLA
Цель:
Объединить операционные показатели ОЦО из различных систем в единую структурированную базу данных для мониторинга полной нагрузки на персонал и оперативного перераспределения ресурсов в случае форс-мажоров.
Задачи:
-разработка и развитие BI-отчетности ОЦО, -миграция отчетности в импортозамещенную BI-платформу
Стек технологий:
Qlik sense (это важно), yandex clickhouse, apache superset

Ждем от тебя:
-опыт работы в bi-инструментах (qlik, superset,pixbi)
-опыт разработки сложных моделей данных
-опытный пользователь sql. html css, java script приветствуются
-самостоятельность

Что предлагаем:
-очень интересный сложный продукт с большим количеством пользователей
-формат работы: полная удаленка, при желании – гибрид/офис
-оформление в IT-компании, аккредитованной в Министерстве цифрового развития

💬

Писать насчет вакансии
@Fedotovais

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👎3🔥3🤔1

2.29K viewsedited 13:00

Я – Дата Инженер | Евгений Виндюков

🧐

Блесните этим кейсом на собесе!

Смотрите. Вот вы прочитали данные из источников, трансформировали и если просто сохраните данные в таблицу, то физически она будет в виде кучи мелких файлов формата .parquet. Если это таблица за полгода, то будут сотни миллионов мелких файлов, что для HDFS очень плохо. Нужно стремиться, чтобы файлы были около 128Мб!

Что надо делать?
Если у вас инкрементальная загрузка за один день, после всех трансформаций пишете
df.repartition("date_column") - "date_column" это столбец с датой

Тогда Спарк перемешает все данные в памяти и склеит их в один файл. Тут нужно будет посмотреть. Если файл будет создаваться размером от 10 до 130Мб, то в целом можно так и оставить.
Если будет 1Гб, то можно в repartition добавить цифру 8. Тогда он будет разделять на равные кусочки по 128Мб.

Дальше, после того, как за один день у вас все укрупнено, пишите partitionBy("date_column"). Тогда для каждого дня создается отдельная папка.

В итоге у вас столько папок, сколько загружено дней. Одна папка = один день. И внутри каждой папки один и несколько крупных файлов.

В итоге при чтении таблицы, можно читать только определенные дни без FULL SCAN и сами файлики внутри папок не будут нагружать HDFS + их чтение тоже ускорится, так как это чтение одного файла, а не тысяч мелких.

Чтобы понять, насколько много у вас файлов и папок в HDFS есть такая команда:

hdfs dfs -count -v hdfs://hive/schema/table

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20🔥8❤5👎1

3.89K views17:17

Я – Дата Инженер | Евгений Виндюков

Как по залету? Будем праздновать?

Anonymous Poll

Залетел в IT летом 2024

Прохожу собесы сейчас

На руках оффер. Выхожу на работу

Только начал учиться

До 2025 пока не планирую собесы

Залетел в IT раньше 2024

👍6❤2🔥2

438 voters2.26K views11:39

Я – Дата Инженер | Евгений Виндюков

💻

Хочешь свой канал?

Уверен, среди вас есть люди, кто хочет начать вести свой телеграм канал. Но вы не знаете, как собрать первых подписчиков, о чем писать и будут ли тебя читать..

🚀 Сейчас я вам накину базу, прежде чем вы пойдете создавать свои телеграмм каналы. Это СУПЕР ВАЖНО! Пожалуйста, прочитайте и потом перечитайте несколько раз!

Сначала найти спрос, потом сделать предложение. Не наоборот. Если вы думаете, что рассказы про вашу жизнь или работу в целом могут быть интересны людям - это заблуждение.

💬 Как было у меня. Есть канал data learn. Когда я там написал, что залетел в DE, то меня сразу начали расспрашивать подробности. Было трудно ответить каждому, поэтому я создал канал и пригласил туда всех, кто хочет.

Дальше я только обслуживал этот спрос, создавая контент. Дополнительный трафик у меня идет с YouTube. Там люди переходят с моего канала и с подкастов. Есть спрос на то, что такое DE, как войти в IT или как сменить направление в IT. Пока этот спрос существует, я могу его обслуживать и получать аудиторию.

❌ Схемы наоборот не работают. Если вам кажется, что ваши красивые галстуки будут продаваться в пустыне - это не так. Продавайте воду (как бы двояко это не звучало).

Более того. Если выбранная ниша еще и на хайпе, то она сама будет толкать вас наверх, даже если качество вашего контента будет невысокое. В период золотой лихорадки сами знаете, что продавать.

Как выбрать нишу?
Поискать, что уже есть на рынке и оценить объем людей. Очевидно, что в DE нельзя собрать канал на 1млн человек. Столько просто нет специалистов. Но 10 владельцев бизнесов в вашем канале может принести больший профит, нежели 1млн школьников.

Люди приходят в ваш канал и вам нужно дать им реальную ценную инфу. Им пока что плевать на то, какой вы талантливый. Закройте им их боль, а потом может у них появится к вам симпатия. Вы работаете наемным сотрудником и обслуживаете спрос ваших подписчиков.

Вот вам пример. Я могу создать канал, в котором буду рассказывать, как я пишу посты, как монетизируется канал, как запустить бусти и в целом привлекать аудиторию.. Часть из вас может перейти туда и вот мои первые 10-20–30 человек. Я закрываю потребность, потому что знаю, что она есть.

Не наоборот. Кстати, если вам интересен формат бусти в IT и насколько он шире по контенту, чем основной канал, то можете перейти по ссылке и подписаться.

🅱️

🩸

🩸

🩸

🩸

❓

https://boosty.to/halltape_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤2🔥2

2.55K views14:50

Я – Дата Инженер | Евгений Виндюков

Объявляем большой сбор дата-специалистов!
На бесплатный Aston Data Engineering Meetup в Санкт-Петербурге.

Обсудим, как Modern Data Stack изменил подход к ETL-процессам и поговорим про неожиданные возможности оркестратора Airflow. Спикерами выступят опытные дата-инженеры, поэтому будет полезно специалистам уровня Middle+ и выше.

📍Мероприятие пройдет в двух форматах: онлайн и офлайн.

Когда: 17 октября
Офлайн 18:30 (мск) / онлайн 19:00 (мск)
Где: БЦ «Ренессанс Холл», 6 этаж, 601, Владимирский проспект, 23

Подробнее про темы:

🟢 Data Engineer Unirest Никита Целищев разберет подходы старой школы к построению ETL и сравнит их с современными методами. Также он расскажет, как изменилась роль разработчика DWH и дата-инженера c появлением Modern Data Stack.

🟢 Data Engineer ASTON Расим Гарипов расскажет про полезные возможности Airflow, которыми редко пользуются дата-инженеры и другие специалисты, научит писать DAG-и в едином, читаемом и понятном виде. Кроме того, он поделится опытом работы с Data-aware Scheduling и разметкой Data Lineage, и объяснит, зачем нужен triggerer в Airflow и как его задействовать.

👉 Регистрируйся по ссылке и приходи!

Реклама ООО "Астон", ИНН 9715350151, erid=2VtzqxEGTFs

👍8👎4😁4❤3🔥3

2.64K views08:00

Я – Дата Инженер | Евгений Виндюков

🦾 Топ команд в Terminal!

Это один из пунктов Roadmap V2.0
Самые частые команды в Linux, которыми я пользуюсь почти каждый день. Нет смысла учить весь линукс, когда вы будете реально использовать только 10 команд.

ls - список файлов и директорий в текущем каталоге

ls -l  # подробный список
ls -a  # включая скрытые файлы

cd - смена текущего каталога

cd /path/to/directory
cd ..  # выйти из текущей папки на уровень выше

pwd - показать текущий путь в каталог, где вы находитесь

pwd

cp - копирование файлов и директорий

cp source destination

mv - перемещение или переименование файлов и директорий

mv source destination

touch - создание файлов

touch file.txt # создать файл

vim - встроенный редактор кода

vim my_code.py
# Чтобы выйти из vim, нужно нажать esc, потом :wq (это сохраняет файл и выходит из него)

rm - удаление файлов и директорий

rm file
rm -r directory  # удаление директории и её содержимого

cat - вывод содержимого файла

cat file

grep - поиск строк в файле

grep "apple" file

Сохрани, чтобы не забыть!

🔥39👍16😁4

2.59K views09:01