Я – Дата Инженер | Евгений Виндюков
4.53K subscribers
337 photos
34 videos
12 files
234 links
💵 Как стать Data Engineer
🗄 Смотри Roadmap в закрепе!
_____________________________
Автор @halltape
Все вопросы по рекламе @k_shredinger
Download Telegram
🗣 Спасибо всем, кто был!

Запись основного и telegram bot стрима загружу сегодня!
Также скину ПРЕЗЕНТАЦИЮ со стрима!

Ссылки на pandas, spark, airflow, docker и так далее тоже подготовлю. В комментариях подкинули класные ресурсы.
Соберу все в одно место и сделаю пост!

Всем хорошего вечера! Сегодня можно и отдохнуть от кода!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥28🔥13
СТРИМ | Data Engineer

🔽 Ссылка на ВИДЕО🔽
https://youtu.be/75Vu8NqH_cU

Большой видос о том, кто такие Data Engineer, что следует знать и как ими стать? В видео рассказал о себе, о том, как учился, как справлялся с трудностями и многое другое. Также ответил на вопросы и послушали мнения других участников. Видео получилось длинным и насыщенным.

Для тех, кого интересуют определенные темы, рекомендую использовать нейросеть от Yandex (не реклама, а могла бы быть😂)

🔽 Ссылка на ВИДЕО🔽
https://youtu.be/75Vu8NqH_cU
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥10🍾7🦄2❤‍🔥1
СТРИМ | Telegram bot 😢 | Docker 👩‍💻

Видео со стрима про docker и telegram бота. Показываю самую базу про то, как работает бот в составе docker контейнера. Запускаем с помощью терминала и docker desktop. Видос чисто ознакомительный. Для тех, кто хочет покапаться в коде и самостоятельно запустить бота – ссылка на исходный код на моем github

🔽 Само видео со СТРИМА 🔽
https://youtu.be/Cw_c_f_Mj3Y
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤‍🔥2💯2👾2
🫥 Материал со СТРИМОВ!

Каналы, где постятся вакансии на DE и других:

🟡https://t.iss.one/analysts_hunter
🟡https://t.iss.one/addlist/UDbX0oiQVE03ZmYy
🔴https://t.iss.one/data_engineer_jobs

Все полезные ссылки из комментариев:

👩‍💻 Docker [3 часа Youtube]
👩‍💻 Docker [40 минут Youtube]
👩‍💻 Docker [Telegram]

Airflow [Youtube канал English]

🤖 Linux команды [Telegram]

📝 Регулярки [Сайт]
📝 Регулярки [Хабр]

💎 Слитые курсы [Telegram]
💎 Roadmap [Karpov courses]

🥲 Задача на палиндром)
 python
def ispalindrom(text):
return 'палиндром' if text == text[::-1] else 'не палиндром'


Класное сообщение
То что хотел озвучить я, но не удалось. Получайте опыт и боль собесов. Этот опыт учит, закаляет. Помните вакансий, компаний на рынке хватает. Столько же желающих устроиться. Не всегда всё проходит быстро и гладко, но без этого никак. Я лично покинул направление ИБ и перешёл в сторону ИТ. Было не так просто как казалось на первый взгляд, но оно того стоило. Есть цель будет желание, нет цели, значит, не будет результата. Всем удачи 🤝
А ещё меня на собесах выручала фраза при отсутствии опыта в чем-то: "Дайте мне 1-3 дня и я смогу изучить это для того чтобы изучить и начать применять это. Дайте мне неделю и я не только разберусь, но и научу Вас"
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥107❤‍🔥2
DE_Intro.pdf
5.3 MB
🟢 Материал со СТРИМА [ПРЕЗЕНТАЦИЯ]

Собственно сама презентация про Data Engineer (Кто это такие, как им стать и что нужно знать) со стрима в формате PDF!

В презентации найдете стек, который необходимо знать, уровень его владения, пример пет проекта, краткое описание технологий с которыми работает DE, а также ответы на ваши вопросы!

🔽 Смотреть по ссылке 🔽
https://youtu.be/75Vu8NqH_cU
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18💯3👍2🆒2
Forwarded from Госпожа аналитик 💚 Ия Зотова (Ия Зотова️)
Знаю, что у меня в канале есть разные аналитики, в том числе и системные🥰

Мы ищем в команду Сбера в департамент маркетинга Middle Системного аналитика. Джун+ тоже рассмотрим

Продукты и архитектура сложные, будут челленжить вас. Направление маркетинговых технологий.

Пишите в личку @IyaZotova с резюме, договоримся о собесе💚
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41👍1👏1💯1
💼 Нужен Стажер Data Engineer

🔽Описание вакансии
СБЕР

Самое время откликаться! В комментах можете написать, кто уже устроился за эти полгода? Необязательно даже на DE
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🤯2🔥1🆒1
Forwarded from Госпожа аналитик 💚 Ия Зотова (Ия Зотова️)
🎞 DATA ENGINEER: Накрутка опыта и база для старта в DE
Гость: Эдвард, Senior/Team Lead Data Engineer в Сбер

Эдвард в интервью поделится:
• Как начал свою карьеру DE из инженера-энергетика
• Про 14 отказов на собесах и их восприятие
• Кто такие джуны и сеньоры
• Как вырос до тим лида и рос в зарплате
• Какие базовые навыки нужны для вкатывания

Можно сказать получился праздничный выпуск 😁
Всех леди поздравляю с этим прекрасным днем!
🌷🌸🌸🌸

✈️ Подписывайтесь на наши каналы:
• Ия, Team Lead DA: https://t.iss.one/Lady_Analyst
• Евгений, DE: https://t.iss.one/halltape_data

Если было полезно, весело, то поддержите наш канал донатами:
💲 https://pay.mysbertips.ru/92484472
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥145💯3👍2
🔥 СВОЙ СЕРВЕР БЕСПЛАТНО 1 ГОД!

➡️ https://console.cloud.ru/

Можно создать свой сервер в облаке и развернуть там docker с вашим ботом, пет проектом и так далее. Дарят 4 000 бонусов. К серверу можно подключиться с помощью SSH через ваш любимый VSCode или PyCharm. Я развернул своего TELEGRAM БОТА для проверки. Все работает стабильно.
Может получится развернуть что-то посерьезнее, если памяти хватит. Я про несколько контейнеров в составе того же docker-compose. Надо будет попробовать.

Там для получения бонусов надо зарегестрироваться через СберID. Еще кстати предлагают использовать GitVerse. Это прям копия GitHub, GitLab, BitBucket (место, где можно хранить ваш код). По интерфейсу конечно все еще сырое, но импорт из своего гитхаба сделать можно. Репозиторий также клонируется на сервер без всяких проблем.

Рекомендую не терять возможность и протестировать свои приложения. Используя удаленный сервер вы научитесь:
1. Подключаться по SSH
2. Использовать docker контейнер
3. Загружать свой код через систему git (делать commit, push, pull)
4. Работа с командной строкой (нужно будет устанавливать самому docker, git)

По опыту я использовал виртуалки от Amazon Lightsail и Timeweb Cloud. У Амазона не очень понятный интерфейс нежели чем у второго. Да и оплата только иностранными картами. Его по большей части использовал для VPN.

У TimeWeb все понятно, просто и быстро. Поэтому, если не требуются зарубежные сервера, то используйте местных.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥11🔥4👌4🐳3👍2
🧐 HDFS Чтение данных

Итак повторим, у нас есть сервера, каждый из которых выполняет свою определенную функцию.

Мы сидим на ClientNode. Когда нам нужно прочитать файл с DataNode, нам нужно получить адреса всех блоков от NameNode и пойти искать их у DataNode. Причем мы получаем список ip адресов, где лежат блоки и их реплики. Ну вдруг один из дисков сгорел. Тогда мы сможем обратиться к его реплике, которая лежит на другом диске.

Также вместе с адресами блоков, NameNode отдает 3 хеш суммы. Хеш сумма – это "закодированная" строчка. Нельзя сказать, что она зашифрована, т.к. зашифрованные строчки можно расшифровать. Хеширование, все равно что разбить вазу кувалдой. В обратную сторону не работает. Зато результат всегда одинаковый. Хеш суммы, хранящиеся на NameNode сравниваются с хеш суммами на DataNode (Чтобы проверить к тому ли блоку мы обращаемся).

Хеширование может выглядеть буквально так: 2(3hfF3fhreu@#4vFGE3424g34r34r234rfew34fFGRTHR4vewf
Причем это может быть хешем от предложения "Хадуп - что-то про данные", или целой страницей добротного текста А4.
Если мы что-то хешируем, то это всегда будет давать один и тот же хеш. Он будет одинаковый для одного и того же объекта.

Т.е. когда система записывала в первый раз блок данных, она создала хеш сумму и передала ее NameNode. По идее, если блок не был поврежден, то и хеш сумма не поменяется. Поэтому, в случае, если хеш сумма не совпадет, тогда блок помечается, как corrupted. Все! Его использовать нельзя. Система переходит к его реплике и асинхронно параллельно воссоздает тот первый блок.

А зачем там 3 хеша? Чтобы избежать коллизий. Ведь есть вероятность, что хеш может совпасть. Может блоки попадутся такие, у которых при хешировании реально сойдутся звезды и хеш суммы будут идентичными. Поэтому берется сразу три хеш суммы и только когда ВСЕ ТРИ совпадают, тогда считается, что все ок.

#hdfs - весь цикл постов про hdfs
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥7🔥4🍾31🎄1
🧐 HDFS Запись Данных

Итак повторим, когда мы читаем данные, мы сравниваем три хеш суммы. В случае, если не совпали, помечаем блок, как corrupted и переходим к его реплике. Адреса блоков хранит NameNode

При записи данных ClientNode обращается к NameNode, передает ей размер файла, коэффициент репликации и запрашивает адреса на DataNode, куда можно записывать наши данные. NameNode выдает список DataNode.

ClientNode разбивает файл на блоки, согласно размеру блока. Дальше идет к первой DataNode и пишет первую реплику. И только! ClientNode пишет только первые реплики (оригиналы) файла. Вторые, третьи и последюущие копии пишут DataNode сами. При этом сигналы о том, что все успешно записалось, DataNode отправляют самостоятельно на NameNode в асинхронном режиме. Здесь же отправляются хеш суммы и адреса.

Также каждые 504 часа проводится "обход" hdfs на анализ состояния блоков. Если находится поврежденный блок, то этот сигнал отправляется на NameNode, а та в свою очередь дает команду на создание новой реплики.

#hdfs - весь цикл постов про hdfs
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥84💯31
#вакансия #системныйаналитик #middle

Всем привет! В команду занимающуюся разработкой martech инструментов для маркетинга КИБ Сбербанка, ищу Системного аналитика.

Позиция: Системный Аналитик
Занятость: полная
Формат: Москва, Офис\Гибрид

Проекты команды:
Система разметки маркетинговыми тегами SberTagManager. Она помогает аналитикам\маркетологам оперативно настраивать сбор действий пользователя на сайтах сбера
Сервис загрузки аудиторий в рекламные площадки. Он позволяет построить сегмент пользователей на основе внутренних данных и отправить его в рекламные кабинеты для дальнейшего запуска рекламы
Обязанности:
Сбор требований
Подготовка ТЗ
Изучение работы системы или ее аналогов
Взаимодействие с разработчиками во время создания фичей
Подготовка релизной документации
Обработка запросов на доработки системы
Обучение пользователей работе с инструментами
Разработка бизнес-требований, концепции системы, методик, разделов пользовательской и проектной документации, регламентов
Постановка задач и сопровождение разработки

Требования:
Опыт работы от 1 года
Нотации (BPMN/UML или другие)
Опыт участия в проектах по интеграции, понимание интеграций: REST, SOAP, брокеры, очереди
Знание форматов обмена данными
Знание SQL (базовый)
Опыт работы в Jira, Confluence

Условия
Льготные условия кредитования и ипотеки;
Скидки на продукты компаний-партнеров;
Бесплатная подписка СберПрайм+;
Обучение за счет Компании: онлайн курсы в Виртуальной школе Сбера и неограниченный доступ к библиотеке, обучение в Корпоративном университете, Тренинги, митапы и возможность получить новую квалификацию.

Вопросики и резюме: @Monroro или на [email protected]
👍7👌1💯1
🧐 Что такое HDFS? [ВИДЕО ГАЙД]

https://youtu.be/ySDGh_1d87g?si=Y3BOTteP9QOcmWaL
Записал с коллегами часовое видео про то, что такое HDFS!

Вы уже видели мои посты про файловую систему Hadoop. Но я рассказал вам довольно поверхностно и далеко не все. Крайне рекомендую посмотреть именно видео. Там я уделяю внимание многим интересным вещам, а также мои коллеги дата инженеры делятся своими наблюдениями.

🎁🎁🎁🎁🎁 Подписывайтесь на YouTube канал, ставьте лайки и оставляйте комментарии!

КСТАТИ
#hdfs - весь цикл постов про hdfs
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥7💯1
🟢 ROADMAP для Data Engineer!

Иди прямо по списку, чтобы стать Data Engineer!

📣 ССЫЛКА НА НОВЫЙ ROADMAP!!!

Знание языков, библиотек:
1
. SQL (Пройти полностью)
2. Python 1 (Пройти полностью)
3. Python 2 (Пройти 30-50%)
4. Pandas (Пройти полностью)
5. Pandas (Пройти 30-50%)

Знания технологий:
1. 🤖 Linux команды [Hexlet] - научись бегло пользоваться терминалом
2. 👩‍💻 Docker [40 минут Youtube] - научись собирать простые образы и контейнеры
3. Airflow [Youtube канал English] - разверни свой первый сложный Airflow docker-compose
4. 🧐 HDFS [Hadoop 1 час Youtube] - посмотри, как хранятся большие данные
5. SPARK [Хабр] - научись переписывать запросы с SQL, pandas на spark
5. 📝 Регулярки [Хабр] - протестируй на реальных данных

😈 Пройди ГЛАВНОГО БОССА!
Собери свой ETL pipeline, используя мой docker-compose!

👩‍💻 Все твои проекты лучше оформить на GitHub

👩‍💻 Ты все выучил? Тогда начинай решать задачи

👩‍💻 Что спросят на собесах?
Вот теоретические вопросы, а вот задачи.
А вот ответы.

💰 Готов собеседоваться? Все про резюме.
А вот тут найдешь работу:
🟡https://t.iss.one/analysts_hunter
🟡https://t.iss.one/addlist/UDbX0oiQVE03ZmYy
🟡https://t.iss.one/data_engineer_jobs

📺 Кто я и как попал в IT?
СМОТРИ интервью со мной!

🅱️🩸🩸🩸🩸
https://boosty.to/halltape_data

😘 Мой Youtube!
Мои видео про Data Enginner!

Прочее:
💎 Слитые курсы [Telegram]
💎 Roadmap [Karpov courses]
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥95👍1513👏64
🔗 ТОП ChatGPT или когда уже заменят этих программистов!

Мой список GPT, которыми я пользуюсь:
1. You.com
2. OpenChat
3. Mistral
4. Julius - может читать загружаемые данные

Причем Julius – это прям Jupyter Notebook, где в ячейках на Input сидит ChatGPT и читает ваш промпт, а в ячейках на вывод пишется и автоматически запускается код. Т.е. например я загрузил CSV файл, попросил проанализировать, и в ответ GPT начинает писать код на pandas и тут же его запускает. По факту конечно GPT не анализирует ваши данные, он лишь пишет код и дает команду на запуск. В ответ получает json с датафреймом, который можно распечатать в той же ячейке. А это считайте, как текст. Ну а с текстом chat работать умеет. Тут он просто его пересказывает.

Чисто в теории я уже думаю, что нет проблем запустить таким образом и spark приложение. Будет подольше, но в целом логика та же. Т.е. все что нужно – это дать нейронке читать содержимое ячеек пользователя.

Следующий шаг – дать возможность нейронке именно обучаться на данных. Очевидно, что это будет занимать куда больше времени. Но что если дать обучить на условном сэмпле одного дня в 1Тб, а дальше уже писать код, ориентированный на специфику хранения данных.

Если есть мысли на это счет, wellcome в комменты. А также можете поделиться своими ссылками на полезные AI

https://awclub.github.io/catalog/ - Библиотека всех AI
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾7🐳4🔥32
Чтоб всем такой уверенности:)))
😁30🤣16👍2🔥2
➡️ Если разберешься в этом, то точно устроишься!

Статистика прохождения курсов на stepik показывает, что люди бросают учебу на половине курса. Будьте исключением!

Я собрал проект, который умеет скачивать данные, обрабатывать и складывать их в БД! И все можно автоматизировать, а также запустить удаленно и чтобы оно работало без вас!

https://github.com/halltape/HalltapeETL

Собрал в docker простой ETL pipeline. На самом деле я собрал реальный пример одного из инструментов, каким я пользуюсь на работе. Мы почти также собираем данные из Яндекса и складываем их в ClickHouse! Поэтому считайте, что у вас в руках реальный работающий комбайн.

Airflow забирает данные со SpaceX API и сохраняет их в json и CSV, а также грузит все это в колоночный Clickhouse.
Внутри Airflow настроен Clickhouse connector, есть pandas. Также можно использовать PostgreSQL в качестве классической базы данных. Чтобы данные и dags не терялись, настроены volumes.

Каждый может склонировать репозиторий к себе локально и написать свой собственный pipeline. Ограничений нет. Можно придумать самый настоящий DWH + реализовать OLTP - OLAP схему.

Если есть идеи, как добавить сюда еще и BI систему, то буду рад PULL REQUEST! Например Yandex Data Lens теперь open source!

Требования:
1. Установленный Docker Desktop
2. Терминал bash
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25💯21🍾1
🩸 Вы точно хуже! Или это другие виноваты?

Все мои заголовки - чтобы вы обратили внимание. Но здесь я постараюсь в очередной раз накинуть вам мотивации! А потом разнести, а потом опять взбодрить.

Разработчики нужны! Проектов и идей много! Работу можно теперь найти не только на hh или Хабр Карьера, но и в телеге. Я для кого в roadmap сделал целую папку с тематическими каналами! Можно найти непосредственно lead команды! А если он ищет разработчика, то вы только сэкономите свое и чужое время на поиск! Нетворкинг - наше всё! Времена, когда вы откликались на вакансию на красном сайте и просто нервно ждали, проходят! Вы уже через меня можете найти работу! В скором времени я расскажу про реферальную программу! Это просто пушка! Возможностей стало только больше. Конкуренцию выигрывает тот, кто использует максимум инструментов!

Но, чтобы выделиться, вам нужно теперь привести свое резюме в порядок. Я вижу, что у некоторых людей за плечами есть опыт, которого не было у меня. Но почему-то это люди до сих пор не залетели в IT! Это и неуверенность и плохое резюме и страх провала. А где-то даже отсутствие хоть одного pet проекта. Вы как себя продавать будете? Даже опыт написания телеграм бота куда лучше, чем ничего. Без опыта вы по прежнему никому не нужны. Джуниор - это тяжесть, это косяки, это медленное выполнение задач, несамостоятельность. Вы такого строителя будете брать к себе дом строить? А почему его должна брать компания?

Приводите свое резюме в порядок! Пять человек из тысячи посмотрит на ваш проект. Два человека его полистают, и один возьмет вас на работу! Вам нужно всеми силами показать, что вы готовы взяться за работу и помогать команде. Общительность и коммуникабельность - это вообще одно из самых важных качеств. Можно убиваться по оптимизации вашего кода. Только вот он никому не нужен и пользоваться этим никто не будет. Кому вы такой умный нужны? А время потрачено, бабки уплочены.
🔥13💯76