Запись основного и telegram bot стрима загружу сегодня!
Также скину ПРЕЗЕНТАЦИЮ со стрима!
Ссылки на pandas, spark, airflow, docker и так далее тоже подготовлю. В комментариях подкинули класные ресурсы.
Соберу все в одно место и сделаю пост!
Всем хорошего вечера! Сегодня можно и отдохнуть от кода!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥28🔥13
СТРИМ | Data Engineer
🔽 Ссылка на ВИДЕО🔽
https://youtu.be/75Vu8NqH_cU
Большой видос о том, кто такие Data Engineer, что следует знать и как ими стать? В видео рассказал о себе, о том, как учился, как справлялся с трудностями и многое другое. Также ответил на вопросы и послушали мнения других участников. Видео получилось длинным и насыщенным.
Для тех, кого интересуют определенные темы, рекомендую использовать нейросеть от Yandex (не реклама, а могла бы быть😂)
🔽 Ссылка на ВИДЕО🔽
https://youtu.be/75Vu8NqH_cU
https://youtu.be/75Vu8NqH_cU
Большой видос о том, кто такие Data Engineer, что следует знать и как ими стать? В видео рассказал о себе, о том, как учился, как справлялся с трудностями и многое другое. Также ответил на вопросы и послушали мнения других участников. Видео получилось длинным и насыщенным.
Для тех, кого интересуют определенные темы, рекомендую использовать нейросеть от Yandex (не реклама, а могла бы быть😂)
https://youtu.be/75Vu8NqH_cU
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥10🍾7🦄2❤🔥1
СТРИМ | Telegram bot 😢 | Docker 👩💻
Видео со стрима про docker и telegram бота. Показываю самую базу про то, как работает бот в составе docker контейнера. Запускаем с помощью терминала и docker desktop. Видос чисто ознакомительный. Для тех, кто хочет покапаться в коде и самостоятельно запустить бота – ссылка на исходный код на моем github
🔽 Само видео со СТРИМА 🔽
https://youtu.be/Cw_c_f_Mj3Y
Видео со стрима про docker и telegram бота. Показываю самую базу про то, как работает бот в составе docker контейнера. Запускаем с помощью терминала и docker desktop. Видос чисто ознакомительный. Для тех, кто хочет покапаться в коде и самостоятельно запустить бота – ссылка на исходный код на моем github
https://youtu.be/Cw_c_f_Mj3Y
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤🔥2💯2👾2
Каналы, где постятся вакансии на DE и других:
Все полезные ссылки из комментариев:
Airflow [Youtube канал English]
📝 Регулярки [Сайт]
📝 Регулярки [Хабр]
💎 Слитые курсы [Telegram]
💎 Roadmap [Karpov courses]
python
def ispalindrom(text):
return 'палиндром' if text == text[::-1] else 'не палиндром'
Класное сообщение
То что хотел озвучить я, но не удалось. Получайте опыт и боль собесов. Этот опыт учит, закаляет. Помните вакансий, компаний на рынке хватает. Столько же желающих устроиться. Не всегда всё проходит быстро и гладко, но без этого никак. Я лично покинул направление ИБ и перешёл в сторону ИТ. Было не так просто как казалось на первый взгляд, но оно того стоило. Есть цель будет желание, нет цели, значит, не будет результата. Всем удачи 🤝
А ещё меня на собесах выручала фраза при отсутствии опыта в чем-то: "Дайте мне 1-3 дня и я смогу изучить это для того чтобы изучить и начать применять это. Дайте мне неделю и я не только разберусь, но и научу Вас"
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥10❤7❤🔥2
DE_Intro.pdf
5.3 MB
Собственно сама презентация про Data Engineer (Кто это такие, как им стать и что нужно знать) со стрима в формате PDF!
В презентации найдете стек, который необходимо знать, уровень его владения, пример пет проекта, краткое описание технологий с которыми работает DE, а также ответы на ваши вопросы!
https://youtu.be/75Vu8NqH_cU
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18💯3👍2🆒2
Forwarded from Госпожа аналитик 💚 Ия Зотова (Ия Зотова️)
Знаю, что у меня в канале есть разные аналитики, в том числе и системные🥰
Мы ищем в команду Сбера✨ в департамент маркетинга Middle Системного аналитика. Джун+ тоже рассмотрим
Продукты и архитектура сложные, будут челленжить вас. Направление маркетинговых технологий.
Пишите в личку @IyaZotova с резюме, договоримся о собесе💚
Мы ищем в команду Сбера
Продукты и архитектура сложные, будут челленжить вас. Направление маркетинговых технологий.
Пишите в личку @IyaZotova с резюме, договоримся о собесе
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤1👍1👏1💯1
СБЕР
Самое время откликаться! В комментах можете написать, кто уже устроился за эти полгода? Необязательно даже на DE
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🤯2🔥1🆒1
Forwarded from Госпожа аналитик 💚 Ия Зотова (Ия Зотова️)
Гость: Эдвард, Senior/Team Lead Data Engineer в Сбер
Эдвард в интервью поделится:
• Как начал свою карьеру DE из инженера-энергетика
• Про 14 отказов на собесах и их восприятие
• Кто такие джуны и сеньоры
• Как вырос до тим лида и рос в зарплате
• Какие базовые навыки нужны для вкатывания
Можно сказать получился праздничный выпуск 😁
Всех леди поздравляю с этим прекрасным днем!
• Ия, Team Lead DA: https://t.iss.one/Lady_Analyst
• Евгений, DE: https://t.iss.one/halltape_data
Если было полезно, весело, то поддержите наш канал донатами:
💲 https://pay.mysbertips.ru/92484472
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
DATA ENGINEER: Накрутка опыта и база для старта в DE | Интервью с Senior/Team Lead DE
Гость: Эдвард, Senior/Team Lead Data Engineer в Сбер
Эдвард в интервью поделится:
• Как начал свою карьеру DE из инженера-энергетика
• Про 14 отказов на собесах и их восприятие
• Кто такие джуны и сеньоры
• Как вырос до тим лида и рос в зарплате
• Какие…
Эдвард в интервью поделится:
• Как начал свою карьеру DE из инженера-энергетика
• Про 14 отказов на собесах и их восприятие
• Кто такие джуны и сеньоры
• Как вырос до тим лида и рос в зарплате
• Какие…
🔥14❤5💯3👍2
Можно создать свой сервер в облаке и развернуть там docker с вашим ботом, пет проектом и так далее. Дарят 4 000 бонусов. К серверу можно подключиться с помощью SSH через ваш любимый VSCode или PyCharm. Я развернул своего TELEGRAM БОТА для проверки. Все работает стабильно.
Может получится развернуть что-то посерьезнее, если памяти хватит. Я про несколько контейнеров в составе того же docker-compose. Надо будет попробовать.
Там для получения бонусов надо зарегестрироваться через СберID. Еще кстати предлагают использовать GitVerse. Это прям копия GitHub, GitLab, BitBucket (место, где можно хранить ваш код). По интерфейсу конечно все еще сырое, но импорт из своего гитхаба сделать можно. Репозиторий также клонируется на сервер без всяких проблем.
Рекомендую не терять возможность и протестировать свои приложения. Используя удаленный сервер вы научитесь:
1. Подключаться по SSH
2. Использовать docker контейнер
3. Загружать свой код через систему git (делать commit, push, pull)
4. Работа с командной строкой (нужно будет устанавливать самому docker, git)
По опыту я использовал виртуалки от Amazon Lightsail и Timeweb Cloud. У Амазона не очень понятный интерфейс нежели чем у второго. Да и оплата только иностранными картами. Его по большей части использовал для VPN.
У TimeWeb все понятно, просто и быстро. Поэтому, если не требуются зарубежные сервера, то используйте местных.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥11🔥4👌4🐳3👍2
Итак повторим, у нас есть сервера, каждый из которых выполняет свою определенную функцию.
Мы сидим на ClientNode. Когда нам нужно прочитать файл с DataNode, нам нужно получить адреса всех блоков от NameNode и пойти искать их у DataNode. Причем мы получаем список ip адресов, где лежат блоки и их реплики. Ну вдруг один из дисков сгорел. Тогда мы сможем обратиться к его реплике, которая лежит на другом диске.
Также вместе с адресами блоков, NameNode отдает 3 хеш суммы. Хеш сумма – это "закодированная" строчка. Нельзя сказать, что она зашифрована, т.к. зашифрованные строчки можно расшифровать. Хеширование, все равно что разбить вазу кувалдой. В обратную сторону не работает. Зато результат всегда одинаковый. Хеш суммы, хранящиеся на NameNode сравниваются с хеш суммами на DataNode (Чтобы проверить к тому ли блоку мы обращаемся).
Хеширование может выглядеть буквально так: 2(3hfF3fhreu@#4vFGE3424g34r34r234rfew34fFGRTHR4vewf
Причем это может быть хешем от предложения "Хадуп - что-то про данные", или целой страницей добротного текста А4.
Если мы что-то хешируем, то это всегда будет давать один и тот же хеш. Он будет одинаковый для одного и того же объекта.
Т.е. когда система записывала в первый раз блок данных, она создала хеш сумму и передала ее NameNode. По идее, если блок не был поврежден, то и хеш сумма не поменяется. Поэтому, в случае, если хеш сумма не совпадет, тогда блок помечается, как corrupted. Все! Его использовать нельзя. Система переходит к его реплике и асинхронно параллельно воссоздает тот первый блок.
А зачем там 3 хеша? Чтобы избежать коллизий. Ведь есть вероятность, что хеш может совпасть. Может блоки попадутся такие, у которых при хешировании реально сойдутся звезды и хеш суммы будут идентичными. Поэтому берется сразу три хеш суммы и только когда ВСЕ ТРИ совпадают, тогда считается, что все ок.
#hdfs - весь цикл постов про hdfs
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥7🔥4🍾3❤1🎄1
Откуда нашли мой канал?
Anonymous Poll
36%
Интервью на YouTube
28%
Из Data Learn
21%
Из другого telegram канала
9%
Похожие каналы (фишка tg)
4%
Знакомый скинул ссылку
7%
Другое (в комментариях)
Итак повторим, когда мы читаем данные, мы сравниваем три хеш суммы. В случае, если не совпали, помечаем блок, как corrupted и переходим к его реплике. Адреса блоков хранит NameNode
При записи данных ClientNode обращается к NameNode, передает ей размер файла, коэффициент репликации и запрашивает адреса на DataNode, куда можно записывать наши данные. NameNode выдает список DataNode.
ClientNode разбивает файл на блоки, согласно размеру блока. Дальше идет к первой DataNode и пишет первую реплику. И только! ClientNode пишет только первые реплики (оригиналы) файла. Вторые, третьи и последюущие копии пишут DataNode сами. При этом сигналы о том, что все успешно записалось, DataNode отправляют самостоятельно на NameNode в асинхронном режиме. Здесь же отправляются хеш суммы и адреса.
Также каждые 504 часа проводится "обход" hdfs на анализ состояния блоков. Если находится поврежденный блок, то этот сигнал отправляется на NameNode, а та в свою очередь дает команду на создание новой реплики.
#hdfs - весь цикл постов про hdfs
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8✍4💯3❤1
#вакансия #системныйаналитик #middle
Всем привет! В команду занимающуюся разработкой martech инструментов для маркетинга КИБ Сбербанка, ищу Системного аналитика.
Позиция: Системный Аналитик
Занятость: полная
Формат: Москва, Офис\Гибрид
Проекты команды:
Система разметки маркетинговыми тегами SberTagManager. Она помогает аналитикам\маркетологам оперативно настраивать сбор действий пользователя на сайтах сбера
Сервис загрузки аудиторий в рекламные площадки. Он позволяет построить сегмент пользователей на основе внутренних данных и отправить его в рекламные кабинеты для дальнейшего запуска рекламы
Обязанности:
Сбор требований
Подготовка ТЗ
Изучение работы системы или ее аналогов
Взаимодействие с разработчиками во время создания фичей
Подготовка релизной документации
Обработка запросов на доработки системы
Обучение пользователей работе с инструментами
Разработка бизнес-требований, концепции системы, методик, разделов пользовательской и проектной документации, регламентов
Постановка задач и сопровождение разработки
Требования:
Опыт работы от 1 года
Нотации (BPMN/UML или другие)
Опыт участия в проектах по интеграции, понимание интеграций: REST, SOAP, брокеры, очереди
Знание форматов обмена данными
Знание SQL (базовый)
Опыт работы в Jira, Confluence
Условия
Льготные условия кредитования и ипотеки;
Скидки на продукты компаний-партнеров;
Бесплатная подписка СберПрайм+;
Обучение за счет Компании: онлайн курсы в Виртуальной школе Сбера и неограниченный доступ к библиотеке, обучение в Корпоративном университете, Тренинги, митапы и возможность получить новую квалификацию.
Вопросики и резюме: @Monroro или на [email protected]
Всем привет! В команду занимающуюся разработкой martech инструментов для маркетинга КИБ Сбербанка, ищу Системного аналитика.
Позиция: Системный Аналитик
Занятость: полная
Формат: Москва, Офис\Гибрид
Проекты команды:
Система разметки маркетинговыми тегами SberTagManager. Она помогает аналитикам\маркетологам оперативно настраивать сбор действий пользователя на сайтах сбера
Сервис загрузки аудиторий в рекламные площадки. Он позволяет построить сегмент пользователей на основе внутренних данных и отправить его в рекламные кабинеты для дальнейшего запуска рекламы
Обязанности:
Сбор требований
Подготовка ТЗ
Изучение работы системы или ее аналогов
Взаимодействие с разработчиками во время создания фичей
Подготовка релизной документации
Обработка запросов на доработки системы
Обучение пользователей работе с инструментами
Разработка бизнес-требований, концепции системы, методик, разделов пользовательской и проектной документации, регламентов
Постановка задач и сопровождение разработки
Требования:
Опыт работы от 1 года
Нотации (BPMN/UML или другие)
Опыт участия в проектах по интеграции, понимание интеграций: REST, SOAP, брокеры, очереди
Знание форматов обмена данными
Знание SQL (базовый)
Опыт работы в Jira, Confluence
Условия
Льготные условия кредитования и ипотеки;
Скидки на продукты компаний-партнеров;
Бесплатная подписка СберПрайм+;
Обучение за счет Компании: онлайн курсы в Виртуальной школе Сбера и неограниченный доступ к библиотеке, обучение в Корпоративном университете, Тренинги, митапы и возможность получить новую квалификацию.
Вопросики и резюме: @Monroro или на [email protected]
👍7👌1💯1
https://youtu.be/ySDGh_1d87g?si=Y3BOTteP9QOcmWaL
Записал с коллегами часовое видео про то, что такое HDFS!
Вы уже видели мои посты про файловую систему Hadoop. Но я рассказал вам довольно поверхностно и далеко не все. Крайне рекомендую посмотреть именно видео. Там я уделяю внимание многим интересным вещам, а также мои коллеги дата инженеры делятся своими наблюдениями.
КСТАТИ
#hdfs - весь цикл постов про hdfs
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
HDFS | Что это такое и как оно работает? [Hadoop HDFS]
Deep Dive по HDFS.
Рассказываю базу про HDFS. О том, что это такое, как хранятся блоки, репликация, топология сети, что внутри и какие есть с этим проблемы.
Полезные ссылки:
Telegram канал: https://t.iss.one/halltape_data
Twitch канал: https://www.twitch.tv/halltape…
Рассказываю базу про HDFS. О том, что это такое, как хранятся блоки, репликация, топология сети, что внутри и какие есть с этим проблемы.
Полезные ссылки:
Telegram канал: https://t.iss.one/halltape_data
Twitch канал: https://www.twitch.tv/halltape…
👍16🔥7💯1
Иди прямо по списку, чтобы стать Data Engineer!
Знание языков, библиотек:
1. SQL (Пройти полностью)
2. Python 1 (Пройти полностью)
3. Python 2 (Пройти 30-50%)
4. Pandas (Пройти полностью)
5. Pandas (Пройти 30-50%)
Знания технологий:
1.
2.
3. Airflow [Youtube канал English] - разверни свой первый сложный Airflow docker-compose
4.
5. SPARK [Хабр] - научись переписывать запросы с SQL, pandas на spark
5. 📝 Регулярки [Хабр] - протестируй на реальных данных
Собери свой ETL pipeline, используя мой docker-compose!
Вот теоретические вопросы, а вот задачи.
А вот ответы.
А вот тут найдешь работу:
СМОТРИ интервью со мной!
https://boosty.to/halltape_data
Мои видео про Data Enginner!
Прочее:
💎 Слитые курсы [Telegram]
💎 Roadmap [Karpov courses]
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥95👍15❤13👏6⚡4
Мой список GPT, которыми я пользуюсь:
1. You.com
2. OpenChat
3. Mistral
4. Julius - может читать загружаемые данные
Причем Julius – это прям Jupyter Notebook, где в ячейках на Input сидит ChatGPT и читает ваш промпт, а в ячейках на вывод пишется и автоматически запускается код. Т.е. например я загрузил CSV файл, попросил проанализировать, и в ответ GPT начинает писать код на pandas и тут же его запускает. По факту конечно GPT не анализирует ваши данные, он лишь пишет код и дает команду на запуск. В ответ получает json с датафреймом, который можно распечатать в той же ячейке. А это считайте, как текст. Ну а с текстом chat работать умеет. Тут он просто его пересказывает.
Чисто в теории я уже думаю, что нет проблем запустить таким образом и spark приложение. Будет подольше, но в целом логика та же. Т.е. все что нужно – это дать нейронке читать содержимое ячеек пользователя.
Следующий шаг – дать возможность нейронке именно обучаться на данных. Очевидно, что это будет занимать куда больше времени. Но что если дать обучить на условном сэмпле одного дня в 1Тб, а дальше уже писать код, ориентированный на специфику хранения данных.
Если есть мысли на это счет, wellcome в комменты. А также можете поделиться своими ссылками на полезные AI
https://awclub.github.io/catalog/ - Библиотека всех AI
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾7🐳4🔥3☃2
Статистика прохождения курсов на stepik показывает, что люди бросают учебу на половине курса. Будьте исключением!
Я собрал проект, который умеет скачивать данные, обрабатывать и складывать их в БД! И все можно автоматизировать, а также запустить удаленно и чтобы оно работало без вас!
https://github.com/halltape/HalltapeETL
Собрал в docker простой ETL pipeline. На самом деле я собрал реальный пример одного из инструментов, каким я пользуюсь на работе. Мы почти также собираем данные из Яндекса и складываем их в ClickHouse! Поэтому считайте, что у вас в руках реальный работающий комбайн.
Airflow забирает данные со SpaceX API и сохраняет их в json и CSV, а также грузит все это в колоночный Clickhouse.
Внутри Airflow настроен Clickhouse connector, есть pandas. Также можно использовать PostgreSQL в качестве классической базы данных. Чтобы данные и dags не терялись, настроены volumes.
Каждый может склонировать репозиторий к себе локально и написать свой собственный pipeline. Ограничений нет. Можно придумать самый настоящий DWH + реализовать OLTP - OLAP схему.
Если есть идеи, как добавить сюда еще и BI систему, то буду рад PULL REQUEST! Например Yandex Data Lens теперь open source!
Требования:
1. Установленный Docker Desktop
2. Терминал bash
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25💯2❤1🍾1
🩸 Вы точно хуже! Или это другие виноваты?
Все мои заголовки - чтобы вы обратили внимание. Но здесь я постараюсь в очередной раз накинуть вам мотивации! А потом разнести, а потом опять взбодрить.
Разработчики нужны! Проектов и идей много! Работу можно теперь найти не только на hh или Хабр Карьера, но и в телеге. Я для кого в roadmap сделал целую папку с тематическими каналами! Можно найти непосредственно lead команды! А если он ищет разработчика, то вы только сэкономите свое и чужое время на поиск! Нетворкинг - наше всё! Времена, когда вы откликались на вакансию на красном сайте и просто нервно ждали, проходят! Вы уже через меня можете найти работу! В скором времени я расскажу про реферальную программу! Это просто пушка! Возможностей стало только больше. Конкуренцию выигрывает тот, кто использует максимум инструментов!
Но, чтобы выделиться, вам нужно теперь привести свое резюме в порядок. Я вижу, что у некоторых людей за плечами есть опыт, которого не было у меня. Но почему-то это люди до сих пор не залетели в IT! Это и неуверенность и плохое резюме и страх провала. А где-то даже отсутствие хоть одного pet проекта. Вы как себя продавать будете? Даже опыт написания телеграм бота куда лучше, чем ничего. Без опыта вы по прежнему никому не нужны. Джуниор - это тяжесть, это косяки, это медленное выполнение задач, несамостоятельность. Вы такого строителя будете брать к себе дом строить? А почему его должна брать компания?
Приводите свое резюме в порядок! Пять человек из тысячи посмотрит на ваш проект. Два человека его полистают, и один возьмет вас на работу! Вам нужно всеми силами показать, что вы готовы взяться за работу и помогать команде. Общительность и коммуникабельность - это вообще одно из самых важных качеств. Можно убиваться по оптимизации вашего кода. Только вот он никому не нужен и пользоваться этим никто не будет. Кому вы такой умный нужны? А время потрачено, бабки уплочены.
Все мои заголовки - чтобы вы обратили внимание. Но здесь я постараюсь в очередной раз накинуть вам мотивации! А потом разнести, а потом опять взбодрить.
Разработчики нужны! Проектов и идей много! Работу можно теперь найти не только на hh или Хабр Карьера, но и в телеге. Я для кого в roadmap сделал целую папку с тематическими каналами! Можно найти непосредственно lead команды! А если он ищет разработчика, то вы только сэкономите свое и чужое время на поиск! Нетворкинг - наше всё! Времена, когда вы откликались на вакансию на красном сайте и просто нервно ждали, проходят! Вы уже через меня можете найти работу! В скором времени я расскажу про реферальную программу! Это просто пушка! Возможностей стало только больше. Конкуренцию выигрывает тот, кто использует максимум инструментов!
Но, чтобы выделиться, вам нужно теперь привести свое резюме в порядок. Я вижу, что у некоторых людей за плечами есть опыт, которого не было у меня. Но почему-то это люди до сих пор не залетели в IT! Это и неуверенность и плохое резюме и страх провала. А где-то даже отсутствие хоть одного pet проекта. Вы как себя продавать будете? Даже опыт написания телеграм бота куда лучше, чем ничего. Без опыта вы по прежнему никому не нужны. Джуниор - это тяжесть, это косяки, это медленное выполнение задач, несамостоятельность. Вы такого строителя будете брать к себе дом строить? А почему его должна брать компания?
Приводите свое резюме в порядок! Пять человек из тысячи посмотрит на ваш проект. Два человека его полистают, и один возьмет вас на работу! Вам нужно всеми силами показать, что вы готовы взяться за работу и помогать команде. Общительность и коммуникабельность - это вообще одно из самых важных качеств. Можно убиваться по оптимизации вашего кода. Только вот он никому не нужен и пользоваться этим никто не будет. Кому вы такой умный нужны? А время потрачено, бабки уплочены.
🔥13💯7❤6