Я – Дата Инженер
4.32K subscribers
343 photos
33 videos
12 files
242 links
💻 Как войти в IT?
💵 Как стать Data Engineer
🗄 Что такое Big Data и кто ей управляет?
_____________________________
Автор @halltape
Все вопросы по рекламе @k_shredinger
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🔥38😁18
▶️ Курс по Hello, World | PYTHON!

Я решил записать по приколу небольшой видос по python. Выводим Hello, World! разными способами: от самого простого до самого сложного и странного!

СМОТРЕТЬ НА YOUTUBE

Бот для просмотра YouTube
@NamelessNetwork_bot

Промокод: DE
(FREE 2 недели)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍6😁65🤔3
Мы слишком много знаем!

И просто обязаны этим поделиться. За 5 лет существования школы karpovꓸcourses мы обучили более 95 000 человек, и 80% наших выпускников уже работают в VK, Яндексе, Авито и других известных компаниях. И мы решили сделать для вас Karpov.Conf — чтобы поделиться знаниями не только с нашими студентами, но и с каждым, кто интересуется аналитикой данных и другими направлениями Data Science.

Будем обсуждать особенности работы с Power BI и практическое применение ML-моделей в крупных компаниях, разберем пользовательский опыт и реализацию аналитики на базе Yagpt, узнаем, как дерево метрик помогает принимать решения, и какие ошибки совершают крупные компании в контексте аналитики.

Мы собрали действительно звездный состав спикеров, мы очень старались сделать это мероприятие максимально полезным — вам осталось только не пропустить его!

Регистрируйтесь на KARPOV.CONF 2025 — включите Data-driven на полную!
😁10🔥4🤯32👍2
Стрим для НОВИЧКОВ!

27 апреля (ВС) 20:00 МСК

Зачем я это делаю?
Чтобы помочь новичкам разобраться с огромным кол-вом технологий

Что будет на стриме?
🔵Покажу, для чего нужны все эти Airflow, Clickhouse, Hadoop и так далее
🔵Подскажу, на каком уровне нужно владеть ими
🔵Поотвечаю на ваши вопросы

Стрим реально только для тех, кто сейчас учится, либо только начал ходить на первые собесы. Опытным на стриме делать будет нечего.

📅 Дата: 27 апреля 2025
Время: 20:00 МСК
📍 Где: https://www.twitch.tv/halltape

Задать вопрос анонимно
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍124👏3
Сегодня СТРИМ в 20:00 МСК!

Стрим только для новичков.

Когда я только учился на ДЕ, я не понимал вот это:

🔵Зачем нужно так много программ?
🔵Почему нельзя обойтись ОДНОЙ?
🔵И если их так много, надо ли учить их все?
🔵А в чем вообще разница?

На все эти вопросы я хочу ответить сегодня на СТРИМЕ!
Я сделал класный конструктор по инструментам для Дата Инженеров.
После стрима вы научитесь собирать свои первые варианты DWH и наконец выйдете на НОВЫЙ УРОВЕНЬ СОЗНАНИЯ!

P.S. Кстати летом я планирую запустить закрытый платный буткемп, где я буду лично вас контроллировать и пинать, чтобы вы занимались. Плюс там будет разработка пет-проекта, чат с такими же новичками, разбор резюме. Короче я организовываю для вас среду для обучения с моим личным контролем, а вы учитесь. Я заработаю денег, а вы устроитесь на работу!

Подпишись на Twitch!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥39👍74🤔2🤯1
Спасибо за СТРИМ!

▶️YouTube

Бот для просмотра YouTube
@NamelessNetwork_bot

Промокод: DE
(FREE 2 недели)

Ссылка на доску MIRO
19🔥12👍4👏2
🟢 Обновление по Apache Spark!

Я расширил Roadmap для Data Engineer — теперь там есть материалы как для начинающих, так и для продвинутых DE по Spark!

📘 Для новичков:
• Папка SPARK/BASE содержит основы Spark. Что это такое, как он работает и т.д.

🚀 Для продвинутых:
• Папка SPARK/ARCHITECTURE - устройство Spark внутри
• Папка SPARK/ADVANCED охватывает темы оптимизации, join, shuffle, data skew, хинты и прочее.

Если ты только начинаешь или уже готовишься к реальным проектам — заходи, изучай, применяй! Буду рад обратной связи и предложениям по улучшению материала. 🚀

Если хочешь стать автором одного из разделов, делай fork репозитория и кидай PR!
Инструкция для новых авторов
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6216👏14👍3
МЕНЯ БЕСЯТ ЭТИ КОММЕНТЫ!

Я когда учился, меня сильно бесило, что очень мало объяснений для тупых и новичков. Многие объяснения – это сразу огромные СТАТЬИ, в которых вообще не понимаешь практическое применение.

Как объяснить "бабушке", что такое Кафка, Спарк, Хадуп?

Вот я помню, как видел, что люди пишут: Мы читаем данные из Кафки. А как это? Есть ли у нее интерфейс? Как выглядят данные там?

И в своих стримах я делюсь ЛИЧНЫМ ОПЫТОМ взаимодействия. Какой смысл говорить о партициях в Кафке, если люди могут не понимать, как эта Кафка вообще выглядит?

Меня бесят умники, которые мне пишут, что ТАК НЕЛЬЗЯ ГОВОРИТЬ!

Этот стрим не про Кафку, а про архитектуру ДВХ. У МЕНЯ БОМБИТ!

Знаете, меня бесило, что когда я учился, не было людей, кто рассказывал про конкретный рабочий процесс. Куда заходим, в какие программы, какой код пишем и где самое главное. Везде были эти ОБЩИЕ СЛОВА ->> ETL, ELT. А как оно на деле выглядит нихрена не понятно.

Дайте поддержку, плиз!

МЕНЯ БОМБИТ!!!
🔥158👍31👏106😁1
▶️Обновление курса(RoadMap) на версию 2.1▶️

В этом видео:

Материал разделён по уровням: Junior, Junior+ и выше;
Добавлена информация по Spark(Junior, Junior+, Middle, Senior);
Обновлена информация по Hadoop(Junior, Junior+);
Новый соавтор курса — Артем Подвальный;
Новый соавтор курса — Анна Бобкова;
Добавлен новый контент по GreenPlum(Junior+, Middle);
Разделены вопросы собеседований по темам;
Добавлен новый контент в темы - «Вопросы собеседований по SQL и Базам Данных»(Junior, Junior+);
Добавлена информация для людей, которые хотят стать соавторами данного детища;
Рассказываю - что планируется внести в версию 2.2 + о планах ведения телеграмм каналов + проведения стримов + введения подкастов + рассуждаю о мыслях проведения 3-4 месячных интенсивов с нуля до тех.собеса.

Если у тебя есть идеи, предложения, обратная связь и т.д., можешь написать, как в комментариях под этим постом⬇️, так и в личку — либо мне, либо Евгению! Мы всегда ЗА рациональные идеи!
Please open Telegram to view this post
VIEW IN TELEGRAM
33👍14🔥13
⚡️Анализируем продажи на Wildberries с помощью Python

С каждым днем все больше бизнесов выходят на маркетплейсы, а значит еще более ценными становятся аналитики, которые умеют с ними работать. Хотите за несколько часов собрать интересный кейс для своего портфолио?

Андрон Алексанян - эксперт по аналитике с 8 летним опытом и по совместительству CEO Simulative в прямом эфире проанализирует продажи на Wildberries с помощью Python.

Что будет на вебинаре:

🟠Напишем скрипт на Python, который каждый час собирает статистику о ранжировании карточки на WB по ключевым запросам;
🟠Построим наглядные визуализации для отслеживания динамики ранжирования.

Важно досмотреть вебинар до конца, чтобы узнать как упаковать этот кейс в портфолио своих проектов.

😶Зарегистрироваться на бесплатный вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
😁9🤔2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Сколько можно лезть к нам в DE?

Видео создано исключительно в юмористических целях и не несет под собой цели ввести вас в заблуждение
🔥25😁18👍116😱1
👍 Обновляю Пет Проект!

Неплохо так пересобрал свой ETL pipeline и теперь там есть Streaming + Batch. Это я собираю новую архитектуру с этого стрима и скорее всего она и будет в БУТКЕМПЕ в итоге!

На какой стадии сейчас:
🔵 В postgres автоматически наполняются таблицы + сами обновляют строки. Debezium считывает все изменения и закидывает в Kafka. Оттуда уже Spark Streaming льет в S3 бакет и раскладывает по партициям. Настроены heartbeat + signal таблицы.
🔵Почти тоже самое со второй таблицей, но уже настроен просто забор данных батчом.
🔵Появились prometheus и grafana для отслеживание метрик (но пока еще не настроил)
🔵Автоматизировал создание БД и табличек на стадии docker-compose (чтобы все ставилось с одной кнопки)
🔵Хранилище в реальном MinioS3 (раньше просто сохранялось в файловую систему)

Хочу сделать:
🔵 Добавить слои clean и mart в S3(сейчас только raw слой)
🔵 Написать spark джобы для построения витрин и складывания их в Clickhouse
🔵 Переписать старые airflow dags на новую архитектуру
🔵 Добавить Trino от CedrusData (у них есть free docker image)
🔵 Добавить Iceberg, либо продумать иной вариант обновления строк

Эта версия пока доступна в соседней ветке
Кто хочет, может внести свои правки и идеи, если есть желание. Более менее финальную версию дропну позже.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👏87👍2
Запуск буткемпа!

Вообще, основная цель буткемпа — оффер через 3 месяца

И для этого совсем не нужно учить весь Python или проходить тонну теории, как на курсах. Мы специально вырезаем весь лишний и ненужный материал, который не пригодится ни на собесах, ни на работе.

Что нужно для оффера?
🔵Резюме, которое проходит фильтры HR
🔵Пет-проект с нормальным ETL-пайплайном: батч, стриминг, API
🔵Понимание, как выстроить процесс от начала до конца: от источника до витрины
🔵Умение работать с Airflow, Spark, Greenplum, ClickHouse, Python, SQL (базово!)
🔵Навыки работы с Docker и командной строкой
🔵Умение отвечать на типичные вопросы с собесов

Все.
Остальное — избыточный багаж. Например, зачем учить MapReduce, если ты никогда не будешь это писать? Это легаси, которое давно уже закрыто фреймворками.

Мы смотрим на буткемп, как на симуляцию первой работы.
Представь, что ты уже устроился, и у тебя есть тимлиды. Мы и есть эти тимлиды. Мы даём задачи, показываем, как их решать, помогаем, если что-то не работает. Ты не учишься — ты работаешь.

Это важный момент: на первой работе от тебя никто не будет ждать глубоких теоретических знаний. Все, что нужно — это писать базовый код, запускать пайплайны и уметь решать реальные задачи. Вот этому мы и учим.

У всех Data Engineers задачи примерно одинаковые. Мы всё равно тянем данные, обрабатываем, кладем в хранилище. Отличия — только в стекe и мощности серверов.

🔴 В скором времени скину ссылку на чат ДЛЯ ВСЕХ, где можно будет посмотреть на ПЛАН БУТКЕМПА, задать вопросы, накидать идей, если у вас есть конкретная боль.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7118🔥13🤔5
🐯 Ищем Data-инженера в Outlines Tech

Outlines Tech — аккредитованная IT-компания и технологический партнёр для бизнеса. Разрабатываем ПО и поставляем IT-ресурсы. Получили награды как одни из лучших работодателей по версиям Forbes, РБК и hh.ru. Больше информации о нас — в карточках ☝️

Ищем Data-инженера с опытом работы в финансах или в казначействе в команду ценообразования кредитных предложений для розничного бизнеса 🔎

🐯 Задачи:
— Внедрять новые алгоритмы фондирования
— Работать с новыми источниками данных
— Документировать алгоритмы и бизнес-процессы
— Сопровождать задачи: от постановки и разработки до тестирования и вывода в прод
— Разбирать текущую методологию и участвовать в улучшении бизнес-процессов
— Контролировать сроки и качество выполнения задач

💼 Узнать, что предлагаем и откликнуться можно на hh.ru

А если вакансия для вас неактуальна, то поделитесь постом с друзьями. За трудоустройство по вашей рекомендации выплатим 70 000 рублей! 👉 Подробнее

Больше вакансий и отзывы о компании найдете здесь 👉 Здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍118🔥4😁1
Какой комп лучше?

Ваш комп не будет запускать расчеты локально, поэтому достаточно, чтобы тянул несколько открытых Pycharm, dbeaver, docker и много вкладок браузера.

Рекомендую MacBook Pro или Air m1 и выше (14 диагональ 16 Gb). Эту диагональ удобно таскать с собой, при этом в ней все еще можно работать с кодом.

Если на работе выдают такие компы, отлично, вам повезло.

Но есть варианты, когда вам будут выдавать просто винду (хуавей, асус или леново). В целом ок, если там дорогой ноут с хорошим экраном. Конечно, я всегда подключаю второй монитор, но и мелким экраном тоже пользуюсь.

Самый худший вариант - это выдача дешевого ноута с подключением удаленного рабочего стола и с кучей запретов на пользование chat gpt, телеги и так далее.

Это наверное самое неудобное. Хотя если за страдания доплачивать, то мб и норм)

А за сколько тогда человек готов будет на глиняных табличках например работать? )
🔥14👍6😁53