Я – Дата Инженер
4.32K subscribers
343 photos
33 videos
12 files
242 links
💻 Как войти в IT?
💵 Как стать Data Engineer
🗄 Что такое Big Data и кто ей управляет?
_____________________________
Автор @halltape
Все вопросы по рекламе @k_shredinger
Download Telegram
Канал Леши Арефьева про управление IT продуктами @alexcouncil. Метрики, инструменты и полезные материалы на околопродуктовые темы.

Подборка интересных постов:

- что делать, когда исследований овердохрена https://t.iss.one/alexcouncil/1156
- проектный менеджмент для самых маленьких https://t.iss.one/alexcouncil/1142
- про метрики продукта: CAC - сколько стоит клиент https://t.iss.one/alexcouncil/1136
- как из стартаперской команды сделать продуктовую https://t.iss.one/alexcouncil/1169
- история продукта: Figma https://t.iss.one/alexcouncil/745

Если интересно, подписывайтесь - @alexcouncil
🔥102👏2
Мы построили своё DWH!

▶️ Запись недавнего стрима теперь на YOUTUBE!

Спасибо всем, кто был на стриме, нас было более 150 человек!

Особенно спасибо тем ребятам, кто дискутировал, когда мы начали разговаривать про Trino и Spark.

Думаю, будет хорошей практикой собираться всем вместе и базарить на дата инженерские темы. Да и вообще я люблю стримы , можно выпустить пар после работы)

Бот для просмотра YouTube
@NamelessNetwork_bot

Промокод: DE
(FREE 2 недели)

Кстати интересно, что видос я нигде не шерил, но он все равно достаточно бодро начал собирать просмотры на ютубе.. прикол конечно
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥409👍7👏2🤔1
1 АПРЕЛЯ 20:00 МСК СТРИМ!

Стрим будет на TWITCH
🔴 ССЫЛКА НА МОЙ ТВИЧ

О чем будем говорить?
- Кризис на рынке
- Накрутка опыта
- Как найти работу зарубежом за $$$?

Также будет приглашенный спикер, который залетел в IT просто с ноги и уже получает доллары. От него будет мощнейшая презентация, которая готовилась наверное месяец ПЯТЬ!
Мы с ним кстати учились в Школе21 и то, как он залетел в ITишку – это просто что-то с чем-то!

Короче 1 апреля в 20:00 ГО поговорим о жизни.

Задать вопрос анонимно
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥274👏4
Бесплатно! Ребят, го встретимся на конфе?

24 апреля 18:30–21:30

Я зарегался и Шуст тоже. Планирую придти туда ногами, послушать умных людей, ну и поспрашивать каверзные вопросы про Трино..

О чем
"Lakehouse Meetup #3: внедрение Trino в Лемана Тех, опыт работы с Nessie в Азбуке Вкуса, круглый стол о проблемах lakehouse"

Зарегестрироваться - https://cedrusdata.timepad.ru/event/3299844/

Самое забавное - это не реклама. Я реально туда иду. Можем встретиться там же и мб потом полететь в бар? Типа мини сходка))
👍18🔥52
Запись стрима будет 7 дней на Twitch


Заходим
https://www.twitch.tv/halltape
9👍2
▶️ Надо ли крутить опыт в IT? [Подкаст За пределами Кода]

Гость: Анна, Дата Аналитик в М2

⚫️Как понять, что годен к IT?
⚫️Стоит ли крутить опыт?
⚫️Как быть джунам?

СМОТРЕТЬ НА YOUTUBE

ДВЕ недели бесплатного VPN для просмотра Youtube - @NamelessNetwork_bot

Подписывайтесь на наши каналы:
Евгений Виндюков
😀 Telegram канал
📺 Youtube канал

Анна Балицкая
💬 Telegram канал
💬 Бот для подготовки к собеседованиям

Полезные ссылки:
➡️ ROADMAP
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍6👏32🤯2
😁36🔥16👍3👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥38😁18
▶️ Курс по Hello, World | PYTHON!

Я решил записать по приколу небольшой видос по python. Выводим Hello, World! разными способами: от самого простого до самого сложного и странного!

СМОТРЕТЬ НА YOUTUBE

Бот для просмотра YouTube
@NamelessNetwork_bot

Промокод: DE
(FREE 2 недели)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍6😁65🤔3
Мы слишком много знаем!

И просто обязаны этим поделиться. За 5 лет существования школы karpovꓸcourses мы обучили более 95 000 человек, и 80% наших выпускников уже работают в VK, Яндексе, Авито и других известных компаниях. И мы решили сделать для вас Karpov.Conf — чтобы поделиться знаниями не только с нашими студентами, но и с каждым, кто интересуется аналитикой данных и другими направлениями Data Science.

Будем обсуждать особенности работы с Power BI и практическое применение ML-моделей в крупных компаниях, разберем пользовательский опыт и реализацию аналитики на базе Yagpt, узнаем, как дерево метрик помогает принимать решения, и какие ошибки совершают крупные компании в контексте аналитики.

Мы собрали действительно звездный состав спикеров, мы очень старались сделать это мероприятие максимально полезным — вам осталось только не пропустить его!

Регистрируйтесь на KARPOV.CONF 2025 — включите Data-driven на полную!
😁10🔥4🤯32👍2
Стрим для НОВИЧКОВ!

27 апреля (ВС) 20:00 МСК

Зачем я это делаю?
Чтобы помочь новичкам разобраться с огромным кол-вом технологий

Что будет на стриме?
🔵Покажу, для чего нужны все эти Airflow, Clickhouse, Hadoop и так далее
🔵Подскажу, на каком уровне нужно владеть ими
🔵Поотвечаю на ваши вопросы

Стрим реально только для тех, кто сейчас учится, либо только начал ходить на первые собесы. Опытным на стриме делать будет нечего.

📅 Дата: 27 апреля 2025
Время: 20:00 МСК
📍 Где: https://www.twitch.tv/halltape

Задать вопрос анонимно
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍124👏3
Сегодня СТРИМ в 20:00 МСК!

Стрим только для новичков.

Когда я только учился на ДЕ, я не понимал вот это:

🔵Зачем нужно так много программ?
🔵Почему нельзя обойтись ОДНОЙ?
🔵И если их так много, надо ли учить их все?
🔵А в чем вообще разница?

На все эти вопросы я хочу ответить сегодня на СТРИМЕ!
Я сделал класный конструктор по инструментам для Дата Инженеров.
После стрима вы научитесь собирать свои первые варианты DWH и наконец выйдете на НОВЫЙ УРОВЕНЬ СОЗНАНИЯ!

P.S. Кстати летом я планирую запустить закрытый платный буткемп, где я буду лично вас контроллировать и пинать, чтобы вы занимались. Плюс там будет разработка пет-проекта, чат с такими же новичками, разбор резюме. Короче я организовываю для вас среду для обучения с моим личным контролем, а вы учитесь. Я заработаю денег, а вы устроитесь на работу!

Подпишись на Twitch!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥39👍74🤔2🤯1
Спасибо за СТРИМ!

▶️YouTube

Бот для просмотра YouTube
@NamelessNetwork_bot

Промокод: DE
(FREE 2 недели)

Ссылка на доску MIRO
19🔥12👍4👏2
🟢 Обновление по Apache Spark!

Я расширил Roadmap для Data Engineer — теперь там есть материалы как для начинающих, так и для продвинутых DE по Spark!

📘 Для новичков:
• Папка SPARK/BASE содержит основы Spark. Что это такое, как он работает и т.д.

🚀 Для продвинутых:
• Папка SPARK/ARCHITECTURE - устройство Spark внутри
• Папка SPARK/ADVANCED охватывает темы оптимизации, join, shuffle, data skew, хинты и прочее.

Если ты только начинаешь или уже готовишься к реальным проектам — заходи, изучай, применяй! Буду рад обратной связи и предложениям по улучшению материала. 🚀

Если хочешь стать автором одного из разделов, делай fork репозитория и кидай PR!
Инструкция для новых авторов
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6216👏14👍3
МЕНЯ БЕСЯТ ЭТИ КОММЕНТЫ!

Я когда учился, меня сильно бесило, что очень мало объяснений для тупых и новичков. Многие объяснения – это сразу огромные СТАТЬИ, в которых вообще не понимаешь практическое применение.

Как объяснить "бабушке", что такое Кафка, Спарк, Хадуп?

Вот я помню, как видел, что люди пишут: Мы читаем данные из Кафки. А как это? Есть ли у нее интерфейс? Как выглядят данные там?

И в своих стримах я делюсь ЛИЧНЫМ ОПЫТОМ взаимодействия. Какой смысл говорить о партициях в Кафке, если люди могут не понимать, как эта Кафка вообще выглядит?

Меня бесят умники, которые мне пишут, что ТАК НЕЛЬЗЯ ГОВОРИТЬ!

Этот стрим не про Кафку, а про архитектуру ДВХ. У МЕНЯ БОМБИТ!

Знаете, меня бесило, что когда я учился, не было людей, кто рассказывал про конкретный рабочий процесс. Куда заходим, в какие программы, какой код пишем и где самое главное. Везде были эти ОБЩИЕ СЛОВА ->> ETL, ELT. А как оно на деле выглядит нихрена не понятно.

Дайте поддержку, плиз!

МЕНЯ БОМБИТ!!!
🔥158👍31👏106😁1
▶️Обновление курса(RoadMap) на версию 2.1▶️

В этом видео:

Материал разделён по уровням: Junior, Junior+ и выше;
Добавлена информация по Spark(Junior, Junior+, Middle, Senior);
Обновлена информация по Hadoop(Junior, Junior+);
Новый соавтор курса — Артем Подвальный;
Новый соавтор курса — Анна Бобкова;
Добавлен новый контент по GreenPlum(Junior+, Middle);
Разделены вопросы собеседований по темам;
Добавлен новый контент в темы - «Вопросы собеседований по SQL и Базам Данных»(Junior, Junior+);
Добавлена информация для людей, которые хотят стать соавторами данного детища;
Рассказываю - что планируется внести в версию 2.2 + о планах ведения телеграмм каналов + проведения стримов + введения подкастов + рассуждаю о мыслях проведения 3-4 месячных интенсивов с нуля до тех.собеса.

Если у тебя есть идеи, предложения, обратная связь и т.д., можешь написать, как в комментариях под этим постом⬇️, так и в личку — либо мне, либо Евгению! Мы всегда ЗА рациональные идеи!
Please open Telegram to view this post
VIEW IN TELEGRAM
33👍14🔥13
⚡️Анализируем продажи на Wildberries с помощью Python

С каждым днем все больше бизнесов выходят на маркетплейсы, а значит еще более ценными становятся аналитики, которые умеют с ними работать. Хотите за несколько часов собрать интересный кейс для своего портфолио?

Андрон Алексанян - эксперт по аналитике с 8 летним опытом и по совместительству CEO Simulative в прямом эфире проанализирует продажи на Wildberries с помощью Python.

Что будет на вебинаре:

🟠Напишем скрипт на Python, который каждый час собирает статистику о ранжировании карточки на WB по ключевым запросам;
🟠Построим наглядные визуализации для отслеживания динамики ранжирования.

Важно досмотреть вебинар до конца, чтобы узнать как упаковать этот кейс в портфолио своих проектов.

😶Зарегистрироваться на бесплатный вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
😁9🤔2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Сколько можно лезть к нам в DE?

Видео создано исключительно в юмористических целях и не несет под собой цели ввести вас в заблуждение
🔥25😁18👍116😱1
👍 Обновляю Пет Проект!

Неплохо так пересобрал свой ETL pipeline и теперь там есть Streaming + Batch. Это я собираю новую архитектуру с этого стрима и скорее всего она и будет в БУТКЕМПЕ в итоге!

На какой стадии сейчас:
🔵 В postgres автоматически наполняются таблицы + сами обновляют строки. Debezium считывает все изменения и закидывает в Kafka. Оттуда уже Spark Streaming льет в S3 бакет и раскладывает по партициям. Настроены heartbeat + signal таблицы.
🔵Почти тоже самое со второй таблицей, но уже настроен просто забор данных батчом.
🔵Появились prometheus и grafana для отслеживание метрик (но пока еще не настроил)
🔵Автоматизировал создание БД и табличек на стадии docker-compose (чтобы все ставилось с одной кнопки)
🔵Хранилище в реальном MinioS3 (раньше просто сохранялось в файловую систему)

Хочу сделать:
🔵 Добавить слои clean и mart в S3(сейчас только raw слой)
🔵 Написать spark джобы для построения витрин и складывания их в Clickhouse
🔵 Переписать старые airflow dags на новую архитектуру
🔵 Добавить Trino от CedrusData (у них есть free docker image)
🔵 Добавить Iceberg, либо продумать иной вариант обновления строк

Эта версия пока доступна в соседней ветке
Кто хочет, может внести свои правки и идеи, если есть желание. Более менее финальную версию дропну позже.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👏87👍2