💡 О чем канал?
Меня зовут Дмитрий, я Data Engineer и автор SQL-курсов.
Этот канал — для тех, кто хочет уверенно войти в Data Engineering и не потеряться на старте.
Здесь делюсь тем, что помогает на практике — без воды и академической скуки:
🔺 SQL, Spark, пайплайны, архитектура
🔺 Как пройти собес и не сгореть
🔺 Мой путь: от Бауманки и инженерии — к IT и данным
🔺 Подборки задач, мини-курсы, тесты, реальный опыт
🎯 Кому будет полезно:
— новичкам, кто хочет вкатиться в данные и не знает с чего начать
— джунам, которым скоро на собес
— тем, кто учит SQL и хочет понять, как применять его в жизни
📌 Всё про мои курсы и материалы — здесь:
👉 kuzmin-dmitry.ru — всё в одном месте.
📌 Полезное от меня:
1️⃣ Репозиторий материалов (GitHub)
2️⃣ Обучение SQL на Stepik
3️⃣ SQL-собес: 100 задач для Junior
4️⃣ SQL-собес: 100 задач для Middle
5️⃣ Полная программа подготовки: Junior + Middle
6️⃣ Бесплатный SQL-тест
💡 Промо на все курсы — SQL2025
💻 Сейчас я разрабатываю практикум по Apache Spark для инженеров и аналитиков. Работа в Docker. Релиз в сентябре.
⭐ Если интересно получить ранний доступ со скидкой, напишите в личку (ссылка в описании канала).
Меня зовут Дмитрий, я Data Engineer и автор SQL-курсов.
Этот канал — для тех, кто хочет уверенно войти в Data Engineering и не потеряться на старте.
Здесь делюсь тем, что помогает на практике — без воды и академической скуки:
— новичкам, кто хочет вкатиться в данные и не знает с чего начать
— джунам, которым скоро на собес
— тем, кто учит SQL и хочет понять, как применять его в жизни
📌 Всё про мои курсы и материалы — здесь:
👉 kuzmin-dmitry.ru — всё в одном месте.
📌 Полезное от меня:
1️⃣ Репозиторий материалов (GitHub)
2️⃣ Обучение SQL на Stepik
3️⃣ SQL-собес: 100 задач для Junior
4️⃣ SQL-собес: 100 задач для Middle
5️⃣ Полная программа подготовки: Junior + Middle
6️⃣ Бесплатный SQL-тест
💡 Промо на все курсы — SQL2025
Please open Telegram to view this post
VIEW IN TELEGRAM
kuzmin-dmitry.ru
Дмитрий Кузьмин | Инженерия данных
Курсы, практикумы и материалы по SQL и Data Engineering от Дмитрия Кузьмина. Для аналитиков и инженеров, которые хотят расти.
1🔥12👍6🤝2
Дмитрий Кузьмин. Инженерия данных pinned «💡 О чем канал? Меня зовут Дмитрий, я Data Engineer и автор SQL-курсов. Этот канал — для тех, кто хочет уверенно войти в Data Engineering и не потеряться на старте. Здесь делюсь тем, что помогает на практике — без воды и академической скуки: 🔺 SQL, Spark…»
Как поверхностно понять, что нравится область DE?
Расскажу на своем примере, а вы отмечайте, совпало ли.
✅ Привлекает упорядоченность в деталях.
✅ Любите таблицы.
✅ Интересны современные технология.
✅ Интересно развитие личностных и профессиональных качеств (относится ко многим областям).
✅ Не пугают нестандартные задачи и миллион сделанных неверных решений.
Это не профессиональный тест от hh.
Косвенные выводы уже можете сделать 🙌🏻
#путь_de
Расскажу на своем примере, а вы отмечайте, совпало ли.
✅ Привлекает упорядоченность в деталях.
✅ Любите таблицы.
✅ Интересны современные технология.
✅ Интересно развитие личностных и профессиональных качеств (относится ко многим областям).
✅ Не пугают нестандартные задачи и миллион сделанных неверных решений.
Это не профессиональный тест от hh.
Косвенные выводы уже можете сделать 🙌🏻
#путь_de
👍2
Лучшие материалы для знакомства с SQL
Достаточно выделять по 1-2 часа в день на обучение, чтобы не перегореть и относительно быстро влиться в эту тему.
До первого собеседования я прошел как раз первые два курса.
Интерактивный тренажер по SQL
https://stepik.org/course/63054
Это лучшее, что я видел для старта и наработки навыка в написании запросов
Основы SQL
https://stepik.org/course/51562
Платный курс, но на мой взгляд не уступает первому.
https://sql-academy.org/ru
Тоже очень неплохой ресурс. Можно проходить параллельно. Тут дополнительно затрагивается важная тема «Оконные функции»
#курсы
Достаточно выделять по 1-2 часа в день на обучение, чтобы не перегореть и относительно быстро влиться в эту тему.
До первого собеседования я прошел как раз первые два курса.
Интерактивный тренажер по SQL
https://stepik.org/course/63054
Это лучшее, что я видел для старта и наработки навыка в написании запросов
Основы SQL
https://stepik.org/course/51562
Платный курс, но на мой взгляд не уступает первому.
https://sql-academy.org/ru
Тоже очень неплохой ресурс. Можно проходить параллельно. Тут дополнительно затрагивается важная тема «Оконные функции»
#курсы
👍6❤1
Немного саморефлексии
Вы замечали, что если какое-то дело или занятие вам не особо нравится, то часто вообще не получается?
У меня так было с программированием в ВУЗе. На первом курсе нам читали лекции по C++. Для меня это был какой-то кошмар: я не понимал почти ничего, как следствие, ничего не получалось. Я злился, мне не нравилось это еще больше, и оно не получалось еще больше.
Какой-то замкнутый круг⛔️
Только недавно, пару лет назад, сидя на работе и выполняя одни и те же действия, я вдруг понял, что хочу это автоматизировать.
Тут сразу вспомнились учебние годы, но та ненависть к программированию сменилась искренним интересом. Так я начал изучать Python.
И как только вскоре я получил результат, а именно автоматический процесс, который отрабатывает по одному нажатию кнопки, не требует полу часа рабочего времени и избавлен от ошибок и человеческого фактора, то полностью проникся смыслом и интересом к программированию и автоматизации небольших рабочих процессов.
Даже сейчас есть вещи, над которыми я время от времени работаю дома, чтобы упростить себе жизнь.
Мораль истории такова: сделайте так, чтобы дело стало вам интересным, и оно будет лучше получаться у вас!
#мысли
Вы замечали, что если какое-то дело или занятие вам не особо нравится, то часто вообще не получается?
У меня так было с программированием в ВУЗе. На первом курсе нам читали лекции по C++. Для меня это был какой-то кошмар: я не понимал почти ничего, как следствие, ничего не получалось. Я злился, мне не нравилось это еще больше, и оно не получалось еще больше.
Какой-то замкнутый круг
Только недавно, пару лет назад, сидя на работе и выполняя одни и те же действия, я вдруг понял, что хочу это автоматизировать.
Тут сразу вспомнились учебние годы, но та ненависть к программированию сменилась искренним интересом. Так я начал изучать Python.
И как только вскоре я получил результат, а именно автоматический процесс, который отрабатывает по одному нажатию кнопки, не требует полу часа рабочего времени и избавлен от ошибок и человеческого фактора, то полностью проникся смыслом и интересом к программированию и автоматизации небольших рабочих процессов.
Даже сейчас есть вещи, над которыми я время от времени работаю дома, чтобы упростить себе жизнь.
Мораль истории такова: сделайте так, чтобы дело стало вам интересным, и оно будет лучше получаться у вас!
#мысли
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Хочу постепенно знакомить вас с терминологией области данных, чтобы мне было проще говорить о сложном.
Расскажу про каждый термин сначала просто, а потом дам определение и комментарии.
ETL
Extract - Transform - Load
Просто: в общем смысле это процесс извлечения данных, их преобразование и загрузка в необходимое место.
Сложно: технология, которая включает в себя извлечение данных из различных источников, их преобразование в структурированный формат и загрузку в хранилище данных для последующего анализа.
Настройка и поддержка ETL - зачастую основная задача DE.
Пример: вы хотите знать топ 10 самых комментируемых фильмов на кинопортале. Чтобы это сделать, нужно
1. Подключиться к кинопорталу (источник данных) и получить данные о фильмах и комментариях.
2. Произвести некоторые операции над данными (убрать фильмы без комментариев, отсортировать и вывести только топ 10 фильмов).
3. Загрузить эти данные в хранилище данных.
(Если работаете локально, это может быть база данных или даже обычный Excel файл).
4. Поставить этот конвейер данных на расписание, если требуется получать оценку фильмов на постоянной основе.
P.S. Также есть ELT - когда сначала происходит извлечение и загрузка данных в хранилище, а уже в хранилище производятся действия над данными.
#база_знаний
Расскажу про каждый термин сначала просто, а потом дам определение и комментарии.
ETL
Extract - Transform - Load
Просто: в общем смысле это процесс извлечения данных, их преобразование и загрузка в необходимое место.
Сложно: технология, которая включает в себя извлечение данных из различных источников, их преобразование в структурированный формат и загрузку в хранилище данных для последующего анализа.
Настройка и поддержка ETL - зачастую основная задача DE.
Пример: вы хотите знать топ 10 самых комментируемых фильмов на кинопортале. Чтобы это сделать, нужно
1. Подключиться к кинопорталу (источник данных) и получить данные о фильмах и комментариях.
2. Произвести некоторые операции над данными (убрать фильмы без комментариев, отсортировать и вывести только топ 10 фильмов).
3. Загрузить эти данные в хранилище данных.
(Если работаете локально, это может быть база данных или даже обычный Excel файл).
4. Поставить этот конвейер данных на расписание, если требуется получать оценку фильмов на постоянной основе.
P.S. Также есть ELT - когда сначала происходит извлечение и загрузка данных в хранилище, а уже в хранилище производятся действия над данными.
#база_знаний
👍3
Такой формат по терминологии
Anonymous Poll
86%
Норм, в целом понятно
11%
Хотелось бы поподробнее
3%
Свой ответ в комментариях
Чтобы рассказать про хранилище данных, сначала стоит затронуть такие определения, как OLTP и OLAP системы.
Много информации читал, попробую рассказать простыми словами:
OLTP - системы (Online Transaction Processing) - системы оперативной обработки информации.
Эти системы должны быть:
- надежны,
- доступны 24/7, чтобы не потерять данные. Потеря данных в таких системах может стоить бизнесу денег.
- Запросы в таких системах не должны превышать микро или мили секунд.
OLTP - это то, что используют в магазинах или банках, чтобы обрабатывать наши ежедневные транзакции с деньгами. Например, когда мы платим за покупки картой или переводим деньги со счета на счет.
Например, это кассовый аппарат в магазине, который сразу регистрирует каждую покупку и обновляет данные о товарах в магазине.
OLAP - системы (Online Analytical Processing) - системы для аналитики и построения сложных запросов.
- запросы довольно сложные
- запросов к такой системе не много, относительно OLTP
- в запросах обычно участвует несколько таблиц
- в таких системах хранятся агрегированные исторические данные.
Например, система отчетности для компании, которая позволяет анализировать продажи за определенный период времени по разным параметрам, таким как регион, продукт и клиент.
То есть OLTP - это про быстрые транзакции, высокую надежность, резервное копирование дабы не потерять данные, простые запросы.
В свою очередь, OLAP - это про сложные запросы, не нормализованные данные, возможность добычи данных, проведение углубленного анализа, анализа существующих тенденций в данных. Эти системы автоматически обрабатывают вычисления огромных структур данных.
На практике никогда не возникал вопрос, с каким типом системы я работаю, но теорию полезно знать. Она нужна, чтобы идти дальше. Если есть вопросы, задавайте. Будем разбираться вместе☝🏻
#база_знаний
Много информации читал, попробую рассказать простыми словами:
OLTP - системы (Online Transaction Processing) - системы оперативной обработки информации.
Эти системы должны быть:
- надежны,
- доступны 24/7, чтобы не потерять данные. Потеря данных в таких системах может стоить бизнесу денег.
- Запросы в таких системах не должны превышать микро или мили секунд.
OLTP - это то, что используют в магазинах или банках, чтобы обрабатывать наши ежедневные транзакции с деньгами. Например, когда мы платим за покупки картой или переводим деньги со счета на счет.
Например, это кассовый аппарат в магазине, который сразу регистрирует каждую покупку и обновляет данные о товарах в магазине.
OLAP - системы (Online Analytical Processing) - системы для аналитики и построения сложных запросов.
- запросы довольно сложные
- запросов к такой системе не много, относительно OLTP
- в запросах обычно участвует несколько таблиц
- в таких системах хранятся агрегированные исторические данные.
Например, система отчетности для компании, которая позволяет анализировать продажи за определенный период времени по разным параметрам, таким как регион, продукт и клиент.
То есть OLTP - это про быстрые транзакции, высокую надежность, резервное копирование дабы не потерять данные, простые запросы.
В свою очередь, OLAP - это про сложные запросы, не нормализованные данные, возможность добычи данных, проведение углубленного анализа, анализа существующих тенденций в данных. Эти системы автоматически обрабатывают вычисления огромных структур данных.
На практике никогда не возникал вопрос, с каким типом системы я работаю, но теорию полезно знать. Она нужна, чтобы идти дальше. Если есть вопросы, задавайте. Будем разбираться вместе☝🏻
#база_знаний
👍5❤1
Сегодня я узнал, что зачислен на курс Сбер Университета на программу «Apache Spark для Инженерии данных».
Это очень круто, поскольку со Spark я начал работать в марте этого года. А тут будет буст в этом направлении. Старт вроде как в августе.
Посмотрим, на что я подписался🥷
P.S. Spark - фреймворк для распределенной работы с Big Data. Я не успеваю давать определения всему, но обещаю рассказать в ближайшее время.
#путь_de
Это очень круто, поскольку со Spark я начал работать в марте этого года. А тут будет буст в этом направлении. Старт вроде как в августе.
Посмотрим, на что я подписался
P.S. Spark - фреймворк для распределенной работы с Big Data. Я не успеваю давать определения всему, но обещаю рассказать в ближайшее время.
#путь_de
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤2
Мне интересно еще раз вернуться к программированию, потому что только на SQL далеко не уедешь.
Когда я начинал работать в IT (в далеком 2021), я столкнулся с Python.
Сколько боли я тогда испытал, вы не представляете!) потому что думал «это не мое»
Отношение опять же изменилось, как я подружился с ним и поймал интерес к автоматизации рутинных рабочих задач.
Инженеру прям must have знать язык, и в большинстве случаев это именно Python.
Зачем?
1. Подключение к различным источникам данных и системам
2. Создание потоков данных
3. Да просто быть крутым перцем
Несколько классных ресурсов по теме:
1. Серия https://stepik.org/course/58852
2. https://stepik.org/course/114354
3. https://stepik.org/course/120014
Прям очень годные курсы. Простые и понятные в освоении.
Не чувствуйте боль.
#курсы
#путь_de
Когда я начинал работать в IT (в далеком 2021), я столкнулся с Python.
Сколько боли я тогда испытал, вы не представляете!) потому что думал «это не мое»
Отношение опять же изменилось, как я подружился с ним и поймал интерес к автоматизации рутинных рабочих задач.
Инженеру прям must have знать язык, и в большинстве случаев это именно Python.
Зачем?
1. Подключение к различным источникам данных и системам
2. Создание потоков данных
3. Да просто быть крутым перцем
Несколько классных ресурсов по теме:
1. Серия https://stepik.org/course/58852
2. https://stepik.org/course/114354
3. https://stepik.org/course/120014
Прям очень годные курсы. Простые и понятные в освоении.
Не чувствуйте боль.
#курсы
#путь_de
🔥7🤔1