it пингвин | data engineer
1.88K subscribers
51 photos
11 videos
2 files
63 links
Канал главного разработчика Data Lake крупного банка.
База знаний для джунов, разбор собесов, задачи (jun/mid/sen) с решениями, полезные материалы, обзоры технологий и архитектур.

По вопросам и менторству писать @it_pengwin
Download Telegram
Привет, подписчики!😎

Хочу порекомендовать вам несколько каналов по нашей тематике - "data".
Каналы интересные, я на них давно подписан и постоянно что-то комментирую)
Пройдите по ссылочкам, изучите и кому что-нибудь понравится обязательно подписываемся 😁


📌 Data Brew:
личный блог продуктового аналитика на пути к позиции лида, про софты и харды,иногда помогает найти работу.

📌 Из юриста в аналитики: канал джуна риск-аналитика, в котором я рассказываю о сложностях смены профессии и своём пути в аналитике.

📌 АННА В ДАННЫХ: заглянуть в жизнь опытного продуктового аналитика - искренние истории и проверенные временем рекомендации для вашей карьеры.

📌 Data Engineer lab: канал про обзор инструментов и технологий Data Engineering и Data Science с типичными вопросами по ним на собеседованиях.

📌 Бегущий по лезвию данных: снятся ли тридцатилетним вкатунам офферы?


it пингвин | data engineer 🐧

#полезная_инфа
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7😁55🔥2🤬2🤣1
ПОСТЫ В АПРЕЛЕ ✍️

Привет, товарищи🤝 Всех с праздником⭐️!

Попробую тоже подводить дайджест постов в конце месяца:

📌 Полезное:

Обход замедления ютуба
Презенташки 1, 2
Слив курсов и книг 🤑
Презенташки 3, 4, 5, 6

📌 Вопросы/задачи:

Что такое хранилище данных?
Задача на схлопывание строк и разбор
Сложная задача на периоды и разбор
Как удалить дубли из таблицы?

📌 Разное:

Стандартизация SQL
Буллинг от руководителя
Опрос про идеальный вариант работы в it
Обзор собеседования в Газпромбанк на 325к
Загадки с собеса 😁


Как вам посты? Что больше всего понравилось?
Вроде бы в апреле я был продуктивен 😄
Реакций ⬇️😊

it пингвин | data engineer 🐧

#посты_месяца
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍104🐳21💅1
Всем привет 👋

Я же сейчас на испытательном сроке, второй месяц заканчивается. И вот наконец-то я получил доступы и мне дали задачи.. Теперь нужно работать 🤡😩

Как у вас проходит рабочий понедельник после майских выходных?)

Кстати нас уже 500 человек 🎉❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣25🔥93👍3
🔹Задача🔹

Пусть существует таблица exam, в котором указаны:
- student_id (идентификатор студента)
- exam_id (идентификатор экзамена)
- mark (оценка)

Таблица exam
student_id     exam_id    mark

1 1 4
1 2 3
1 3 5
2 1 5
2 2 5
2 3 5
3 1 4
3 2 4
3 3 3


Необходимо вывести всех студентов, у которых за все время не было оценки ниже 4.


Задачи я беру из заметок и все они были на собеседованиях (необязательно у меня). Эта задачка lvl jun.

Присылайте решения😊⬇️

it пингвин | data engineer 🐧

#sql #задача
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥211💅11
С Великим праздником, с Днем Победы!⭐️🇷🇺❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
5🎉237👍4🫡3🙏2🔥1
Привет, подписчики!😎

Лично я ни разу не покупал платных курсов. Да и вообще всю жизнь получаю бесплатное образование (в ВУЗе тоже был на бюджете). Считаю, что вся информация есть открытом доступе. Есть куча статей, книг, roadmap-ов, пет проектов, лекций топ ВУЗ-ов, интерактивных курсов в БЕСПЛАТНОМ доступе.

НО! Я не против платных курсов. В целом если у кого-то нет проблем с деньгами, то почему бы не заплатить. Там все будет на блюдечке структурировано лежать. Будут преподы и менторы, которые тоже хорошо помогают.

Кому-то легче учиться, когда были заплачены деньги. Становится жалко потраченных денег и это заставляет/мотивирует учиться.

А бесплатный материал откладывается в долгий ящик. Нужны дисциплина, самоконтроль и ответственность, чтоб самому что-то изучить. Но опять же, в it ты постоянно чему-то учишься, поэтому эти качества тебе в любом случае нужно развивать.

Еще кто-то покупает платные материалы, в целях экономии времени на поиске самому информации. А время = деньги.

В общем, есть много плюсов в покупке платных материалов.

И вот мне стало интересно, что вы думаете по поводу платного обучения?🤔
Кто-нибудь из моих подписчиком покупал платные курсы в онлайн школах? Расскажите, плз, как вам опыт? Можете кого-то захейтить или наоборот порекомендовать😁 Дайте честную обратную связь, возможно это кому-то поможет 🤝

- за платное обучение
- против


it пингвин | data engineer 🐧

#просто_мысли
Please open Telegram to view this post
VIEW IN TELEGRAM
5427👍411😁1👀1
Вчера поймал какую-то дизмораль.

В последнее время я ленюсь и почти не занимаюсь самообразованием. В хроме открыто около 30 вкладок с обучающими материалами и их количество только увеличивается. На компе появляются новые папки, пет проекты, книги, презентации, которые нужно разобрать.
Вчера в очередной раз нашел интересный материал (по докеру) и я опять тупо его сохраняю и думаю "надо будет разобрать"... И так уже давно продолжается. Отложенные материалы и задачи растут и растут. Из-за этого постоянное внутреннее чувство, что я что-то должен.

Мне нужно разобрать весь отложенный материал и больше столько я не буду откладывать. Но заставить не могу себя. В последнее время я расслабился. Теперь нужно снова вспомнить что такое дисциплина.

Я хочу хорошо изучить python. Я его знаю на около джуновом уровне, год назад проходил классный Инди курс по Python на степике, решал задачки по алгоритмам от Яндекса. На собесах легкие задачи по питону тоже решал. Но когда по работе с ним мало работаю, как-то все забывается.

Если конкретнее что мне нужно - разобрать все свои закладки, задротить python до мидлового уровня, spark и airflow, докер, клик, dbt. Я про многое знаю, но нужно углубляться. По работе сейчас с этими инструментами не работаю. На проекте сейчас informatica для озера данных, Hadoop, постгря и oracle.

В этом году я вышел на уровень дохода в 300к+. С такой зп, конечно, психологически комфортнее. Вроде все отлично, можно спокойно работать работу и после кайфовать. Но нет, что-то мне не спокойно..
Я по прежнему не чувствую себя топовым спецом 🤡. А для меня важно быть востребованным профессионалом. В идеале научиться пользоваться всем зоопарком технологий в DE + уметь хорошо прогать, чтоб я мог на изи с ноги залететь в топ компании, типа Яндекс/Авито.

У меня есть несколько веток развития:

• Расти по должности в нынешнем банке до лида. Здесь есть стопер, что я живу в Краснодаре, а основная команда, как обычно, в мск. Конкретно в моей компании почти все руководители часто работают из офиса. И еще все руки достаточно возрастные. По ощущениям чтобы стать лидом должен здесь работать 3+ года. Это долго.
• Работать на двух работах. Пока хз мог бы я совмещать вторую работу с нынешним местом или нет. Во-первых по загрузке пока не пойму что у меня будет, во-вторых я вроде бы подписывал доку что у меня нет второго места работы или даже не могу работать в другой компании (плохо помню, но вроде что-то подобное было).
• Продолжить менять компании раз в год. Думаю ближе к зиме выйду на рынок, промониторю какие вообще будут предложения.
• Перейти в ML. Вот это кажется очень интересным, но скорее всего придется устроиться на меньшую зп, тк нет рабочего опыта в ML. А терять в деньгах я скорее всего не захочу.
• Активно развивать тг канал, попробовать устроиться в какую-то онлайн школу преподом (сомнительно), расти в скиллах как ментор. Этим планирую параллельно заниматься, но это не приоритетная задача.

В общем начинаю разгребать все свои закладки (не в ущерб работе), буду периодически рассказывать что изучил. Как закрою все долги, устрою челлендж по каждодневному решению алгосов с литкода и буду делать обзоры. Но пока не заглядываю вперёд.

Этот пост будет как мотивация и напоминание, что нужно херачить. Я еще не достаточно поработал, как-то быстро все стало слишком комфортным. Отговорки не принимаются, что нужно нормально отдыхать, иметь worklife balance и тд.
Выполню все свои задачи и с этого будет большая польза, это я уже точно знаю. Все усилия награждаются.

Такая вот история. Надеюсь кому-то еще поднял мотивацию. Работаем, друзья

it пингвин | data engineer 🐧

#просто_мысли
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥3411👍97🤣31🙏11
В продолжении предыдущего поста выкладываю свои закладки

Попробую кратко

Нужно повторить все пет проекты из roadmapa .
+ я должен туда закоммитить свою инфу по индексам и партициям
+сделать самому несколько пет проектов.

Повторить прототип lakehouse

Допройти курс по докеру
Допройти демо курс по DE

Начал и бросил классный бесплатный курс по dbt

Руководство по языку программирования Python
МФТИ Python
Учебник по машинному обучению

Пройти на степике курс от Балакирева добрый Пайтон
наверное неактуально уже, Инди курса по питону достаточно
Возможно пройти курс поколения пайтон для профессионалов.
upd. оказывается курс - платный, так что вычеркиваем.

Несколько уроков от Симулэйтив
Как Docker упрощает жизнь аналитиков и инженеров данных. Взял проект у лектора. Нужно все повторить
Автоматизируем процессы с Airflow как в Бигтехе
Как Docker упрощает жизнь аналитиков и инженеров данных

Порешать алгосы

Awesome Data Engineering. Дорожная карта Data Engineer RoadMap

Изучить доку от Аренадаты по технологиям, что-нибудь простое повторить

Polars Cheat Sheet

Курсы от ВШЭ. Посмтреть и по возможности повторить действия - 1, 2, 3

+ нужно найти норм обучающие материалы по спарку (у кого есть скиньте плз) и
airflow. Желательно какой-нить готовый образ докера)
+ найти норм инфу по кафке и у себя ее развернуть и потыкаться
+ найти курс по клику (вроде слышал где-то на яндексе есть бесплатный) и чекнуть оффициальную доку.
+ найти бесплатные крутые курсы по ML
+ пройти курсы по ООП и функциональному программированию

*Наверное я что-то забыл. Если что позже докину👌

Презентации

Презентации, я периодически выкладываю. Мне их тоже нужно отработать https://t.iss.one/data_penguin/60

Книги

Дочитать:
Основы инженерии данных
Том Кайт - Оракл для профессионалов
Специалист в сибири
Дочитать мелкую книгу билингв - История Бенджамина Баттона.

Начать читать все отложенные книги (список в комментах)
Какие книги нужны будут, пишите - скину👌

И давайте у кого есть крутая инфа - скидывайте в комменты⬇️ 🚀
РАСШИРИМ НАШИ ЗАКЛАДКИ 😂

it пингвин | data engineer 🐧

#полезная_инфа
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥224👍41🙏1
Всем привет 🤝

Буду стараться вести дневник.

*вряд ли раз в неделю, у меня не так много интересных событий в жизни 🥲


Что было на прошлой неделе:

Как и говорил, я получил все доступы в новой компании и начал выполнять первые задачи. Сделал 16 etl потоков. Выгрузка данных из Oracle в Hadoop при помощи etl инструмента informatica (не стандартная, а для озера dei).

Темп поймал, все скрипты и окружение под себя настроил, теперь смогу эти потоки быстро штамповать.

Наблюдение:
*какой же хадуп бывает медленный. Иногда одна тестовая строка данных может вставляться несколько минут..

Из своих закладок разобрал лекцию от симулэйтив по докеру и всю сборку повторил на своем пк, было полезно 👍
теперь буду тот пост периодически пополнять и ставить на выполненном.

На майских праздниках не получилось никуда съездить отдохнуть, но зато на прошедших выходных смогли с женой уйти от городской суеты. Уехали в лес в красивый инстаграмный домик. Жарили мясо, наслаждались природой, смотрели на проекторе фильмы 90-х и 00-х, в общем круто отдохнули и перезагрузились. Утром в понедельник уехали с домика и пошли РАБОТАТЬ 😔


Планы на эту неделю не грандиозные:
На работе продолжать делать задачи и выполнять 3-5 потоков в день
Кроме работы основная задача - закомититься в роадмап Жени и Вовы.
Провести два продуктивных занятия с менти
В субботу пойти в бар и посмотреть матч ФК Краснодара. К футболу я давно охладел и особо не слежу, но это будет важный и интересный матч - Краснодар может первый раз взять чемпионство 😁

Также из интересного, ко мне пришел hr из it компании, ищут "Руководителя разработки DWH". Я так понял вилка 300-400к. Кому интересно, напишите мне в личку и пришлите резюме ✍️
Здесь пиарить компанию не хочу 😅

Интересен ли вам такой формат?
И как у вас началась очередная рабочая неделя?😁

#дневник
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥65💅2🤯1
🔹Задачи🔹

Давно не было задачек с собесов 😎


📌Т-банк задача про должников (lvl mid):

Даны 3 таблицы:
1) таблица со счетами кредитных карт account: 
account_id (id счета)

2) таблица с выписками по кредитным картам statement:
statement_id (id выписки),
account_id (id счета),
statement_dt (дата выписки),
due_dt (дата погашения выписки),
min_amt (мин. сумма погашения)

3) таблица с платежами клиентов payment:
payment_id (id платежа),
account_id (id счета),
payment_dt (дата платежа),
payment_amt (сумма платежа)


Задание: вывести список недолжников на сегодня.


📌Х5 (lvl jun)

Даны таблицы t1 и t2.
|t1.a|   |t2.a|
|----+ |----+
|1 | |1 |
|2 | |3 |
|3 | |4 |
|6 |


Сколько будет записей при следующих типах соединений:
INNER JOIN t1.a = t2.a
LEFT JOIN t1.a = t2.a
FULL OUTER JOIN t1.a = t2.a



В чем разница между типом данных CHAR и VARCHAR в SQL?

Каким образом можно найти третий по счету максимальный результат в каждой category?
таблица:
- id
- result
- category




📌Росбанк (lvl jun)

Дана таблица:
create table employee
(
id integer, -- ID сотрудника
department_id integer, -- ID подразделения, в котором работает сотрудник
chief_flg boolean, -- флаг того, что сотрудник занимает руководящую позицию
birth_dt date -- дата рождения
)


0️⃣ Вывести список руководителей

1️⃣Вывести список сотрудников, которые старше своего непосредственного руководителя

2️⃣Найти второго самого старшего сотрудника

3️⃣Предположим, что в таблице на 1 сотрудника может быть 2 записи, у одной из которых не заполнена дата рождения. Нужно удалить такие дубли из таблицы


Как вам задачки?
*Некоторые похожие задачки на канале уже были разобраны.

Не стесняемся, присылайте любые свои решения в комменты, хочу увидеть, что вам это интересно⬇️
И насыпьте реакций 😁😊


it пингвин | data engineer 🐧

#sql #задача
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍104😱111
KPACUBA 😈😁
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥115👍32😁2💅2😱11
Всем привет!😎

Увидел хороший отклик по недавним задачам.

Сегодня выкладываю задачу посложнее - уровень middle+

Реальная задача с собеседования с Альфа-банком 😳

--Создать таблицы

--CLIENT “КЛИЕНТ”
ID ID клиента
NAME имя клиента

--ACCOUNT “СЧЕТ”
ID ID счета
CLIENT_ID ID клиента
OPEN_DT дата открытия счета
CLOSE_DT дата закрытия счета

--TRANSACTION “ТРАНЗАКЦИИ ПО СЧЕТУ”
ID ID транзакции
ACCOUNT_ID ID счета
TRANSACTION_DATE дата транзакции
AMOUNT Сумма транзакции


Задача:
Вывести имена клиентов, у которых есть хотя бы один активный счет, открытый больше года назад, и которые за последний месяц по всем своим счетам совершили транзакций меньше, чем на 5000.
Под активным счетом понимается счет, по которому в текущем месяце есть хотя бы одна транзакция.
Под годом/месяцем понимается интервал один год/один месяц от календарной даты.


При необходимости нагенерите тестовые данные. Ваши решения и предложения жду в комментах.
Кто решит - реально красавчик🏆🔥🤘
Свое решение выложу в пятницу 😁

it пингвин | data engineer 🐧

#sql #задача
Please open Telegram to view this post
VIEW IN TELEGRAM
👨‍💻4👍3🔥33🫡21😱1
У меня уже несколько раз просили прислать книгу "Основы инженерии данных" - Джо Рис.
В мире data инженерии она на небольшом хайпе.

Я сейчас опубликую книгу, кому надо сохраните, я чуть позже удалю пост.
Вроде как слитые книги в тг канале нельзя публиковать 🏴‍☠️😅

upd. книгу уже открепил😬

Я эту книгу еще не прочитал. Позже сделаю краткую рецензию. Сейчас уже могу сказать, что особо не впечатлен книгой и прям какой-то крутой инфы в ней нет. Но читается легко и моментами интересно😁

it пингвин | data engineer 🐧

#полезная_инфа
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥9👍2💅21
ПОЧЕМУ мне это приходит от ПОЧТЫ РОССИИ😠
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣146😁2😱11
Bootcamp чат для ВСЕХ!

Открыли чат с программой Буткемпа для ВСЕХ!

ссылка на чат

Заходите все, кто думает пройти буткемп, залететь наконец-то в IT или просто из интереса. Внутри есть программа обучения. Мы ждем пожелания и боли от вас. Программу возможно скорреткируем, если увидим конкретные хотелки!

Это не курс, здесь не будет никаких нудных и душных лекций. Мы вычеркиваем очень много бесполезной инфы.

Смело задавайте свои вопросы, а мы будем на них отвечать.

Цель буткемпа - как можно скорее запрыгнуть в поезд IT!
👍52🔥2🎉1
Привет, работяги 🫡
Всех с пятницей, остался чуть-чуть продержаться

Выкладываю обещанное решение задачи:
Вывести имена клиентов, у которых есть хотя бы один активный счет, открытый больше года назад, и которые за последний месяц по всем своим счетам совершили транзакций меньше, чем на 5000.
Под активным счетом понимается счет, по которому в текущем месяце есть хотя бы одна транзакция.
Под годом/месяцем понимается интервал один год/один месяц от календарной даты.


select
c.name
from account a
join client c on c.id=a.client_id and a.open_dt<trunc(sysdate)-interval '1' YEAR and coalesce(a.close_dt,to_date('59991231','yyyymmdd'))>trunc(sysdate)
join transaction t on t.account_id=a.id and t.transaction_date between trunc(sysdate)-interval '1' MONTH and trunc(sysdate)
group by c.name having(sum(coalesce(t.amount,0)))<5000

*SQL- оракловый, но я думаю(надеюсь) всем будет понятен синтаксис.

Как по мне, получилось очень лаконичное и оптимизированное решение без множества подзапросов и cte🤔
А как вам задачка и решение?⬇️

it пингвин | data engineer 🐧

#sql #задача
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥84👍33🤯2💅1
2022 год. Моя первая рабочая задача в новой компании. Нужно написать менеджеру и утончить требования:
🤣53😁1754😭22
Друзья, всем привет 🤝
Сделал статью по индексам и партициям для роадмапа DE. Также хочу поделиться статьей с вами в более удобном виде.

Рассказал на пальцах, что такое индексы и партиции, а дальше немного углубил. Постарался раскрыть темы, которые спрашивают на собеседованиях.
Для написания статьи использовал личный опыт, другие статьи и LLM.

Дайте реакцию как вам материал и интересен ли вам подобный формат?⬇️

#архитектура
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥308🙏4👍31🫡1💅1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁133🔥3🐳3
Однако, весьма интересная табличка
😁12🗿7😱3🤯11
▶️Обновление курса(RoadMap) на версию 2.2▶️

В этом видео о RoadMap'e:

Полностью переработана информация по ClickHouse;
Добавлен Docker compose распределённого ClickHouse (2 шарды 2 реплики);
Новый соавтор курса — Penguin Grisha;
Добавлена страница с кейсами оптимизации и полезными плюшками при работе с GreenPlum;
Полностью переработана общая информация по индексам баз данных;
Добавлены новые вопросы с собеседований по разным темам(смотреть по обновлению каталога);

Плюс ко всему:

Мы совместно с Женей Виндюковым(Я - Дата Инженер), запускаем собственный BootCamp(Интенсив) по профессии Инженер данных. Об этом я тоже рассказывают в данном видео, поэтому все кто уже изучил Python и SQL и не знает, что делать дальше, милости просим в чат, где вы можете ознакомиться с нашим предложением и предложить свои идеи!

Если у тебя есть идеи, предложения, обратная связь и т.д., можешь написать, как в комментариях под этим постом⬇️, так и в личку — либо мне, либо Евгению! Мы всегда ЗА рациональные идеи!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🔥2