Я – Дата Инженер | Евгений Виндюков

🥇

Я придумал велосипед!

пост писал еще будучи в Сбере в мае. Вариантов на самом деле намного больше. Вопрос какие инструменты у вас под рукой.

Постараюсь кратко. У меня есть витрина, в которую летят данные по кредитам, картам, ипотекам и куче других продуктов. Источники для каждого продукта разные, поэтому если я буду каждый день грузить данные всегда за вчера, а источник по картам еще не обновился или вообще умер, то у меня какие-то продукты загрузятся, а какие-то нет. Очевидно, что завтра и послезавтра данные по картам за позавчера, даже если они появились, уже никогда не прогрузятся.

Если конкретно, то пусть по кредитам у меня прилетело 500 000 строк, а по картам прилетело 0 строк (пустой датафрейм). Мне надо запомнить, что по картам в этот день было пусто, но ошибки не было. Скрипт успешно отработал. Или прилетело по картам всего 2 строки, а ожидается 10 000. Мне по-любому надо запомнить, что в эти даты был сбой!

Брать просто максимальную дату загруженных данных из витрины тоже нельзя. Ну он покажет, что данные актуальны. Но они ведь актуальны только по кредитам. А считать максимальнуюю дату по каждому продукту, учитывая, что таблица растет стремительно, будет все сложнее и сложнее.

Поэтому я подумал сделать маленьку таблицу, куда будут писать логи, типа
date, product_name, total_rows

Т.е. при каждом вычислении я пишу туда тип продукта, кол-во строк в датафрейме и дату загрузки. Тем самым у меня будет табличка из 2000-4000 строк ЗА ГОД! И это если у меня около 10 продуктов. Такое можно и в Excel открыть!

И при каждой загрузке мой спарк будет ходить в эту маленькую таблицу и просто забирать даты, по которым либо прилетело 0 строк, либо высчитывать разницу дат между сегодня и максимальной датой по каждому продукту в этой таблице. По ресурсам это просто смехотворно! Очень быстро.

Здесь можно конечно сделать историю с партиционированием в самой витрине по типу продукта и дате, тем самым объединить данные в рамках продуктов. Но тогда мы не сможем контроллировать кол-во строк. Нам придется вычислять отсутствующие даты в метаданных партиций со списком сгенерированных дат. Короче это сложно и не наглядно.

Тем более моя таблица с логами прекрасно может быть визуализирована в BI. Все метрики уже посчитаны, остается лишь написать очень простые запросы и при том очень легкие по отношению к СУБД. Т.е. мы буквально сможем контроллировать загрузку и актуальность данных по стольким продуктам, сколько сами пожелаем!

Кстати эта маленькая табличка должна иметь свойство обновляться. Если за 2024-06-01 у нас было 0 строк и мы сделали загрузку на 4 000 строк, то очевидно, что логи с нулем надо удалить. Здесь можно внедрить SCD, но мне историчность пока не нужна и я просто делаю group by и оставляю max(date).

Насколько понятно, что я написал?))

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27🔥8❤2🤯1

2.49K views12:09