Nik в мире данных
959 subscribers
8 photos
1 video
1 file
43 links
Автор канала - @nikbeesti
Download Telegram
Data Quality и забавные истории

В процессе подготовки лекции по DQ, пересматриваю DAMA-DMBOK и есть там пункт Issues Caused by Data Entry Processes

Field overloading
: Some organizations re-use fields over time for different business purposes rather than making changes to the data model and user interface. This practice results in inconsistent and confusing population of the fields.

Вспомнился прям хрестоматийный пример:
В одном из банков, в которых я работал, доработка источника данных занимала от 3 до 6 месяцев для добавления одного поля, а бизнесу надо было здесь и сейчас. И было принято типичное решение. В поле коммент, помимо самого коммента, класть некую метрику, которая влияет на бизнес. Затем, потребовалось добавить еще пару метрик, и поле коммент стало представлять собой полуструктурированный JSON, вида:
{
“measure_1”: “value_1”,
“measure_2”: “value_2”,
“measure_3”: “value_3”
}

Собственно, все это подавалось под соусом, что это workaround, а потом мы заделиверим другое решение с полями, но как-то все откладывалось.

Спустя пару лет мне интересно, не превратилось ли поле comment в еще более древовидную структуру 🙂
Тренды 2022 в Modern Data Stack

Посмотрел статью - https://towardsdatascience.com/the-future-of-the-modern-data-stack-in-2022-4f4c91bb778f

Далее сугубо ИМХО:
1. Data Mesh сейчас несомненно на хайпе, но буду надеяться, что все-таки большинство small и medium sized компаний не пойдут на поводу и не будут усложнять инфру для этого. Хотя архитектурный подход отличный и консалтинг сможет продавать еще больше часов и иногда дороже 🙂
2. Metrics layer. Очень заинтересован в этой теме, уже видел два доклада про это - один на coalesce, второй на нашем митапе dbt meet-up. Попробую погрузиться посильнее и написать отдельный пост.
3. Reverse-ETL. Вот тут я не до конца понимаю, в чем новшества. Возврат расчитанных данных в системы-источники был уже очень долгое время, правда история была больше батчевая (хотя и стриминг решения тоже довольно давно существуют). Попробую более детально изучить статьи, на которые ссылается автор.
4. Active Metadata & 3rd Gen Data Driven Catalogs. Как сторонник metadata-driven approach с 2016 года, двумя руками за данный подход. Также очень интересно, к чему приведет Open Metadata инициатива.
5. Data Teams as Product Teams. Да-да и еще раз да. К счастью (а для каких-то DE, наоборот, к сожалению) все более видна демократизация данных и подход Data/DWH as a product все более чаще виден (Это не до конца связанные процессы, но это влияет в том числе и на размер команды). Можно еще раз пересмотреть неплохой доклад от Авито на Смартдате по этой тематике или несколько докладов с Coalesce.
6. Data Observability. Данный пункт выглядит, как возвращение к идеям старого доброго ACID, но на стероидах (Вводим бизнес-транзакционость над более высокой абстракцией). Вместо того, чтобы показывать пользователю частично обновлённую информацию, через метаданные и их управление будем контролировать возможность выдачи данных конечным пользователям. Кажется, что в классических DWH это было решено уже лет 6-10 назад 🙂