Дмитрий Кузьмин. Инженерия данных

Пора поговорить про аналитическое хранилище данных, или Data Warehouse. Ключевое понятие.

Под хранилищем данных понимается машина или кластер машин, целый сервис, который обеспечивает такие функции, как storage и compute (хранение и вычисление).

1️⃣ слева Source Systems - это те самые OLTP системы, файлы и т.п. Отсюда вся транзакционная информация попадает в Data Warehouse.

2️⃣ Data warehouse - центральный квадрат.
Если чуть углубиться, то в решение OLAP хранилище разделено на слои:

- Primary Data Layer - это слой хранилища, куда данные попадают так, как они лежат на источниках (AS IS)

например, сюда попадает таблица пользователей, их траты по картам, по датам

- Core Layer - слой, где над исходными данными провели какие-то действия (очистили, транспонировали, агрегировали и т.п.

здесь могут лежать посчитанные данные по каждому пользователю, например, средние траты в месяц по каждому

- Data Mart Layer - слой витрин данных - ключевой слой для аналитики и моделирования.

Витрина данных, простыми словами, - склейка нескольких таблиц из слоя Core Layer, и срезанных по временному диапазону.

к примеру, здесь витрина - информация по каждому клиенту, по каждому договору клиента, что это за тип продукта, а также балансы, остатки и даты закрытия продукта.

3️⃣ BI, аналитика, моделирование- квадрат справа.

Под BI понимаются все системы Business Intelligence, которые строят понятные бизнесу отчеты из данных (дашборды - наборы графиков по интересующим метрикам).

ℹ️ Хранилище может быть обычной БД на машине, кластером машин в различных ЦОД, или в облаке.

Последнее сейчас развивается наиболее активно из-за легкого решения проблем масштабируемости.

P.S. Картинку рисовал сам. Вроде получилось очень наглядно. Продолжить самому рисовать❓

Если есть вопросы, задавайте. Или просто комментируйте, мне будет очень приятно получать ОС от вас.

#база_знаний

Please open Telegram to view this post