Lost in Data

Попробую рассказать про поставки данных по дата-контрактам своими словами.

По-хорошему любая интеграция данных между системами подразумевает заключение какого-то контракта данных, будь то REST API или обмен файлами нужной структуры.

Другое дело, что разработчики OLTP-систем могут быть не совсем в курсе, за какими данными и куда к ним в базу лазают дата-инженеры.

Представим, что мы делаем SQL запросы к базе источника, а там вдруг переименовывают какую-то колонку или таблицу, что-то удаляют, где-то меняют тип данных. Если источник не предупредил о своих изменениях, то наши SQL запросы просто сломаются. Причём узнаем мы это скорее всего ночью или утром, когда увидим ошибки в ночном ETL.

Да хотя бы вот живой пример. 1С вообще не разрешает по условиям своей лицухи залезать к ней напрямую в БД. Но многие продолжают писать запросы напрямую ко всем этим таблицам в духе _Document123. Так вот в 1С разработке стали модными "расширения", которые легко накатить и откатить. Только при накатывании такого расширения, таблицы документов, которое оно затронуло, меняют свои названия _Document123 → _Document123X1. Старый запрос обращается в ещё существующую _Document123, но ничего не вытаскивает, т.е. все данные незаметно переехали в таблицу с новым названием.

Теперь рассмотрим ситуацию, когда не мы ходим за данными к системе-источнику, а сама система отправляет новые данные при их появлении. Например, для каждого поставляемого объекта(таблицы) согласуется формат сообщений о событиях INSERT, UPDATE, DELETE. Например, это можно сделать с помощью AVRO-схемы с перечислением всех атрибутов и их типов данных.

С момента заключения дата-контракта в виде AVRO-схемы нам уже не так важна внутренняя структура хранения данных в источнике. Теперь сам источник отвечает за поддержание контракта. Если он что-то меняет в своих таблицах, то он обязан поддержать текущий формат интеграции. Либо должен явно согласовать изменения в контракте с командой DWH.

Таким образом, заключение дата-контракта переносит ответственность за его поддержание на систему источник. Команды со стороны этих систем могут сопротивляться таким предложениям, ведь это на них накладывает много дополнительной работы. Теперь при каждом изменении своих объектов они должны отправлять эти данные в необходимый топик Кафки — стандартный сейчас инструмент для подобных интеграций.

Это может потребовать больших доработок на стороне источника, которые не всегда возможно провести для легаси-систем. К тому же при отправке данных возможны сбои. Если с помощью CDC-инструмента мы видим фактические изменения в данных, то в случае поставок по дата-контрактам мы видим лишь то, что нам отправили. Это дополнительный участок для ошибок, когда могут что-то не отправить или отправить что-то лишнее.

С одной стороны дата-контракты дают нам устойчивость к изменениям структуры данных источника, но с другой добавляют дополнительные уязвимые места, где может быть совершена ошибка. Из-за сбоев на источнике при отправке данных в Кафку данные могут быть потеряны навсегда.

Итого: поставки данных по дата-контрактам требуют высокой культуры разработки со стороны OLTP-систем и приучают их ответственно относиться к данным, от которых может зависеть будущее всей компании. Так оператор сотовой связи может потерять данные о клиенте и влететь на многомиллионные штрафы перед регулятором, о чём разработчикам неплохо бы напоминать :)

❤5👍5🔥3

390 views14:22