Ivan Begtin

В продолжение о подходах к каталогизации данных, управлении метаданными, в Towards Data Science заметка от Prukalpa, сооснователя Atlan, про проблемы с документированием данных и их подход к этой теме [1].

Публикация, конечно, больше похожа на пред-анонс продукта который они собираются продавать на своей платформе, но, сам подход 5WH1 (What, Why, Where, Who, When, and How) заслуживает внимания. В первую очередь значительным упрощением по сравнению с другими подходами к метаданным для наборов данных. Это, в принципе, характерно для всего рынка/коммерческих каталогов данных и систем управления метаданными в упрощении по умолчанию и расширению по необходимости. Почему? Потому что ведение метаданных - это тяжёлая ручная работа. Особенно тяжёлая поскольку многие дата сайентисты считают свою работу творческой, а сбор, описание и документирование наборов данных её самой тяжёлой стороной.

Я писал обо всём этом в рассылке:
- Наблюдаемость данных [2]
- Качество данных и всё что с ними связано [3]
- Стандарты работы с данными [4]

Если коротко, то документированность - это часть оценки качества данных. А качественные данные - это дорого, их надо такими создавать с самого начала, или прикладывать большие организационные усилия.

Частично я писал ранее в рассылках об этом, модели работы с метаданными делятся на примерно 5 типов:
- научный (давайте делать всё правильно, неспешно, стандартизируя и привязывая к предметной области потому что данные всегда привязаны к предметной области и главное чтобы было удобно исследователям которые в неё погружены)
- архивный (давайте сохранять всё так чтобы через 10-20 лет открыв описание мы могли бы повторно это всё использовать, долгосрочное сохранение важнее всего)
- общественно-государственный (давайте всё быстро-быстро вывалим в открытый доступ, принципиальная доступность важнее качества, поэтому минимум документации и метаданных)
- технологический (у нас куча информационных систем, нам надо их интегрировать и все они ещё и критически важные, потому мы отбираем самое критичное, описываем, навязываем правила по получению данных, много взаимодействуем с первоисточниками, меняем их правила по необходимости)
- коммерческий под data science (нам нужно чтобы разные команды дата саентистов могли обмениваться данными/инструментами/наработками, чтобы наработки не терялись после их ухода и всегда можно было бы объяснить как мы сделали те или иные выводы и снизить издержки на это всё по возможности)

Собственно и подходы к документированию, к ведению метаданных, к стоимости всего этого процесса зависят от подхода. К слову в НСУД (Национальная система управления данными) в РФ [5] пытаются строить по технологической модели. Это довольно дорогой процесс, неизбежный в проектах меньшего масштаба и существующий внутри всех крупных информационных систем, но крайне трудоёмкий и от того стоимость его велика. Там та же логика что и со СМЭВ, на самом деле, в текущей форме это и есть эволюция СМЭВ. Я об этом ещё отдельно напишу, даже со всеми оговорками, НСУД имеет перспективу стать самой дорогой системой в российском гос-ИТ.

Как бы то ни было под каждый подход есть свои продукты, компетенции по автоматизации, коммерческие и открытые решения и, на самом деле, мало чего-то универсального. Поэтому работа с документированием наборов данных начинается с вопроса: А какую задачу мы решаем?

Ссылки:
[1] https://towardsdatascience.com/data-documentation-woes-heres-a-framework-6aba8f20626c
[2] https://begtin.substack.com/p/2-
[3] https://begtin.substack.com/p/8-
[4] https://begtin.substack.com/p/11
[5] https://nsud.info.gov.ru/

#opendata #datasets

Medium

Data Documentation Woes? Here’s a Framework.

The principles and steps we used to build a documentation-first culture

1.9K viewsIvan Begtin, edited 06:53