Data Quality | Качество данных
511 subscribers
43 photos
1 video
1 file
19 links
Канал о данных, их качестве, подготовке, обработке, проверке.
Автор @Rinnushka
Личный канал https://t.iss.one/rinnushka_life
Download Telegram
Основы качества данных, глава пятая, часть 1/2.

Мысли об архитектуре для обеспечения надёжности данных.

📎 Большие корпорации уже больше 5 лет говорят о том, что качественные данные лежат в их основе.

📎 Надёжность данных является результатом высокого качества данных. Это способность обеспечить доступность и работоспособность данных.

📎 Её нужно целенаправленно встраивать на все уровни.

📎 Качество принимаемых решений зависит от данных.

📎 Обнаружение проблем с данными в момент их приёма может свести к минимуму большие проблемы в дальнейшем.

📎 Обогащение данных может повысить их ценность, сделать более полезными и надёжными.

📎 Основные типы тестирования качества данных:
⤵️ Модульное
⤵️ Функциональное
⤵️ Интеграционное

📎 Общие проверки ККД:
На нулевые значения
На null
На актуальность
На объем
На выбросы в диапазоне
На отсутствующие значения

📎 Перед тем, как начинать тестирование, нужно понять, что за данные и какие критерии "плохих" данных.

📎 Тестирование выявит только ожидаемые проблемы.

📎 Данные сильно меняются на своём пути, их нужно регулярно проверять.

📎 Обеспечение качества данных в процессе обработки основывается на:
🟢 Свежесть (не то же самое, что актуальность)
🟢 Распределение
🟢 Объём
🟢 Схема
🟢 Происхождение

📎 На дашборды можно выводить общую информацию:
➡️ Соотношение всех данных к неактуальным или ошибочным
➡️ Количество нулевых или отсутствующих значений
➡️ Процент повторяющихся значений
➡️Согласованность данных
➡️ Количество функциональных групп, которые используют эти данные (потребителей)

📎 Основные слои платформы данных:
📊 Приём
📊 Хранение и обработка
📊 Преобразование и моделирование
📊 Аналитика всех видов
📊 Качество данных и наблюдаемость
📊 Обнаружение и управление данными

📎 Данные, проверенные при приёме не обязательно останутся надёжными по мере их продвижения

📎 Основные типы хранения данных, без приоритезации. Ни одно не лучше другого, для разных организаций или на разных этапах могут меняться:
1️⃣ Data Base
2️⃣ Data Lake
3️⃣ Data Warehouse

📎 Преобразование - подготовка для анализа и составления отчетов.

📎 Моделирование - определение ключевых концепций и связей.

📎 Без визуализации данные практически недоступны и их сложно использовать.

📎 Экосистемы становятся больше и сложнее и используют большие объемы неструктурированных и бессхемных данных, каталоги данных могут отказаться неэффективными из-за отсутствия автоматизации и неспособности масштабироваться.

#качестводанных #dataquality #dqf
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👍1
Основы качества данных, глава пятая, часть 2/2

📎 Бизнес хочет видеть данные в режиме реального времени, а не идеальное состояние.

📎 Получение реальных данных как можно быстрее позволяет быть уверенным, что ожидание и реальность совпадут

📎 Важно понимать работоспособность своих данных в текущем состоянии на каждом этапе (наблюдаемость).

📎 В работе с данными можно брать принципы из смежных областей, например, DevOps.

Измерение окупаемости инвестиций в качество

📎 Осознание стоимости простоя поможет бизнесу понять необходимость работы над качеством данных.

📎 Стоимость простоя данных = Почасовая стоимость простоя * (Время обнаружения + Время разрешения)

📎 Время обнаружения - время, которое нужно чтобы владелец данных выявил проблемы любого рода. Может составлять недели и месяцы, когда находят последующие потребители. (TTD)

📎 Время разрешения - время, которое нужно для устранения инцидента. Обычно - минуты, часы, реже - дни. (TTR)

📎 Почасовая стоимость простоя - обобщенный показатель, время разработки, потраченное на один час простоя + влияние простоя на потребителей и бизнес-решения.

📎 Стоимость простоя нужно регулярно пересчитывать с учётом внешних факторов - стоимость рабочей силы, сфера влияния, штрафы и издержки и тд.

📎 Ежегодная стоимость некачественных данных = зарплата инженеров (=количество инженеров * 130% годового оклада) + риск комплаенса (= около 5% годового дохода) + альтернативные издержки ( = упущенная выгода + штрафы и др)

📎 Выделяют несколько способов взаимодействия и реакции на качество данных:
⤴️ Панель мониторинга, которая показывает время обнаружения, время решения и другие показатели;
⤴️ Соглашения об уровне обслуживания (SLA) - про обещания клиентам (например, доступность 99,99%)
⤴️ Индикаторы уровня обслуживания (SLI) - про цифры (например, 100500 ответов или не больше 100 инцидентов в единицу времени)
⤴️ Цели уровня обслуживания (SLO) - про фактические целевые значения для SLI (99% времени обеспечивать 95% качества)
⤴️ Рейтинг поставщика - насколько потребители довольны результатом работы

📎 Важный шаг во взаимодействии - согласование с заинтересованными сторонами того, как они собираются использовать данные и как для них выглядят высококачественные и надежные данные. Это самый простой способ установить правильные соглашения и понять, чему следует отдать приоритет.

📎 Шесть ключевых параметров, на основании которых стоит заключать соглашения:
1️⃣Полнота
2️⃣Своевременность
3️⃣Валидность
4️⃣Точность
5️⃣Согласованность
6️⃣Уникальность

📎 SLA, SLO, SLI нужны для обеспечения надёжности и установления понятных ожиданий, приоритезации интересов и реагирования.

📎 Заключение всех этих соглашений "в воздух" бессмысленно, основываться стоит на реальной ситуации и согласовании со всем готовности к сотрудничеству.

📎 Перед заключением соглашений рекомендуют:
1️⃣Узнать бизнес-приоритеты
2️⃣Понять связь с данными
3️⃣Узнать потребность в высоком качестве данных/терпимость к некачественным данным
4️⃣Наблюдать за текущей ситуацией в части возможных договорённостей
5️⃣Скорректировать ожидания, свои и контрагентов

📎 Порядок заключения соглашений:
1️⃣Определение надежности - понимание, что надежные данные означают для бизнеса, в деталях.
2️⃣Измерить надежность - определить показатели, влияние, ожидание
3️⃣Установить цели и диапазоны приемлемого времени простоя данных, это позволит классифицировать инциденты по уровню приоритета

📎 Выводы:
➡️ Инвестировать в проверки данных и профилирование стоит заранее и во всех областях
➡️ Отказоустойчивая платформа данных нужна и важна
➡️ Заключение и выполнение соглашений об уровне обслуживания повышают качество результатов работы организации

#качестводанных #dataquality #dqf
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2🔥2👌1
Середина книги. Дальше надо?
Anonymous Poll
96%
Да
4%
Нет
Мчусь на ЛАФ!

Завтра с утра буду там выступать, правда не про качество данных.

С удовольствием пообщаюсь, если вы тоже там будете 😊

https://events-pro.ru/conference/LAF2025
👍4
4 часа в ласточке - отличное время, чтобы прочитать ещё одну главу книги по качеству данных!

Наушники от внешнего шума, стук колес для погружения, зелень за окном для медитации. И никто не трогает! Целых четыре часа!

На обратном пути думаю подготовить текст для постов 📝
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
Saint HighLoad++, привет)
Завтра выступаю.
Сегодня прогон, тех проверка и препати.
Планирую быть и на HL, и на TL.
Кто тоже здесь?)
👍4🔥1
Мы с программным комитетом постарались, чтобы на Data Internals было интересно и полезно!
Программа очень насыщенная и разнообразная, уже хочется послушать доклады, причем сильно больше, чем реально за день) придется искать маховик времени и быть одновременно на нескольких докладах.
До встречи в сентябре на конференции!
Forwarded from Data Internals
До повышения цены осталось 3 дня

Вы можете приобрести билет прямо сейчас, а можете просто зафиксировать текущую цену, если забронируете билет до 30 июня. После брони оплатить можно будет в течение нескольких дней.

Хорошая возможность для тех, кто хочет ознакомиться с полной программой Data Internals Conf X перед покупкой.

Изучить расписание и приобрести билеты можно на нашем сайте
Обсуждали с коллегами, качество данных это техническая или бизнесовая задача, получилась весьма интересная дискуссия.
Решила узнать и ваше мнение по этому вопросу. Что скажете?

Особенно приветствуются комментарии, но если лень писать, можно выбрать вариант в опросе ниже)
Качество данных это задача из какой сферы?
Anonymous Poll
47%
Бизнесовая
39%
Техническая
13%
Свой вариант
Все говорят, что данные — новая новая нефть, но никто кто говорит, как ее добывать

По данным исследования Makves, 40% данных в информационных системах российских компаний — цифровой мусор. По собственным наблюдениям, большинство источников рассказывают про большие данные, не говоря ничего конкретного и полезного.

Тем, кто работает с большими данными и развивается в этом, нужно больше исследований рынка, аналитики, кейсов и экспертных статей. Нашла канал, где все это публикуют ежедневно.

В Progres Post рассказывают, как компании собирают, анализируют и зарабатывают на данных.

Про что конкретно пишут:

✔️Как дата-аналитики вытеснили голливудских режиссеров с больших экранов на маленькие
✔️ Как получить кредит на $5,5 млрд под залог данных о клиентах
✔️ Считаете, что ваши данные при передаче третьей стороне защищены? Ну и зря
✔️Какой российский бизнес готов к экономике данных, а какой — нет
✔️ Спасают ли большие данные жизни?
✔️Как связано конфуцианство и проблемы с монетизацией данных
✔️Инвесторы используют альтернативные данные для прогноза продаж

В общем, рекомендую.
👍1🔥1
Готовы посты по шестой главе основ качества данных.
Думаю, как лучше выкладывать: через день по немногу или несколько больших? Как вам больше нравится?
Проголосуйте пожалуйста в опросе ниже?
Основы качества данных, глава шестая, часть 1.

Мысли об устранении проблем с качеством данных.

📎 Для исправления проблем с качеством данных можно использовать практики DevOps и SRE-инженеров. Всё уже придумано и успешно применяется в разработке. Это позволит применять к качеству данных упреждающий и масштабируемый подход.

📎 Жизненный цикл DevOps включает 8 последовательных этапов, затем повторяется:
1️⃣ Планирование
2️⃣Разработка
3️⃣Сборка
4️⃣Тестирование
5️⃣Выпуск в пром
6️⃣Интеграция в существующую систему
7️⃣Эксплуатация
8️⃣Мониторинг

📎 Эффективное управление инцидентами является ключом к ограничению сбоев. Реакцию на инциденты стоит продумывать заранее.

📎 Управление инцидентами – процесс выявления, изучения, разрешения, анализа и предотвращения проблем, которые могут возникать ежедневно.

📎 Нет универсального подхода к пониманию причины поломки, потому что причин может быть бесконечно много.

📎 С увеличением количества обрабатываемых данных вероятность ошибок увеличивается. Пока компании используют данные для своих цифровых услуг и принятия решений, инциденты будут продолжать происходить.

📎 Жизненный цикл надежности данных:
1️⃣Обнаружение
2️⃣Решение
3️⃣Предотвращение

📎 Рабочий процесс управления инцидентами:
1️⃣Обнаружение
2️⃣Реагирование
3️⃣Анализ первопричин
4️⃣Решение
5️⃣Разбор инцидента

📎 Обнаружение инцидентов можно интегрировать в рабочие процессы обработки и анализа данных. Инциденты можно увидеть на мониторинге при наличии пороговых значений, можно поймать при работе с аномалиями.

📎 Обнаружение аномалий наиболее ценно, когда оно сквозное на всём пути обработки данных, а не только в вашей части. Это инструмент, а не способ решения.

📎 Обнаружение инцидентов – это многоуровневый процесс, который опирается не только на способность обнаруживать инциденты, но и реагировать на них, разрешать и предотвращать итеративным и повторяемым способом.

📎 В этап обнаружения входит не только сам факт знания, что что-то сломалось, но и понимание что именно, почему, где и на что/кого влияет, что дальше делать.

Тут начинается второй этап – реагирование.

#качестводанных #dataquality #dqf
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👍1
Хотите на конференцию о данных Data Internals?
Anonymous Quiz
81%
Да
19%
Нет
В канале конференции проходит розыгрыш билета, нужно подписаться и поставить "+" в комментариях.

А уже завтра выйдет следующая часть заметок по книге.
Основы качества данных, глава шестая, часть 2.

Мысли об устранении проблем с качеством данных.

📎 Хорошее реагирование на инциденты начинается и заканчивается эффективной коммуникацией.

📎 Один из обязательных этапов подготовки – сценарии реагирования, пошаговый план процесса обработки инцидента, Runbook.

📎 Делегирование и разделение ролей в инцидент-менеджменте считается хорошей практикой.

📎 В случае проблем стоит сообщить о них и выше-, и нижестоящим потребителям – всем, кто использует эти данные.

📎 Поиск потребителей и зависимостей, схему тракта данных и оповещение можно автоматизировать.

📎 Провести анализ первопричин и найти место «поломки» может быть нетривиальной задачей, инциденты могут проявляться неочевидным образом.

📎 Большинство проблем с данными можно отнести к одному или нескольким из следующих событий:
1. Изменение в схеме данных, например, наименование или размерность атрибута
2. Изменение логики, преобразующей данные
3. Операционная проблема, сбои, инфраструктурные ошибки

📎 Для быстрого выявления проблем нужен целостный подход, учитывающий как и почему каждое из этих трех событий может произойти.

📎 Инциденты редко имеют одну причину, чаще это совокупность факторов.

📎 Полезная основа для анализа инцидентов от Амазон:
1. Определить проблему
2. Понять, почему она возникла
3. Определить, является ли эта причина основной
4. Узнать, можно ли было предотвратить основную причину
5. Могла ли быть эта причина обнаружена до того, как случился инцидент
6. Если причина в человеческом факторе, то почему так произошло

📎 Тесты и проверки должны показывать возможную проблему до того, как она реально проявится.

📎 Шаги анализа инцидента:
1. Изучить Data Lineage, найти самые первые узлы, где есть проблема
2. Изучить код на ошибки в логике создания таблиц, полей и расчетов
3. Посмотреть на ошибочные данные, сверить с другими атрибутами в поисках аномалий и закономерностей
4. Изучить работу и логи ETL/ELT в интересующий период
5. Спросить коллег 😊 Это работает!

#качестводанных #dataquality #dqf
👍1🔥1
Коллеги исследуют интересную тему, проголосуйте, пожалуйста? Интересна картина в части метаданных