DATA КАПИТАЛ | Пути решения часть 2
«ДАННЫЕ ТЭК: СИСТЕМНЫЙ КРИЗИС УПРАВЛЕНИЯ »
Еще несколько сценариев и технологий хочу показать. Уже достаточно давно была сформулирована Концепция Zero Trust, которую только сейчас начали осознавать и, из-за этого она становится все популярнее в бизнесе, и важно понимать: это не просто еще одна технология, а принципиально новая архитектура управления, где главным защищаемым активом становятся сами данные.
Вот что меняется на практике:
1. От защиты периметра к защите каждого информационного объекта (данных)
Раньше мы защищали границы сетей. Теперь нужно защищать каждую единицу информации не только при хранении, использовании, но и при ее перемещениях. Ключевое решение: мандатная метка становится частью метаданных любого информационного объекта. Представьте: каждый файл, каждая запись в базе данных, каждый сетевой пакет знает, кто может с ним работать. Это особенно важно, когда конфиденциальные данные передаются по общим каналам в облаке.
2. Мандатный контроль как основа безопасности
Когда каждый информационный объект содержит встроенные правила доступа, мы достигаем максимальной детализации контроля. Это реализация принципа "ничего не доверяй, все проверяй" на уровне данных.
3. Постепенный переход вместо революции
Модель зрелости CISA показывает: переход к Zero Trust это эволюционный процесс. Мы движемся от традиционных подходов к оптимальным через конкретные шаги в пяти направлениях: идентичность, устройства, сети, приложения и данные.
Вывод:
Сценарий "Фокус на ценности" становится по-настоящему эффективным в сочетании с Zero Trust. Сначала определяем самые ценные объекты, самые ценные данные (те самые 20%, что приносят 80% результата), применяем к ним мандатный контроль, а затем постепенно выстраиваем полную систему защиты.
По сути, мы создаем систему управления цифровыми активами, где безопасность встроена в саму архитектуру данных через контролируемые метрики их состояния, а не добавляется как отдельный компонент.
#Аналитика@data_capital
«ДАННЫЕ ТЭК: СИСТЕМНЫЙ КРИЗИС УПРАВЛЕНИЯ »
Еще несколько сценариев и технологий хочу показать. Уже достаточно давно была сформулирована Концепция Zero Trust, которую только сейчас начали осознавать и, из-за этого она становится все популярнее в бизнесе, и важно понимать: это не просто еще одна технология, а принципиально новая архитектура управления, где главным защищаемым активом становятся сами данные.
Вот что меняется на практике:
1. От защиты периметра к защите каждого информационного объекта (данных)
Раньше мы защищали границы сетей. Теперь нужно защищать каждую единицу информации не только при хранении, использовании, но и при ее перемещениях. Ключевое решение: мандатная метка становится частью метаданных любого информационного объекта. Представьте: каждый файл, каждая запись в базе данных, каждый сетевой пакет знает, кто может с ним работать. Это особенно важно, когда конфиденциальные данные передаются по общим каналам в облаке.
2. Мандатный контроль как основа безопасности
Когда каждый информационный объект содержит встроенные правила доступа, мы достигаем максимальной детализации контроля. Это реализация принципа "ничего не доверяй, все проверяй" на уровне данных.
3. Постепенный переход вместо революции
Модель зрелости CISA показывает: переход к Zero Trust это эволюционный процесс. Мы движемся от традиционных подходов к оптимальным через конкретные шаги в пяти направлениях: идентичность, устройства, сети, приложения и данные.
Вывод:
Сценарий "Фокус на ценности" становится по-настоящему эффективным в сочетании с Zero Trust. Сначала определяем самые ценные объекты, самые ценные данные (те самые 20%, что приносят 80% результата), применяем к ним мандатный контроль, а затем постепенно выстраиваем полную систему защиты.
По сути, мы создаем систему управления цифровыми активами, где безопасность встроена в саму архитектуру данных через контролируемые метрики их состояния, а не добавляется как отдельный компонент.
#Аналитика@data_capital
👍3
Data Quality в Ozon: сильное техрешение, но слабая методология 🤦♂️
Прочитал большой разбор про Data Quality в Ozon и хочу поделиться личным анализом.
Ситуация показательная: команда построила систему контроля данных в Hadoop. Технически решение сильное, но, как эксперт по управлению данными, я вижу системные пробелы.
Что я увидел в их подходе:
Технически все грамотно: выбрали Spark Connect Server, обошли ограничения Kubernetes, честно описали компромиссы. С инженерной позиции я оцениваю высоко их решение, но с позиции управления данными, я вижу проблему с серьезными последствиями. Они создали инструмент для поиска проблем с данными, но не выстроили систему, чтобы эти проблемы решались.
Мои ключевые выводы после анализа:
1. Технологии без методологии - это тупик. Можно построить идеальный детектор ошибок, но если не определены владельцы данных и процессы исправления, как следствие бизнес-риски не снижаются.
2. 80 команд используют данные, но кто за них отвечает? Без ответа на этот вопрос любая DQ-система превращается в дорогой дашборд с красными метриками, которые никто не исправляет.
3. Понимание уровня зрелости, это когда вы управляете данными, а не просто их проверяете. Ozon решил техническую задачу, но не управленческую.
Личная позиция:
Я убежден, что успешные data-проекты начинаются не с выбора технологий, а с ответов на вопросы «зачем?» и «кто отвечает?». Без этого даже самые совершенные технические решения не дают бизнесу реальной ценности.
А что вы думаете? Сталкивались с подобными ситуациями?
https://habr.com/ru/companies/ozontech/articles/962174/
Прочитал большой разбор про Data Quality в Ozon и хочу поделиться личным анализом.
Ситуация показательная: команда построила систему контроля данных в Hadoop. Технически решение сильное, но, как эксперт по управлению данными, я вижу системные пробелы.
Что я увидел в их подходе:
Технически все грамотно: выбрали Spark Connect Server, обошли ограничения Kubernetes, честно описали компромиссы. С инженерной позиции я оцениваю высоко их решение, но с позиции управления данными, я вижу проблему с серьезными последствиями. Они создали инструмент для поиска проблем с данными, но не выстроили систему, чтобы эти проблемы решались.
Мои ключевые выводы после анализа:
1. Технологии без методологии - это тупик. Можно построить идеальный детектор ошибок, но если не определены владельцы данных и процессы исправления, как следствие бизнес-риски не снижаются.
2. 80 команд используют данные, но кто за них отвечает? Без ответа на этот вопрос любая DQ-система превращается в дорогой дашборд с красными метриками, которые никто не исправляет.
3. Понимание уровня зрелости, это когда вы управляете данными, а не просто их проверяете. Ozon решил техническую задачу, но не управленческую.
Личная позиция:
Я убежден, что успешные data-проекты начинаются не с выбора технологий, а с ответов на вопросы «зачем?» и «кто отвечает?». Без этого даже самые совершенные технические решения не дают бизнесу реальной ценности.
А что вы думаете? Сталкивались с подобными ситуациями?
https://habr.com/ru/companies/ozontech/articles/962174/
👍4
Если ИИ создает данные, то можно ли с помощью ИИ решать сложные и критичные задачи?
Коллеги, после разбора нового кейса с Habr, где инженер успешно применил ИИ для моделирования процессов и генерации кода, я хочу поделиться ключевым выводом. Технологическая возможность есть. Но она упирается в культурный уровень эксперта.
Личное наблюдение: можно быть блестящим технологом, но без культурной зрелости работа с ИИ в сложных задачах превратится в рулетку.
Что такое культурная зрелость эксперта в этом контексте?
Это не про знание языков программирования или умение строить запросы. Это про внутренние установки:
Готовность к итеративной работе.
Настоящий специалист не ждет волшебного результата по одному запросу. Он выстраивает диалог с системой: запрос, проверка, уточнение, коррекция. Это требует терпения и дисциплины.
Принятие ответственности,
ИИ не виноват в ошибках. Ответственность за финальный результат всегда на эксперте. Зрелый специалист не ищет виноватых, а выстраивает процессы верификации.
Способность к критическому мышлению.
Самая опасная ловушка это доверие к результатам ИИ без проверки. Культурно зрелый эксперт сохраняет здоровый скепсис и проверяет каждую деталь.
Понимание границ компетенций.
ИИ не может заменить экспертизы, а может их только усилить. Нужно четко понимать, где система может помочь, а где без глубоких предметных знаний не обойтись.
Технологии развиваются быстрее нашей культуры работы с ними. Мы можем иметь совершенные инструменты, но без зрелого подхода они не дадут надежных результатов.
Итог: успех в работе со сложными ИИ задачами определяется не только технологической подготовкой, но и культурной зрелостью команды. Без этого даже самый совершенный инструмент становится опасным.
https://habr.com/ru/companies/architeezy/articles/953642/
Готов обсудить ваше видение в комментариях.
#Аналитика@data_capital
Коллеги, после разбора нового кейса с Habr, где инженер успешно применил ИИ для моделирования процессов и генерации кода, я хочу поделиться ключевым выводом. Технологическая возможность есть. Но она упирается в культурный уровень эксперта.
Личное наблюдение: можно быть блестящим технологом, но без культурной зрелости работа с ИИ в сложных задачах превратится в рулетку.
Что такое культурная зрелость эксперта в этом контексте?
Это не про знание языков программирования или умение строить запросы. Это про внутренние установки:
Готовность к итеративной работе.
Настоящий специалист не ждет волшебного результата по одному запросу. Он выстраивает диалог с системой: запрос, проверка, уточнение, коррекция. Это требует терпения и дисциплины.
Принятие ответственности,
ИИ не виноват в ошибках. Ответственность за финальный результат всегда на эксперте. Зрелый специалист не ищет виноватых, а выстраивает процессы верификации.
Способность к критическому мышлению.
Самая опасная ловушка это доверие к результатам ИИ без проверки. Культурно зрелый эксперт сохраняет здоровый скепсис и проверяет каждую деталь.
Понимание границ компетенций.
ИИ не может заменить экспертизы, а может их только усилить. Нужно четко понимать, где система может помочь, а где без глубоких предметных знаний не обойтись.
Технологии развиваются быстрее нашей культуры работы с ними. Мы можем иметь совершенные инструменты, но без зрелого подхода они не дадут надежных результатов.
Итог: успех в работе со сложными ИИ задачами определяется не только технологической подготовкой, но и культурной зрелостью команды. Без этого даже самый совершенный инструмент становится опасным.
https://habr.com/ru/companies/architeezy/articles/953642/
Готов обсудить ваше видение в комментариях.
#Аналитика@data_capital
👍1
Иллюзия зрелости: почему методология без глубины остаётся просто игрой в слова
Только что завершил дистанционное участие в одном семинаре по управлению данными. Отключаю IVA и ещё долго сижу в тишине, пытаясь вернуть себе ощущение реальности. Словно наблюдал за сложной театральной постановкой, где вместо настоящих ценностей со сцены транслировали идеально упакованные иллюзии.
Мне, прошедшему путь осознания от Хаоса к «Антихаосу», сегодня снова пытались объяснить, что такое качество данных. Объясняли «специалисты-методологи», для которых Data Governance это не система для поддержки принятия точных бизнес решений, а коллекция слайдов с заимствованными концепциями. Люди, которые, кажется, никогда не чувствовали тяжести ответственности за реальные бизнес последствия ошибочных данных.
Я слушал и понимал: мы говорим на разных языках. Для них «владелец данных» это тот, кто «определяет требования». Для меня это человек, отвечающий за ценность и риски. Для них «качество» это проценты и графики. Для меня это доверие, которое можно потерять в один момент из-за одной ошибки.
Самое тревожное осознание пришло позже: таким специалистам методологам крупные компании доверяют строить свои цифровые экосистемы. Что вместо фундаментального подхода, вместо глубокой методологии, вместо четкой связи с бизнес целями нам предложили яркий суррогат. Инструменты выдавались за стратегию, процессы за культуру, а шаблонные роли за зрелую модель управления.
И за всем этим полная тишина там, где должен звучать главный вопрос: зачем? Как эти данные двигают бизнес? Как они создают ценность? Где экономика, где риски, где жизнь?
Отключив семинар, я понял: мы живем в эпоху великой путаницы. Когда технические исполнители пытаются играть в архитекторов ценностей. Когда ремесло пытается выдать себя за профессию. И это не их вина, это системная болезнь. Болезнь, при которой легко говорить на языке скриптов и дашбордов, и так сложно на языке смыслов (Огромное спасибо Владимиру Арсентьевичу Рубанову) и ответственности.
Грустно. Не потому что время потрачено зря. А потому что за этим семинаром стоят реальные бюджеты, реальные ожидания и реальные люди, которые верят, что их ведут к цифровому преображению. А на самом деле их ведут в красиво оформленный тупик.
И пока мы не начнем называть вещи своими именами и не потребуем от коллег не слайдов, а глубины, мы будем продолжать ходить по кругу. Строить витрины, в которых нет товара. И писать код, который не решает главного.
#Аналитика@data_capital
Только что завершил дистанционное участие в одном семинаре по управлению данными. Отключаю IVA и ещё долго сижу в тишине, пытаясь вернуть себе ощущение реальности. Словно наблюдал за сложной театральной постановкой, где вместо настоящих ценностей со сцены транслировали идеально упакованные иллюзии.
Мне, прошедшему путь осознания от Хаоса к «Антихаосу», сегодня снова пытались объяснить, что такое качество данных. Объясняли «специалисты-методологи», для которых Data Governance это не система для поддержки принятия точных бизнес решений, а коллекция слайдов с заимствованными концепциями. Люди, которые, кажется, никогда не чувствовали тяжести ответственности за реальные бизнес последствия ошибочных данных.
Я слушал и понимал: мы говорим на разных языках. Для них «владелец данных» это тот, кто «определяет требования». Для меня это человек, отвечающий за ценность и риски. Для них «качество» это проценты и графики. Для меня это доверие, которое можно потерять в один момент из-за одной ошибки.
Самое тревожное осознание пришло позже: таким специалистам методологам крупные компании доверяют строить свои цифровые экосистемы. Что вместо фундаментального подхода, вместо глубокой методологии, вместо четкой связи с бизнес целями нам предложили яркий суррогат. Инструменты выдавались за стратегию, процессы за культуру, а шаблонные роли за зрелую модель управления.
И за всем этим полная тишина там, где должен звучать главный вопрос: зачем? Как эти данные двигают бизнес? Как они создают ценность? Где экономика, где риски, где жизнь?
Отключив семинар, я понял: мы живем в эпоху великой путаницы. Когда технические исполнители пытаются играть в архитекторов ценностей. Когда ремесло пытается выдать себя за профессию. И это не их вина, это системная болезнь. Болезнь, при которой легко говорить на языке скриптов и дашбордов, и так сложно на языке смыслов (Огромное спасибо Владимиру Арсентьевичу Рубанову) и ответственности.
Грустно. Не потому что время потрачено зря. А потому что за этим семинаром стоят реальные бюджеты, реальные ожидания и реальные люди, которые верят, что их ведут к цифровому преображению. А на самом деле их ведут в красиво оформленный тупик.
И пока мы не начнем называть вещи своими именами и не потребуем от коллег не слайдов, а глубины, мы будем продолжать ходить по кругу. Строить витрины, в которых нет товара. И писать код, который не решает главного.
#Аналитика@data_capital
👍4❤1
Сервисный подход к данным, просто, как водопровод. И так же невозможно без него жить. Мысли в выходные дни о простом и сложном.
Коллеги, я постоянно слышу один вопрос: «Если сервисный подход к данным такой простой и логичный, почему его мало кто качественно делает?»
Отвечу как есть, потому что мы предпочитаем жить в цифровом средневековье.
Представьте поселок, где у каждого дома свой колодец. Один копает его в огороде, другой - в подвале, третий и вовсе берет воду из ближайшего болота. Воду никто не проверяет, колодцы мешают друг другу, а когда один источник пересыхает, то его хозяин начинает тайком носить ведром от соседа.
И так живут годами. Потому что «так исторически сложилось».
Вот это и есть типовая компания без сервисного подхода к данным.
Каждый отдел, каждая система, это тот самый дом с персональным, сомнительным колодцем.
- Отдел маркетинга пьет из одного колодца («активные клиенты»).
- Финансы, из другого («плательщики по договорам»).
- Служба поддержки, из третьего («заявители в техподдержку»).
- Канцелярия общается со всем миром вокруг берет воду из всех ручьев («корреспонденты»).
И вы удивляетесь, почему у вас разная цифра по количеству клиентов? Почему акции доходят не до всех? Почему отчёты не сходятся? Вы не решаете проблему, вы постоянно латаете дыры в «ведрах».
Сервисный подход в данных, это не про IT. Это про то, чтобы провести в этот посёлок центральный водопровод, или чтоб у всех был свет.
Это про целостность:
- Один источник.
- Чистая, проверенная вода для всех.
- Стандартный кран (API), из которого все берут.
- Команда сантехников (владельцы сервисов), которая отвечает за качество и бесперебойную работу.
Почему же это «просто», но не делается?
Потому что «просто», это на схеме в PowerPoint. А в жизни, это титаническая работа:
1. Нужно договориться, что такое «вода». То есть, что такое «клиент». Какие у него атрибуты. Кто имеет право его создавать и менять. Это не техническая, а политическая и методологическая битва.
2. Нужно перекрыть старые колодцы. А это значит, пойти против годами устоявшихся процессов, против «а мы всегда так делали», против людей, которые считают «свой» колодец своей вотчиной.
3. Нужно признать, что водопровод будет всегда. Его нельзя один раз провести и забыть. Его нужно обслуживать, модернизировать, защищать. Это не проект, а новая культура жизнеобеспечения компании.
И когда вы это понимаете, фраза «просто сделать один источник истины» начинает звучать как «просто построить город будущего».
Мы не делаем этого не потому, что не понимаем. А потому, что боимся этой титанической организационной работы. Проще продолжать бегать с вёдрами и винить во всем «кривые» отчеты.
Но в тот день, когда в вашей компании появится первый такой «водопровод» для ключевых данных, вы можете испытать катарсис, хотя обычно это ощущение, а разве может быть иначе. Вы поймёте, что наконец-то тратите силы не на борьбу с хаосом, а на движение вперёд.
Это трудно. Но жить в цифровом средневековье, когда у других уже есть умные сети, ещё труднее. И гораздо дороже.
Коллеги, я постоянно слышу один вопрос: «Если сервисный подход к данным такой простой и логичный, почему его мало кто качественно делает?»
Отвечу как есть, потому что мы предпочитаем жить в цифровом средневековье.
Представьте поселок, где у каждого дома свой колодец. Один копает его в огороде, другой - в подвале, третий и вовсе берет воду из ближайшего болота. Воду никто не проверяет, колодцы мешают друг другу, а когда один источник пересыхает, то его хозяин начинает тайком носить ведром от соседа.
И так живут годами. Потому что «так исторически сложилось».
Вот это и есть типовая компания без сервисного подхода к данным.
Каждый отдел, каждая система, это тот самый дом с персональным, сомнительным колодцем.
- Отдел маркетинга пьет из одного колодца («активные клиенты»).
- Финансы, из другого («плательщики по договорам»).
- Служба поддержки, из третьего («заявители в техподдержку»).
- Канцелярия общается со всем миром вокруг берет воду из всех ручьев («корреспонденты»).
И вы удивляетесь, почему у вас разная цифра по количеству клиентов? Почему акции доходят не до всех? Почему отчёты не сходятся? Вы не решаете проблему, вы постоянно латаете дыры в «ведрах».
Сервисный подход в данных, это не про IT. Это про то, чтобы провести в этот посёлок центральный водопровод, или чтоб у всех был свет.
Это про целостность:
- Один источник.
- Чистая, проверенная вода для всех.
- Стандартный кран (API), из которого все берут.
- Команда сантехников (владельцы сервисов), которая отвечает за качество и бесперебойную работу.
Почему же это «просто», но не делается?
Потому что «просто», это на схеме в PowerPoint. А в жизни, это титаническая работа:
1. Нужно договориться, что такое «вода». То есть, что такое «клиент». Какие у него атрибуты. Кто имеет право его создавать и менять. Это не техническая, а политическая и методологическая битва.
2. Нужно перекрыть старые колодцы. А это значит, пойти против годами устоявшихся процессов, против «а мы всегда так делали», против людей, которые считают «свой» колодец своей вотчиной.
3. Нужно признать, что водопровод будет всегда. Его нельзя один раз провести и забыть. Его нужно обслуживать, модернизировать, защищать. Это не проект, а новая культура жизнеобеспечения компании.
И когда вы это понимаете, фраза «просто сделать один источник истины» начинает звучать как «просто построить город будущего».
Мы не делаем этого не потому, что не понимаем. А потому, что боимся этой титанической организационной работы. Проще продолжать бегать с вёдрами и винить во всем «кривые» отчеты.
Но в тот день, когда в вашей компании появится первый такой «водопровод» для ключевых данных, вы можете испытать катарсис, хотя обычно это ощущение, а разве может быть иначе. Вы поймёте, что наконец-то тратите силы не на борьбу с хаосом, а на движение вперёд.
Это трудно. Но жить в цифровом средневековье, когда у других уже есть умные сети, ещё труднее. И гораздо дороже.
👍6🔥3
Водопровод провели. А пить воду некому.
Коллеги, спасибо за понимание поста про «водопровод». Вы правы: без единого источника истины, это путь в никуда. Но я хочу пойти дальше.
Представьте: мы проложили идеальные трубы. Вода кристальная, давление отличное, краны (API) работают. Но в домах - тишина. Люди продолжают ходить к своим старым, заиленным колодцам. Потому что привыкли. Потому что не доверяют «центральному водопроводу». Потому что их не научили поворачивать новый кран. Знакомая же история, может и сами этому подвержены?
Технологическая задача, как правило может быть решена. А организационная и культурная, она только начинается. Это тот самый момент, когда цифровое средневековье не хочет сдаваться без боя.
Меня всегда интересовало: а что, если довести идею «водопровода» до абсолютного уровня? Не просто дать доступ к данным, а сделать так, чтобы сама жизнь компании зависела от их качества и прозрачности. Чтобы не было «сантехников» и «потребителей», а были только ответственные жильцы поселка.
И чтоб этот пост не выглядел фантазией, я приложу к нему документ, который мне попал уже достаточно давно.
Есть одна компания, которая живёт так уже 30 лет. Valve. Многие, кто следит за развитием online игр, о ней давно слышал. У них нет менеджеров, отделов и KPI сверху. Нет того, кто «владеет» данными. Но их выручка на сотрудника - одна из самых высоких в мире более 50 млн. $ в год.
Парадокс? Нет. Их секрет в том, что они построили не водопровод. Они построили город на основе доверия к данным.
Вот как это работает:
Прозрачность как воздух. Вся информация о проектах, сервисах, метриках, экспериментах - открыта. Любой сотрудник может посмотреть на «счётчики» в любом «доме». Выбор, над чем работать, он делает, опираясь на эти данные, а не на приказ.
Владельцы, а не сантехники. Ответственность за качество «воды» (данных) распределена между всеми. Если ты используешь метрику в своём решении, ты по умолчанию отвечаешь за её адекватность. Это как если бы каждый житель города был ещё и инженером водоканала.
Культура, где ошибка в данных, позорнее, чем провал проекта. Репутацию здесь строят не на красивых отчётах и презентациях, а на точности и полезности предоставляемой коллегам информации. Ежегодное ранжирование, это в том числе и оценка твоего вклада в общее поле данных.
Мы говорим «сервисный подход» и думаем об архитектуре, API и пайплайнах. Valve показала, что это в первую очередь культурный код. Можно иметь лучший в мире водопровод, но если в компании нет зрелости доверять единому источнику, если люди боятся делиться «своей» водой или не умеют читать общие счётчики, система рухнет.
Трансформация, а особенно цифровая трансформация, это когда мы перестаём просто качать воду и начинаем воспитывать сообщество ответственных потребителей. Где данные, не актив отдела аналитики или канцелярии, а общий язык, на котором говорит вся компания с управляемой доступностью.
Это следующий шаг. Сложный, глубокий, человеческий. От построения инфраструктуры, к изменению мышления. Именно здесь рождается настоящая эффективность.
Интересно, на каком этапе находимся мы? Прокладываем трубы или уже учимся пить из одного источника?
Коллеги, спасибо за понимание поста про «водопровод». Вы правы: без единого источника истины, это путь в никуда. Но я хочу пойти дальше.
Представьте: мы проложили идеальные трубы. Вода кристальная, давление отличное, краны (API) работают. Но в домах - тишина. Люди продолжают ходить к своим старым, заиленным колодцам. Потому что привыкли. Потому что не доверяют «центральному водопроводу». Потому что их не научили поворачивать новый кран. Знакомая же история, может и сами этому подвержены?
Технологическая задача, как правило может быть решена. А организационная и культурная, она только начинается. Это тот самый момент, когда цифровое средневековье не хочет сдаваться без боя.
Меня всегда интересовало: а что, если довести идею «водопровода» до абсолютного уровня? Не просто дать доступ к данным, а сделать так, чтобы сама жизнь компании зависела от их качества и прозрачности. Чтобы не было «сантехников» и «потребителей», а были только ответственные жильцы поселка.
И чтоб этот пост не выглядел фантазией, я приложу к нему документ, который мне попал уже достаточно давно.
Есть одна компания, которая живёт так уже 30 лет. Valve. Многие, кто следит за развитием online игр, о ней давно слышал. У них нет менеджеров, отделов и KPI сверху. Нет того, кто «владеет» данными. Но их выручка на сотрудника - одна из самых высоких в мире более 50 млн. $ в год.
Парадокс? Нет. Их секрет в том, что они построили не водопровод. Они построили город на основе доверия к данным.
Вот как это работает:
Прозрачность как воздух. Вся информация о проектах, сервисах, метриках, экспериментах - открыта. Любой сотрудник может посмотреть на «счётчики» в любом «доме». Выбор, над чем работать, он делает, опираясь на эти данные, а не на приказ.
Владельцы, а не сантехники. Ответственность за качество «воды» (данных) распределена между всеми. Если ты используешь метрику в своём решении, ты по умолчанию отвечаешь за её адекватность. Это как если бы каждый житель города был ещё и инженером водоканала.
Культура, где ошибка в данных, позорнее, чем провал проекта. Репутацию здесь строят не на красивых отчётах и презентациях, а на точности и полезности предоставляемой коллегам информации. Ежегодное ранжирование, это в том числе и оценка твоего вклада в общее поле данных.
Мы говорим «сервисный подход» и думаем об архитектуре, API и пайплайнах. Valve показала, что это в первую очередь культурный код. Можно иметь лучший в мире водопровод, но если в компании нет зрелости доверять единому источнику, если люди боятся делиться «своей» водой или не умеют читать общие счётчики, система рухнет.
Трансформация, а особенно цифровая трансформация, это когда мы перестаём просто качать воду и начинаем воспитывать сообщество ответственных потребителей. Где данные, не актив отдела аналитики или канцелярии, а общий язык, на котором говорит вся компания с управляемой доступностью.
Это следующий шаг. Сложный, глубокий, человеческий. От построения инфраструктуры, к изменению мышления. Именно здесь рождается настоящая эффективность.
Интересно, на каком этапе находимся мы? Прокладываем трубы или уже учимся пить из одного источника?
👍3
Что такое DataOps? Откуда он взялся и зачем он нам?
DataOps - это достаточно новая культура и практика, которая делает работу с данными быстрой, надёжной и командной.
Представьте хоккей. Можно собрать пять лучших игроков лиги, поставить их на лёд и... с треском проиграть слаженной команде среднего уровня. Потому что нет общей стратегии, передачи не отработаны, а защита разваливается. Ровно так же выглядит типичная среда данных во многих компаниях.
DataOps, это тренер, система тренеровок и сама система, которые превращают вашу «сборку из звёзд» (гениального инженера, дотошного аналитика, талантливого ML-специалиста) в чемпионскую команду. Это набор правил, практик и инструментов, которые настраивают слаженную работу так, чтобы данные не застревали, не ломались и не терялись по пути от источника до принятия решения.
Откуда это взялось?
Концепция DataOps была формально представлена в 2014 году Ленни Либманом (Lenny Liebmann) в статье «3 Reasons Why DataOps Is Essential for Big Data Success». Её популяризации и развитию как методологии сильно способствовали Энди Палмер (Andy Palmer, сооснователь Tamr) и компания DataKitchen, основанная в 2015 году. Это был закономерный ответ на вызовы времени:
- DevOps (сформировался к концу 2000-х) доказал, что автоматизация и культура сотрудничества радикально ускоряют доставку ПО.
- Agile (Манифест 2001 года) утвердил гибкость и итеративность как стандарт.
- Мир данных упёрся в тупик, процессы стали слишком медленными от объема и "качества структуризации", ручными и хрупкими, не успевая за потребностями бизнеса.
DataOps - это осмысленное применение принципов DevOps (автоматизация, CI/CD, мониторинг) к полному жизненному циклу данных, от сырья до готового продукта.
Почему это важно для культуры?
Потому что без DataOps вы управляете «сборкой из звёзд». Ваш лучший инженер ночами вручную чинит сломанный канал данных. Талантливый аналитик неделями «колдует» в Excel, чтобы сделать единственный верный отчёт. Учёный по данным не может воспроизвести свою же модель, потому что исходные данные куда-то исчезли. Каждый - "звезда" в своём виде, но общий результат непредсказуем, медленен и ненадёжен.
DataOps меняет культуру с «культа звезд» на культуру командной игры и надёжных процессов. Это позволяет не просто «делать аналитику», а быстро, безопасно и предсказуемо превращать данные в рабочие инструменты для бизнеса: дашборды, отчёты, ML-модели.
Где это применяется?
Пионерами стали технологические компании, для которых данные, это основа продукта (Netflix, Airbnb, Spotify, LinkedIn). Сегодня это обязательный стандарт для любого серьёзного бизнеса, который зависит от масштабной аналитики, BI и машинного обучения.
Что в следующем посте?
Разберём ключевой сквозной процесс DataOps, это тот самый «игровой план» или отлаженную комбинацию, которую команда выполняет, чтобы доставить ценность. Будет понятная схема.
#DatаOps@data_capital
DataOps - это достаточно новая культура и практика, которая делает работу с данными быстрой, надёжной и командной.
Представьте хоккей. Можно собрать пять лучших игроков лиги, поставить их на лёд и... с треском проиграть слаженной команде среднего уровня. Потому что нет общей стратегии, передачи не отработаны, а защита разваливается. Ровно так же выглядит типичная среда данных во многих компаниях.
DataOps, это тренер, система тренеровок и сама система, которые превращают вашу «сборку из звёзд» (гениального инженера, дотошного аналитика, талантливого ML-специалиста) в чемпионскую команду. Это набор правил, практик и инструментов, которые настраивают слаженную работу так, чтобы данные не застревали, не ломались и не терялись по пути от источника до принятия решения.
Откуда это взялось?
Концепция DataOps была формально представлена в 2014 году Ленни Либманом (Lenny Liebmann) в статье «3 Reasons Why DataOps Is Essential for Big Data Success». Её популяризации и развитию как методологии сильно способствовали Энди Палмер (Andy Palmer, сооснователь Tamr) и компания DataKitchen, основанная в 2015 году. Это был закономерный ответ на вызовы времени:
- DevOps (сформировался к концу 2000-х) доказал, что автоматизация и культура сотрудничества радикально ускоряют доставку ПО.
- Agile (Манифест 2001 года) утвердил гибкость и итеративность как стандарт.
- Мир данных упёрся в тупик, процессы стали слишком медленными от объема и "качества структуризации", ручными и хрупкими, не успевая за потребностями бизнеса.
DataOps - это осмысленное применение принципов DevOps (автоматизация, CI/CD, мониторинг) к полному жизненному циклу данных, от сырья до готового продукта.
Почему это важно для культуры?
Потому что без DataOps вы управляете «сборкой из звёзд». Ваш лучший инженер ночами вручную чинит сломанный канал данных. Талантливый аналитик неделями «колдует» в Excel, чтобы сделать единственный верный отчёт. Учёный по данным не может воспроизвести свою же модель, потому что исходные данные куда-то исчезли. Каждый - "звезда" в своём виде, но общий результат непредсказуем, медленен и ненадёжен.
DataOps меняет культуру с «культа звезд» на культуру командной игры и надёжных процессов. Это позволяет не просто «делать аналитику», а быстро, безопасно и предсказуемо превращать данные в рабочие инструменты для бизнеса: дашборды, отчёты, ML-модели.
Где это применяется?
Пионерами стали технологические компании, для которых данные, это основа продукта (Netflix, Airbnb, Spotify, LinkedIn). Сегодня это обязательный стандарт для любого серьёзного бизнеса, который зависит от масштабной аналитики, BI и машинного обучения.
Что в следующем посте?
Разберём ключевой сквозной процесс DataOps, это тот самый «игровой план» или отлаженную комбинацию, которую команда выполняет, чтобы доставить ценность. Будет понятная схема.
#DatаOps@data_capital
👍6❤2
Игровой план DataOps. Как хоккейная комбинация превращает данные в голы.
В прошлый раз мы договорились, что DataOps, это тренер, который из "сборки звёзд" делает чемпионскую команду. Но как выглядит сама игра? Как команда данных слаженно движется к цели?
Представьте ту самую идеальную хоккейную атаку. Это не суматошный бег за шайбой, а чёткая, отточенная комбинация: выход из своей зоны, быстрый проход через центр, контроль на синей линии и точный бросок в створ ворот. Каждый участок льда соответствует своему этапу работы с данными.
Вот как выглядит ключевой сквозной процесс DataOps.
Разберем эту комбинацию по эпизодам:
1. Выход из своей зоны (Извлечение & Загрузка)
Это начало любой атаки. Шайба (сырые данные) должна быть чисто вброшена и вывезена из опасной зоны. В DataOps это значит надёжно и автоматически забрать данные из всех источников: CRM, ERP, логи, внешние API. Инструменты оркестрации (как Apache Airflow или Prefect) — это наш распорядитель, который по свистку запускает этот выход.
2. Быстрый проход через центр (Трансформация & Обогащение)
Шайба в движении. Её нужно провести через нейтральную зону, обводя препятствия (плохие форматы, лишние поля), и, возможно, отдать передачу (объединить с другими данными). На этом этапе сырые данные очищаются, приводятся к единому стандарту и обогащаются бизнес-логикой. Это сердце работы инженеров данных.
3. Ключевой момент: Контроль на синей линии (Тестирование)
Самая важная часть комбинации. Прежде чем войти в зону атаки, нужно убедиться, что шайба (данные) введена правильно, нет офсайда (критических ошибок). В DataOps этим занимается «станция контроля качества» — набор автоматических тестов (с помощью Great Expectations, dbt test, AWS Deequ).
Проверка на офсайд: Все ли обязательные поля на месте? (Полнота)
Проверка на проброс: Соответствуют ли значения ожидаемому формату? (Валидность)
Проверка на количество игроков: Нет ли дублирующихся записей? (Уникальность)
Если тесты пройдены - зелёный свет. Комбинация развивается.
Если обнаружена ошибка - зажигается красная лампа. Пайплайн останавливается, и уведомление мгновенно летит «тренеру» и «игрокам» (инженерам). Это не провал, а часть системы - быстрое обнаружение и изоляция проблемы.
4. Точный бросок в створ (Публикация)
Всё готово для результативного действия. Проверенные, готовые данные публикуются в целевую витрину, озеро данных или хранилище - туда, где их могут использовать аналитики и дата-сайентисты для создания дашбордов, отчётов и моделей. Гол!
Почему именно такая комбинация стандарт?
Потому что она отражает суть DataOps:
Скорость: Автоматизация заменяет ручной вброс и ручное ведение шайбы.
Надёжность: Контроль на синей линии (тесты) предотвращает попадание брака в зону атаки.
Командность: Процесс виден всем. Если игра встала, все понимают, где и почему, и могут скоординироваться для исправления.
Именно так команды в Netflix и Spotify обрабатывают петабайты данных ежедневно, не скатываясь в хаос.
Что в следующем посте?
Мы увидели, как команда красиво атакует. Но как новичку понять все эти комбинации? Как тренеру анализировать игру? Для этого нужна видеоаналитика, в мире данных её роль играет Каталог данных и управление метаданными. Об этом в следующем разборе.
#DatаOps@data_capital
В прошлый раз мы договорились, что DataOps, это тренер, который из "сборки звёзд" делает чемпионскую команду. Но как выглядит сама игра? Как команда данных слаженно движется к цели?
Представьте ту самую идеальную хоккейную атаку. Это не суматошный бег за шайбой, а чёткая, отточенная комбинация: выход из своей зоны, быстрый проход через центр, контроль на синей линии и точный бросок в створ ворот. Каждый участок льда соответствует своему этапу работы с данными.
Вот как выглядит ключевой сквозной процесс DataOps.
Разберем эту комбинацию по эпизодам:
1. Выход из своей зоны (Извлечение & Загрузка)
Это начало любой атаки. Шайба (сырые данные) должна быть чисто вброшена и вывезена из опасной зоны. В DataOps это значит надёжно и автоматически забрать данные из всех источников: CRM, ERP, логи, внешние API. Инструменты оркестрации (как Apache Airflow или Prefect) — это наш распорядитель, который по свистку запускает этот выход.
2. Быстрый проход через центр (Трансформация & Обогащение)
Шайба в движении. Её нужно провести через нейтральную зону, обводя препятствия (плохие форматы, лишние поля), и, возможно, отдать передачу (объединить с другими данными). На этом этапе сырые данные очищаются, приводятся к единому стандарту и обогащаются бизнес-логикой. Это сердце работы инженеров данных.
3. Ключевой момент: Контроль на синей линии (Тестирование)
Самая важная часть комбинации. Прежде чем войти в зону атаки, нужно убедиться, что шайба (данные) введена правильно, нет офсайда (критических ошибок). В DataOps этим занимается «станция контроля качества» — набор автоматических тестов (с помощью Great Expectations, dbt test, AWS Deequ).
Проверка на офсайд: Все ли обязательные поля на месте? (Полнота)
Проверка на проброс: Соответствуют ли значения ожидаемому формату? (Валидность)
Проверка на количество игроков: Нет ли дублирующихся записей? (Уникальность)
Если тесты пройдены - зелёный свет. Комбинация развивается.
Если обнаружена ошибка - зажигается красная лампа. Пайплайн останавливается, и уведомление мгновенно летит «тренеру» и «игрокам» (инженерам). Это не провал, а часть системы - быстрое обнаружение и изоляция проблемы.
4. Точный бросок в створ (Публикация)
Всё готово для результативного действия. Проверенные, готовые данные публикуются в целевую витрину, озеро данных или хранилище - туда, где их могут использовать аналитики и дата-сайентисты для создания дашбордов, отчётов и моделей. Гол!
Почему именно такая комбинация стандарт?
Потому что она отражает суть DataOps:
Скорость: Автоматизация заменяет ручной вброс и ручное ведение шайбы.
Надёжность: Контроль на синей линии (тесты) предотвращает попадание брака в зону атаки.
Командность: Процесс виден всем. Если игра встала, все понимают, где и почему, и могут скоординироваться для исправления.
Именно так команды в Netflix и Spotify обрабатывают петабайты данных ежедневно, не скатываясь в хаос.
Что в следующем посте?
Мы увидели, как команда красиво атакует. Но как новичку понять все эти комбинации? Как тренеру анализировать игру? Для этого нужна видеоаналитика, в мире данных её роль играет Каталог данных и управление метаданными. Об этом в следующем разборе.
#DatаOps@data_capital
👍2
Н А В И Г А Ц И Я
#Аналитика@data_capital - Исследования, анализ, размышления в области Управления Данными
#DatаOps@data_capital - Про дисциплину и культуру DataOps применительно к Управлению Данными и про само направление Data Governance
#Антихаос@data_capital - Про книгу и ее развитие
#Истории@data_capital - Из личного опыта и опыта партнеров, подписчиков канала
#Полезная_информация@data_capital - Библиотека решений, документов, концепции на нашем канале
#Аналитика@data_capital - Исследования, анализ, размышления в области Управления Данными
#DatаOps@data_capital - Про дисциплину и культуру DataOps применительно к Управлению Данными и про само направление Data Governance
#Антихаос@data_capital - Про книгу и ее развитие
#Истории@data_capital - Из личного опыта и опыта партнеров, подписчиков канала
#Полезная_информация@data_capital - Библиотека решений, документов, концепции на нашем канале
🔥2
Data Капитал pinned «Н А В И Г А Ц И Я #Аналитика@data_capital - Исследования, анализ, размышления в области Управления Данными #DatаOps@data_capital - Про дисциплину и культуру DataOps применительно к Управлению Данными и про само направление Data Governance #Антихаос@data_capital…»
Видеоаналитика для данных. Как каталог раскрывает всю "игру".
В прошлых постах мы собрали команду и разучили чемпионскую комбинацию. Но представьте, что вы новый игрок или тренер. Вы видите, как команда блестяще проводит атаку, но не понимаете замысла. Где был ключевой пас? Почему игра остановилась на синей линии? Кто должен был сыграть в этот момент?
В хоккее такие вопросы решает видеоаналитика, это система камер и датчиков, которая фиксирует каждое движение. В мире данных эту роль выполняет Каталог данных (Data Catalog) и управление метаданными.
Это не просто «ещё один инструмент». Это единое зеркало, отражающее всю игру ваших данных в реальном времени.
Что такое «метаданные» в нашей "игре"?
Это не сама шайба (данные), а полная запись события:
Кто вбросил шайбу (источник)?
Когда и с какой скоростью она прошла через центр (время выполнения, объем)?
Был ли офсайд на синей линии (результаты тестов качества)?
Кто сделал голевую передачу (процесс-обогатитель)?
В какие ворота и в каком матче забит гол (назначение данных, дашборд)?
Как это работает на практике?
Популярные «системы видеоаналитики»:
Apache Atlas - одна из первых open-source систем, заточенная на работу в сложных экосистемах Hadoop. Создана для того, чтобы в лабиринте больших данных всегда знать, что где лежит и как связано.
DataHub - современный каталог от LinkedIn, ставший проектом Linux Foundation. Его философия - простота интеграции и удобство для всех: от инженера до бизнес-аналитика.
Alation, Collibra - решения с сильным акцентом на бизнес-терминологию и управление политиками (Data Governance).
Зачем это нужно каждому участнику "игры"?
Для новичка (аналитика, учёного): Чтобы за 5 минут найти нужный набор данных. Не гадать, а увидеть в каталоге: вот он, «статистика бросков в 3-м периоде», обновлялся сегодня утром, прошёл все проверки, а вот пример запроса и ответственный. Это конец эпохи «месяца на поиск данных».
Для тренера (владельца данных, архитектора): Чтобы управлять воздействием (Impact Analysis). Кликнув на источник данных, вы видите: от него зависят 5 витрин, 12 отчётов для руководства и 3 ML-модели. Изменяя его, вы сразу понимаете масштаб работ и кого предупредить. Это основа для управляемых изменений, а не хаотичных поломок.
Для судьи и команды (инженеров): Чтобы мгновенно диагностировать сбой. Если пайплайн упал на синей линии, вы не просто видите ошибку «NULL value». Вы в каталоге видите полную цепочку: эта таблица → из этого источника → её используют вот эти дашборды → владелец: Иванов. Диагностика и коммуникация ускоряются в разы.
Проще говоря, каталог убивает три главных страха:
- Я не знаю, что у нас есть (страх поиска).
- Я не уверен, что этим можно пользоваться (страх доверия).
- Я боюсь что-то сломать (страх изменений).
Он превращает данные из таинственного «продукта IT» в понятный, описанный актив, с которым можно работать.
Что в следующем посте?
Мы разобрали команду, игровые комбинации и видеоаналитику.
Остались вопросы:
Какой счёт на табло? Зачем бизнесу вкладываться в эту сложную систему? А также будет о реальных результатах и о том, как начать применять DataOps не «потом», а уже сейчас.
#DatаOps@data_capital
В прошлых постах мы собрали команду и разучили чемпионскую комбинацию. Но представьте, что вы новый игрок или тренер. Вы видите, как команда блестяще проводит атаку, но не понимаете замысла. Где был ключевой пас? Почему игра остановилась на синей линии? Кто должен был сыграть в этот момент?
В хоккее такие вопросы решает видеоаналитика, это система камер и датчиков, которая фиксирует каждое движение. В мире данных эту роль выполняет Каталог данных (Data Catalog) и управление метаданными.
Это не просто «ещё один инструмент». Это единое зеркало, отражающее всю игру ваших данных в реальном времени.
Что такое «метаданные» в нашей "игре"?
Это не сама шайба (данные), а полная запись события:
Кто вбросил шайбу (источник)?
Когда и с какой скоростью она прошла через центр (время выполнения, объем)?
Был ли офсайд на синей линии (результаты тестов качества)?
Кто сделал голевую передачу (процесс-обогатитель)?
В какие ворота и в каком матче забит гол (назначение данных, дашборд)?
Как это работает на практике?
Популярные «системы видеоаналитики»:
Apache Atlas - одна из первых open-source систем, заточенная на работу в сложных экосистемах Hadoop. Создана для того, чтобы в лабиринте больших данных всегда знать, что где лежит и как связано.
DataHub - современный каталог от LinkedIn, ставший проектом Linux Foundation. Его философия - простота интеграции и удобство для всех: от инженера до бизнес-аналитика.
Alation, Collibra - решения с сильным акцентом на бизнес-терминологию и управление политиками (Data Governance).
Зачем это нужно каждому участнику "игры"?
Для новичка (аналитика, учёного): Чтобы за 5 минут найти нужный набор данных. Не гадать, а увидеть в каталоге: вот он, «статистика бросков в 3-м периоде», обновлялся сегодня утром, прошёл все проверки, а вот пример запроса и ответственный. Это конец эпохи «месяца на поиск данных».
Для тренера (владельца данных, архитектора): Чтобы управлять воздействием (Impact Analysis). Кликнув на источник данных, вы видите: от него зависят 5 витрин, 12 отчётов для руководства и 3 ML-модели. Изменяя его, вы сразу понимаете масштаб работ и кого предупредить. Это основа для управляемых изменений, а не хаотичных поломок.
Для судьи и команды (инженеров): Чтобы мгновенно диагностировать сбой. Если пайплайн упал на синей линии, вы не просто видите ошибку «NULL value». Вы в каталоге видите полную цепочку: эта таблица → из этого источника → её используют вот эти дашборды → владелец: Иванов. Диагностика и коммуникация ускоряются в разы.
Проще говоря, каталог убивает три главных страха:
- Я не знаю, что у нас есть (страх поиска).
- Я не уверен, что этим можно пользоваться (страх доверия).
- Я боюсь что-то сломать (страх изменений).
Он превращает данные из таинственного «продукта IT» в понятный, описанный актив, с которым можно работать.
Что в следующем посте?
Мы разобрали команду, игровые комбинации и видеоаналитику.
Остались вопросы:
Какой счёт на табло? Зачем бизнесу вкладываться в эту сложную систему? А также будет о реальных результатах и о том, как начать применять DataOps не «потом», а уже сейчас.
#DatаOps@data_capital
👍3
Какой счёт на табло? Что выигрывает бизнес от DataOps
В прошлых постах мы собрали команду, разучили чемпионскую комбинацию и подключили видеоаналитику.
Теперь вопрос: какой счёт на табло? Что бизнес получает в результате?
Если коротко: внедрение DataOps, это переход от случайных ничьих к стабильным победам в регулярном чемпионате. И этот результат виден в четырёх ключевых показателях игры.
1. Скорость: От редких выстрелов по воротам, к постоянному прессингу.
Было: Чтобы создать новый отчёт или дашборд, нужно «заказать» его у единственного специалиста. Он неделями вручную собирает данные, как одиночка пытается пройти всю площадку сам.
Стало: Новая витрина данных или модель, это стандартная комбинация, которую команда оттачивает на тренировках. Автоматизированные пайплайны позволяют разыгрывать её за дни, а не недели. Бизнес получает возможность чаще «бросать по воротам» - тестировать гипотезы и быстрее реагировать на изменения рынка. Это и есть Self-Service на качественных данных.
2. Надёжность: От дырявой обороны, к «сухим» матчам.
Было: Каждый матч (ежемесячный отчёт, расчёт ключевых метрик) - это стресс. Статистика ломается, цифры не сходятся, все ищут, кто потерял шайбу в своей зоне. Команда работает в режиме постоянных авралов.
Стало: Автоматические тесты на синей линии (Data Quality) и видеонаблюдение за игрой (Observability) ловят 99% ошибок до того, как они приведут к голу. Вы получаете предсказуемый результат и «сухие» матчи, это отчёты, которые сходятся и публикуются точно в срок. Вместо хаотичных авралов, начались плановые тренировки и анализ игры.
3. Масштабируемость: От уставшей первой тройки, к команде из четырёх звеньев.
Было: Вся игра держится на первой звёздной тройке (2-3 ключевых специалиста). Чтобы обработать в 10 раз больше данных, нужно найти и вырастить ещё 10 таких же звёзд, что почти невозможно. Команда выдыхается к третьему периоду.
Стало: Чёткие комбинации и стандарты позволяют подключать к игре второе, третье, четвёртое звено. Система и процессы масштабируются, а не звезды. Рост нагрузки ведёт не к найму десятков суперспецов, а к грамотному усилению команды и инфраструктуры.
4. Доверие: От свиста трибун переходим к слаженной поддержке фанатов.
Было: Каждый раз, когда цифры в двух отчётах не сходятся, бизнес спрашивает: «Какому источнику верить?». Это как свист трибун на домашнем матче, когда команде не доверяют свои же.
Стало: Единый источник истины для ключевых показателей, прозрачная статистика по качеству данных и понятное происхождение каждой цифры (Lineage) создают фундамент доверия. Бизнес начинает принимать решения, глядя на объективную статистику с табло, а не на субъективные ощущения.
Как сделать первый результативный бросок?
Не нужно менять всю хоккейную систему клуба за один матч. Начните с отработки одной, но болезненной комбинации.
Выберите одну проблему: Например, еженедельный отчёт по продажам, который постоянно готовится вручную и ломается.
Автоматизируйте его как пайплайн: Примените принципы из поста про "Игровой план DataOps". Настройте оркестратор (вашего «диспетчера»), добавьте автоматические тесты на ключевые показатели.
Зарегистрируйте результат в каталоге: Внесите этот отчёт как новый актив в вашу «систему видеоаналитики» из поста ранее и назначьте ответственного.
Зафиксируйте выигрыш: Измерьте, насколько сократилось время подготовки, сколько ошибок удалось предотвратить.
Этот первый успех станет вашим первым забитым голом по новой системе. Он покажет счёт и докажет, что играть можно по-другому.
Итог: DataOps - это стратегическая ставка на культуру работы с данными.
Это переход от анархии и игры отдельных талантов к слаженной системе, которая стабильно приносит результативные победы бизнесу. Вы перестаётся бороться с хаосом и начинаете управлять игрой.
Что разберём в следующем посте?
Чтобы комбинации работали, нужна правильная экипировка. В следующий раз посмотрим на «Экипировку чемпиона: клюшки, коньки и шлемы DataOps», обзор и принципы выбора инструментов.
#DatаOps@data_capital
В прошлых постах мы собрали команду, разучили чемпионскую комбинацию и подключили видеоаналитику.
Теперь вопрос: какой счёт на табло? Что бизнес получает в результате?
Если коротко: внедрение DataOps, это переход от случайных ничьих к стабильным победам в регулярном чемпионате. И этот результат виден в четырёх ключевых показателях игры.
1. Скорость: От редких выстрелов по воротам, к постоянному прессингу.
Было: Чтобы создать новый отчёт или дашборд, нужно «заказать» его у единственного специалиста. Он неделями вручную собирает данные, как одиночка пытается пройти всю площадку сам.
Стало: Новая витрина данных или модель, это стандартная комбинация, которую команда оттачивает на тренировках. Автоматизированные пайплайны позволяют разыгрывать её за дни, а не недели. Бизнес получает возможность чаще «бросать по воротам» - тестировать гипотезы и быстрее реагировать на изменения рынка. Это и есть Self-Service на качественных данных.
2. Надёжность: От дырявой обороны, к «сухим» матчам.
Было: Каждый матч (ежемесячный отчёт, расчёт ключевых метрик) - это стресс. Статистика ломается, цифры не сходятся, все ищут, кто потерял шайбу в своей зоне. Команда работает в режиме постоянных авралов.
Стало: Автоматические тесты на синей линии (Data Quality) и видеонаблюдение за игрой (Observability) ловят 99% ошибок до того, как они приведут к голу. Вы получаете предсказуемый результат и «сухие» матчи, это отчёты, которые сходятся и публикуются точно в срок. Вместо хаотичных авралов, начались плановые тренировки и анализ игры.
3. Масштабируемость: От уставшей первой тройки, к команде из четырёх звеньев.
Было: Вся игра держится на первой звёздной тройке (2-3 ключевых специалиста). Чтобы обработать в 10 раз больше данных, нужно найти и вырастить ещё 10 таких же звёзд, что почти невозможно. Команда выдыхается к третьему периоду.
Стало: Чёткие комбинации и стандарты позволяют подключать к игре второе, третье, четвёртое звено. Система и процессы масштабируются, а не звезды. Рост нагрузки ведёт не к найму десятков суперспецов, а к грамотному усилению команды и инфраструктуры.
4. Доверие: От свиста трибун переходим к слаженной поддержке фанатов.
Было: Каждый раз, когда цифры в двух отчётах не сходятся, бизнес спрашивает: «Какому источнику верить?». Это как свист трибун на домашнем матче, когда команде не доверяют свои же.
Стало: Единый источник истины для ключевых показателей, прозрачная статистика по качеству данных и понятное происхождение каждой цифры (Lineage) создают фундамент доверия. Бизнес начинает принимать решения, глядя на объективную статистику с табло, а не на субъективные ощущения.
Как сделать первый результативный бросок?
Не нужно менять всю хоккейную систему клуба за один матч. Начните с отработки одной, но болезненной комбинации.
Выберите одну проблему: Например, еженедельный отчёт по продажам, который постоянно готовится вручную и ломается.
Автоматизируйте его как пайплайн: Примените принципы из поста про "Игровой план DataOps". Настройте оркестратор (вашего «диспетчера»), добавьте автоматические тесты на ключевые показатели.
Зарегистрируйте результат в каталоге: Внесите этот отчёт как новый актив в вашу «систему видеоаналитики» из поста ранее и назначьте ответственного.
Зафиксируйте выигрыш: Измерьте, насколько сократилось время подготовки, сколько ошибок удалось предотвратить.
Этот первый успех станет вашим первым забитым голом по новой системе. Он покажет счёт и докажет, что играть можно по-другому.
Итог: DataOps - это стратегическая ставка на культуру работы с данными.
Это переход от анархии и игры отдельных талантов к слаженной системе, которая стабильно приносит результативные победы бизнесу. Вы перестаётся бороться с хаосом и начинаете управлять игрой.
Что разберём в следующем посте?
Чтобы комбинации работали, нужна правильная экипировка. В следующий раз посмотрим на «Экипировку чемпиона: клюшки, коньки и шлемы DataOps», обзор и принципы выбора инструментов.
#DatаOps@data_capital
👍3
Экипировка чемпиона: Клюшки, коньки и шлемы DataOps.
Мы разобрали, как выглядит чемпионская комбинация, от вброса шайбы до точного броска. Но чтобы её исполнить, нужна правильная экипировка. Не выйдете же вы на лёд в коньках для фигурного катания и с клюшкой для гольфа.
DataOps, это тоже командный вид спорта, где у каждого игрока и у каждой задачи свой инструмент. Давайте разложим по полкам вашу будущую хоккейную экипировку, что для чего нужно и как правильно выбирать.
1. Клюшки (Оркестраторы и управление пайплайнами).
Это ваш главный инструмент для ведения шайбы и выполнения комбинаций. Оркестратор, это ваша умная клюшка, которая сама знает, когда начать атаку, кому отдать пас и куда сделать бросок.
Задача: Автоматически запускать, координировать и контролировать выполнение всех этапов вашей «комбинации» из Поста 2: сначала загрузка данных, потом очистка, затем преобразование и так далее.
Популярные модели:
Apache Airflow - Ветераны лиги. Надёжные, гибкие, с огромным сообществом. Как проверенная клюшка с идеальным загибом, под которую можно написать любую комбинацию. Требует умения «затачивать» (писать код DAG).
Prefect / Dagster - Современные, эргономичные модели. Сделаны с расчётом на удобство разработчика и встроенный контроль данных. Как клюшки нового поколения с улучшенными характеристиками для более точных передач.
Как выбрать? Если у вас уже есть опытные «заправские» инженеры, то тогда Airflow.
Если хотите начать быстро и делать упор на современные практики, то присмотритесь к Prefect или Dagster.
2. Коньки (Языки и фреймворки для преобразования данных).
Это то, что даёт вам скорость и манёвренность в центре поля, где нужно обвести защитника (исправить плохие данные) и сделать голевую передачу (объединить таблицы). Ваша работа на этапе трансформации.
Задача: Эффективно и понятно описывать логику преобразования сырых данных в готовые для анализа наборы.
Популярные модели:
SQL - Классика. Универсальные коньки, которые подходят почти всем. Особенно сильны в витринах и агрегациях. Всегда в сумке у любого игрока.
dbt (data build tool) - Специализированные коньки для скоростного прохода через нейтральную зону. Превращает SQL в настоящий инженерный процесс в который добавляет тестирование, документацию и версионность. Сегодня это стандарт для этапа трансформации.
Apache Spark / PySpark - Мощные коньки для грузовой скорости. Когда нужно обработать гигантские объёмы данных (петабайты), это тоже ваш выбор.
Как выбрать? Начинайте с SQL + dbt для 95% задач. К мощным «конькам» вроде Spark переходите только когда упрётесь в реальные ограничения скорости и объёма.
3. Шлемы и защита (Тестирование и каталогизация).
Самая важная экипировка. Шлем, это автоматическое тестирование данных, которое защищает голову от травм (принятие решений на основе ошибок). Защита, это каталог данных, который сохраняет всю историю и статистику вашей игры. Даже если вы просто тренируетесь, готовы ли вы без защиты это делать, а многие в современном бизнесе так поступают со своими данными...
Задача «Шлема» (Тестирование). Можно конечно и без «Шлема» ставить автоматические «сигнализаторы» на синей линии. Проверять, все ли игроки на месте (полнота данных), не было ли офсайда (соответствие формату), не слишком ли долго вели шайбу (аномалии). Однако, в современном хоккее это может быстро оказаться фатальной ошибкой...
Инструменты: Great Expectations, dbt test, Soda Core. Ваш выбор, если хотите чётких, декларативных правил.
Задача «Защиты» (Каталог данных), быть архивом всех видеоповторов, как в посте "Видеоповторы и статистика. Каталог данных как система анализа "игры"". Фиксировать: откуда пришла шайба, кто сделал передачу, какие комбинации привели к голу.
Инструменты: DataHub, OpenMetadata (open-source), Amundsen. Стандарт для современной команды.
Как выбрать?
Для тестирования начните со встроенных в dbt возможностей — это самый быстрый путь. Для каталога выбирайте DataHub или OpenMetadata, у них активное сообщество и они легко интегрируются с остальным стеком.
#DatаOps@data_capital
Мы разобрали, как выглядит чемпионская комбинация, от вброса шайбы до точного броска. Но чтобы её исполнить, нужна правильная экипировка. Не выйдете же вы на лёд в коньках для фигурного катания и с клюшкой для гольфа.
DataOps, это тоже командный вид спорта, где у каждого игрока и у каждой задачи свой инструмент. Давайте разложим по полкам вашу будущую хоккейную экипировку, что для чего нужно и как правильно выбирать.
1. Клюшки (Оркестраторы и управление пайплайнами).
Это ваш главный инструмент для ведения шайбы и выполнения комбинаций. Оркестратор, это ваша умная клюшка, которая сама знает, когда начать атаку, кому отдать пас и куда сделать бросок.
Задача: Автоматически запускать, координировать и контролировать выполнение всех этапов вашей «комбинации» из Поста 2: сначала загрузка данных, потом очистка, затем преобразование и так далее.
Популярные модели:
Apache Airflow - Ветераны лиги. Надёжные, гибкие, с огромным сообществом. Как проверенная клюшка с идеальным загибом, под которую можно написать любую комбинацию. Требует умения «затачивать» (писать код DAG).
Prefect / Dagster - Современные, эргономичные модели. Сделаны с расчётом на удобство разработчика и встроенный контроль данных. Как клюшки нового поколения с улучшенными характеристиками для более точных передач.
Как выбрать? Если у вас уже есть опытные «заправские» инженеры, то тогда Airflow.
Если хотите начать быстро и делать упор на современные практики, то присмотритесь к Prefect или Dagster.
2. Коньки (Языки и фреймворки для преобразования данных).
Это то, что даёт вам скорость и манёвренность в центре поля, где нужно обвести защитника (исправить плохие данные) и сделать голевую передачу (объединить таблицы). Ваша работа на этапе трансформации.
Задача: Эффективно и понятно описывать логику преобразования сырых данных в готовые для анализа наборы.
Популярные модели:
SQL - Классика. Универсальные коньки, которые подходят почти всем. Особенно сильны в витринах и агрегациях. Всегда в сумке у любого игрока.
dbt (data build tool) - Специализированные коньки для скоростного прохода через нейтральную зону. Превращает SQL в настоящий инженерный процесс в который добавляет тестирование, документацию и версионность. Сегодня это стандарт для этапа трансформации.
Apache Spark / PySpark - Мощные коньки для грузовой скорости. Когда нужно обработать гигантские объёмы данных (петабайты), это тоже ваш выбор.
Как выбрать? Начинайте с SQL + dbt для 95% задач. К мощным «конькам» вроде Spark переходите только когда упрётесь в реальные ограничения скорости и объёма.
3. Шлемы и защита (Тестирование и каталогизация).
Самая важная экипировка. Шлем, это автоматическое тестирование данных, которое защищает голову от травм (принятие решений на основе ошибок). Защита, это каталог данных, который сохраняет всю историю и статистику вашей игры. Даже если вы просто тренируетесь, готовы ли вы без защиты это делать, а многие в современном бизнесе так поступают со своими данными...
Задача «Шлема» (Тестирование). Можно конечно и без «Шлема» ставить автоматические «сигнализаторы» на синей линии. Проверять, все ли игроки на месте (полнота данных), не было ли офсайда (соответствие формату), не слишком ли долго вели шайбу (аномалии). Однако, в современном хоккее это может быстро оказаться фатальной ошибкой...
Инструменты: Great Expectations, dbt test, Soda Core. Ваш выбор, если хотите чётких, декларативных правил.
Задача «Защиты» (Каталог данных), быть архивом всех видеоповторов, как в посте "Видеоповторы и статистика. Каталог данных как система анализа "игры"". Фиксировать: откуда пришла шайба, кто сделал передачу, какие комбинации привели к голу.
Инструменты: DataHub, OpenMetadata (open-source), Amundsen. Стандарт для современной команды.
Как выбрать?
Для тестирования начните со встроенных в dbt возможностей — это самый быстрый путь. Для каталога выбирайте DataHub или OpenMetadata, у них активное сообщество и они легко интегрируются с остальным стеком.
#DatаOps@data_capital
👍3
Главное правило выбора экипировки: Не гонитесь за самым модным и дорогим. Сначала оцените стиль игры вашей команды (зрелость, компетенции, задачи) и размер площадки (объёмы данных, сложность).
Начните с одной клюшки и одних коньков. Автоматизируйте одну болезненную комбинацию, как в Посте "Какой счёт на табло? Что выигрывает бизнес от DataOps", на простом, но современном стеке (например, Airflow + dbt).
Сразу наденьте шлем. Встройте базовые тесты на качество данных с первого дня. Это не роскошь, а обязательная защита.
Заведите журнал учёта. Зарегистрируйте первый успешный пайплайн в каталоге данных. Пусть это будет начало вашей «видеотеки».
Помните: даже лучшая в мире клюшка не заменит сыгранности команды и понимания игрового плана. Инструменты лишь усиливают ваши возможности.
Что разберём в следующем посте?
У любой игры есть правила. Что делать, когда кроме тренера появляются судьи и регламент лиги (Data Governance)? Об этом в следующем разборе.
#DatаOps@data_capital
Начните с одной клюшки и одних коньков. Автоматизируйте одну болезненную комбинацию, как в Посте "Какой счёт на табло? Что выигрывает бизнес от DataOps", на простом, но современном стеке (например, Airflow + dbt).
Сразу наденьте шлем. Встройте базовые тесты на качество данных с первого дня. Это не роскошь, а обязательная защита.
Заведите журнал учёта. Зарегистрируйте первый успешный пайплайн в каталоге данных. Пусть это будет начало вашей «видеотеки».
Помните: даже лучшая в мире клюшка не заменит сыгранности команды и понимания игрового плана. Инструменты лишь усиливают ваши возможности.
Что разберём в следующем посте?
У любой игры есть правила. Что делать, когда кроме тренера появляются судьи и регламент лиги (Data Governance)? Об этом в следующем разборе.
#DatаOps@data_capital
👍2
Наша Аналитика. Управление Данными, есть ли топливо в двигателе цифровизации. Как «Ростелеком» видит системный подход к данным.
Доминирование ИИ - давно не новость. Каждый год аналитические отчёты вновь подтверждают его лидерство. Но у этой медали есть и другая, менее обсуждаемая сторона, фундамент, на котором этот ИИ стоит. Взрывной рост дата-центров (тренд Data Center Networks поднялся сразу на 10 позиций), спрос на кибербезопасность и облака - всё это симптомы одной «болезни».
Проблема в том, что наша цифровизация демонстрирует системный парадокс, с одной стороны мы инвестируем огромные ресурсы в «мозги» (ИИ) и «мускулы» (инфраструктуру), а с другой упускаем из виду «нервную систему», сквозное системное Управление Данными и данные не становятся активом Компаний.
Исследование «Мониторинг глобальных трендов цифровизации» от «Ростелекома» даёт уникальную возможность взглянуть на эту картину стратегически. Это не просто перечень модных технологий, а карта, показывающая, как одни тренды порождают другие. И здесь становится видно: DataOps, врамках дисциплин Управления Данными (УД), не просто техническая практика для инженеров, а критический драйвер, без которого инвестиции в цифровую трансформацию рискуют не окупиться, но об этом нет ни слова в исследовании.
Вызовы, которые превращают данные в проблему, а не в актив.
Почему УД выходит на первый план именно сейчас? Тренды формируют идеальный шторм:
- ИИ требует качества, а не просто объема. В «Ростелекоме» прямо заявляют: «никакая модель не даст желаемого результата, если обучена на нерелевантных данных». Галлюцинации ИИ и необходимость в объяснимом ИИ (XAI) - это уже не футуристичные концепты, а реальные «слабые сигналы», интерес к которым вырос в разы.
- Инфраструктура усложняется. Данные давно уже не "живут" в одном хранилище. Они разбросаны между гибридными облаками, устаревшими системами (legacy) и партнерскими контурами. Это прямая дорога к изолированным «данным-силосам», где сопровождение дорожает, а скорость бизнеса падает.
- Доверие, как элемент качества данных, становится внутренней "валютой". Как показывают исследования, клиенты хотят персонализации, новой технологии = персонифицированной доступности, а не доступа через системыные интерфейсы, но боятся утечек. Внутри компаний сотрудники тратят массу времени на перепроверку данных, или получение доступа к актуальным данным, задаваясь вопросами: «Насколько этим цифрам можно доверять?».
Ответ «Ростелекома» в исследованиях: От разрозненных инструментов к системной платформе
Ответом на эти вызовы становится переход от точечных решений к системному DataOps и платформенному УД. В «Ростелекоме» этот путь виден в развитии собственной экосистемы, которая закрывает полный цикл технической работы с данными.
УД = DG(Data Governance) как основа доверия. Продукт RT.DataGovernance от дочерней компании TData - позиционируется не просто как каталог, а как система, которая автоматически документирует источники, строит сквозные линии данных (Data Lineage), маркирует персональные данные с помощью ИИ и управляет качеством. Декларируемы результат - сокращение времени на поиск данных в 20 раз и более 6000 активных пользователей внутри компании. Насколько это это юридически значимый и доверенный механизм, по представленной информации оценить не представляется возможным.
ИИ - определен как партнер в операционной деятельности. Внутренняя платформа «Нейрошлюз» объединяет десятки AI-сервисов для работы с документами, кодом и данными. Это не эксперимент, а индустриализация ИИ, где он выступает как «второй пилот», освобождая людей от рутины. О необходимости внедрения данной технологии под экспертным сопровождением мы давно уже заявляем.
Практический DataOps: автоматизация и интеграция. Ключевое развитие заявляемое для RT.DataGovernance, это создание коннекторов для Apache Kafka и Airflow. Это прямой мост между классическим управлением метаданными и живыми, работающими пайплайнами. DataOps-практики (оркестрация, мониторинг потоков) встраиваются прямо в платформу управления данными.
#Аналитика@data_capital
Доминирование ИИ - давно не новость. Каждый год аналитические отчёты вновь подтверждают его лидерство. Но у этой медали есть и другая, менее обсуждаемая сторона, фундамент, на котором этот ИИ стоит. Взрывной рост дата-центров (тренд Data Center Networks поднялся сразу на 10 позиций), спрос на кибербезопасность и облака - всё это симптомы одной «болезни».
Проблема в том, что наша цифровизация демонстрирует системный парадокс, с одной стороны мы инвестируем огромные ресурсы в «мозги» (ИИ) и «мускулы» (инфраструктуру), а с другой упускаем из виду «нервную систему», сквозное системное Управление Данными и данные не становятся активом Компаний.
Исследование «Мониторинг глобальных трендов цифровизации» от «Ростелекома» даёт уникальную возможность взглянуть на эту картину стратегически. Это не просто перечень модных технологий, а карта, показывающая, как одни тренды порождают другие. И здесь становится видно: DataOps, врамках дисциплин Управления Данными (УД), не просто техническая практика для инженеров, а критический драйвер, без которого инвестиции в цифровую трансформацию рискуют не окупиться, но об этом нет ни слова в исследовании.
Вызовы, которые превращают данные в проблему, а не в актив.
Почему УД выходит на первый план именно сейчас? Тренды формируют идеальный шторм:
- ИИ требует качества, а не просто объема. В «Ростелекоме» прямо заявляют: «никакая модель не даст желаемого результата, если обучена на нерелевантных данных». Галлюцинации ИИ и необходимость в объяснимом ИИ (XAI) - это уже не футуристичные концепты, а реальные «слабые сигналы», интерес к которым вырос в разы.
- Инфраструктура усложняется. Данные давно уже не "живут" в одном хранилище. Они разбросаны между гибридными облаками, устаревшими системами (legacy) и партнерскими контурами. Это прямая дорога к изолированным «данным-силосам», где сопровождение дорожает, а скорость бизнеса падает.
- Доверие, как элемент качества данных, становится внутренней "валютой". Как показывают исследования, клиенты хотят персонализации, новой технологии = персонифицированной доступности, а не доступа через системыные интерфейсы, но боятся утечек. Внутри компаний сотрудники тратят массу времени на перепроверку данных, или получение доступа к актуальным данным, задаваясь вопросами: «Насколько этим цифрам можно доверять?».
Ответ «Ростелекома» в исследованиях: От разрозненных инструментов к системной платформе
Ответом на эти вызовы становится переход от точечных решений к системному DataOps и платформенному УД. В «Ростелекоме» этот путь виден в развитии собственной экосистемы, которая закрывает полный цикл технической работы с данными.
УД = DG(Data Governance) как основа доверия. Продукт RT.DataGovernance от дочерней компании TData - позиционируется не просто как каталог, а как система, которая автоматически документирует источники, строит сквозные линии данных (Data Lineage), маркирует персональные данные с помощью ИИ и управляет качеством. Декларируемы результат - сокращение времени на поиск данных в 20 раз и более 6000 активных пользователей внутри компании. Насколько это это юридически значимый и доверенный механизм, по представленной информации оценить не представляется возможным.
ИИ - определен как партнер в операционной деятельности. Внутренняя платформа «Нейрошлюз» объединяет десятки AI-сервисов для работы с документами, кодом и данными. Это не эксперимент, а индустриализация ИИ, где он выступает как «второй пилот», освобождая людей от рутины. О необходимости внедрения данной технологии под экспертным сопровождением мы давно уже заявляем.
Практический DataOps: автоматизация и интеграция. Ключевое развитие заявляемое для RT.DataGovernance, это создание коннекторов для Apache Kafka и Airflow. Это прямой мост между классическим управлением метаданными и живыми, работающими пайплайнами. DataOps-практики (оркестрация, мониторинг потоков) встраиваются прямо в платформу управления данными.
#Аналитика@data_capital
👍2
Практический инсайт: Как растет культура работы с данными изнутри
Опыт команды Data Governance «Ростелекома» показатель. Они столкнулись с тем, что даже при наличии инструментов пользователи тратили много времени на поиск и не доверяли данным в отчетах. Их решение, о котором заявлено в исследовании - не просто технический апгрейд, а процесс сертификации отчетов (категоризация, верификация, оценка достоверности). Сертифицированный отчет получает особую метку и доверие. Это и есть развитие data-driven культуры на практике: четкие правила, обеспечивающие качество и прозрачность.
Выводы для методологии и практики. Куда движется рынок
DataOps становится обязательным элементом УД, а не опциональной практикой. Управление жизненным циклом данных невозможно без автоматизации тестирования, оркестрации пайплайнов и мониторинга. Успешные платформы будут предлагать эту функциональность «из коробки».
Фокус смещается с накопления данных на управление их жизненным циклом и стоимостью (Data TCO). В условиях роста цен на энергоресурсы и сложности инфраструктуры критически важна оптимизация: от избавления от дублирующих пайплайнов до грамотной архивации.
Импортозамещение в сфере данных входит в фазу зрелости. Отечественные решения, такие как платформы «Ростелекома», не просто замещают иностранный софт, но и побеждают в конкурентной борьбе, решая комплексные задачи для международных компаний, как показал проект с AstraZeneca.
Главный текущие вызовы:
- Отсутсвие экспертных кадров и низкий уровень культуры работы с данными в компаниях, понимание которых не сформировано и не выделено в необходимый стрим деятельности. Технологии есть.
- Дефицит специалистов, способных работать на стыке методологии, бизнеса и УД, инженерии, бизнес-аналитики и формирования self-service на данных для бизнеса. Ключ к масштабированию, внутренние «учебные центры» и платформы самообслуживания (self-service), которые делают данные доступными для бизнес-пользователей. Вопрос остается в единых стандартах, компетенциях и методологиях признанной для этой деятельности.
Итог: Эпоха точечных экспериментов с данными заканчивается. Начинается фаза системной цифровизации, где DataOps выступает связующим звеном между стратегией данных, технологической инфраструктурой и бизнес-результатами, важным элементом в новой дисциплине управления "Управление Данными". Как отмечают в «Ростелекоме», мы переходим на новую версию «операционной системы» глобальной цифровизации. И от того, насколько хорошо будет работать её «файловая система» - управление данными - зависит производительность всей «экономики», построенной на ИИ.
P.S. Основано на анализе открытых исследований и кейсов, включая «Мониторинг глобальных трендов цифровизации 2025» ПАО «Ростелеком» и практический опыт его дочерних компаний TData и Bercut.
#Аналитика@data_capital
Опыт команды Data Governance «Ростелекома» показатель. Они столкнулись с тем, что даже при наличии инструментов пользователи тратили много времени на поиск и не доверяли данным в отчетах. Их решение, о котором заявлено в исследовании - не просто технический апгрейд, а процесс сертификации отчетов (категоризация, верификация, оценка достоверности). Сертифицированный отчет получает особую метку и доверие. Это и есть развитие data-driven культуры на практике: четкие правила, обеспечивающие качество и прозрачность.
Выводы для методологии и практики. Куда движется рынок
DataOps становится обязательным элементом УД, а не опциональной практикой. Управление жизненным циклом данных невозможно без автоматизации тестирования, оркестрации пайплайнов и мониторинга. Успешные платформы будут предлагать эту функциональность «из коробки».
Фокус смещается с накопления данных на управление их жизненным циклом и стоимостью (Data TCO). В условиях роста цен на энергоресурсы и сложности инфраструктуры критически важна оптимизация: от избавления от дублирующих пайплайнов до грамотной архивации.
Импортозамещение в сфере данных входит в фазу зрелости. Отечественные решения, такие как платформы «Ростелекома», не просто замещают иностранный софт, но и побеждают в конкурентной борьбе, решая комплексные задачи для международных компаний, как показал проект с AstraZeneca.
Главный текущие вызовы:
- Отсутсвие экспертных кадров и низкий уровень культуры работы с данными в компаниях, понимание которых не сформировано и не выделено в необходимый стрим деятельности. Технологии есть.
- Дефицит специалистов, способных работать на стыке методологии, бизнеса и УД, инженерии, бизнес-аналитики и формирования self-service на данных для бизнеса. Ключ к масштабированию, внутренние «учебные центры» и платформы самообслуживания (self-service), которые делают данные доступными для бизнес-пользователей. Вопрос остается в единых стандартах, компетенциях и методологиях признанной для этой деятельности.
Итог: Эпоха точечных экспериментов с данными заканчивается. Начинается фаза системной цифровизации, где DataOps выступает связующим звеном между стратегией данных, технологической инфраструктурой и бизнес-результатами, важным элементом в новой дисциплине управления "Управление Данными". Как отмечают в «Ростелекоме», мы переходим на новую версию «операционной системы» глобальной цифровизации. И от того, насколько хорошо будет работать её «файловая система» - управление данными - зависит производительность всей «экономики», построенной на ИИ.
P.S. Основано на анализе открытых исследований и кейсов, включая «Мониторинг глобальных трендов цифровизации 2025» ПАО «Ростелеком» и практический опыт его дочерних компаний TData и Bercut.
#Аналитика@data_capital
👍2
Правила игры и судейская бригада. DataOps встречает Data Governance.
Мы собрали команду, отточили комбинации и экипировались. Но представьте матч без правил и судей. Первая же силовая борьба у ворот превратится в драку, а результат матча будет оспорен. В мире данных ту же анархию устраняет Data Governance, свод правил и арбитров, которые делают игру честной, безопасной и предсказуемой.
Если DataOps, это ваша команда, которая гоняет шайбу по льду, то Data Governance, это официальный регламент лиги, судейская бригада и дисциплинарный комитет.
Кто есть кто на ледовой арене данных?
Главный судья и регламент (Политики и стандарты). Это стандарты, регламенты и правила Компании, зафиксированные в нормативных документах Компании. Например: «Персональные данные клиентов (PII) должны быть зашифрованы» или «Ключевые метрики определяются только в центральном каталоге данных Компании».
Линейные судьи и судьи за воротами (Владельцы данных и стюарды). Это эксперты, аудиторы, контролеры и руководители, которые следят за нарушениями в своей зоне ответственности. Владелец данных отвечает, чтобы правила для его данных соблюдались. Стюард помогает их технически реализовать.
Видеопомощник судьи (Каталог данных). Вспомним наш «архив видеоповторов» из Поста "Видеоповторы и статистика: Каталог данных как система анализа "игры".". Каталог, это и есть та самая система, которая фиксирует, какие данные к какому классу относятся, кто за них отвечает, и кто их использует. Он и есть главный свидетель для принятия решений.
Как DataOps выполняет правила на льду? Автоматизация вместо бюрократии.
Самая большая ошибка считать или предполагать, что Governance это собрания, сотня бумаг и запреты. В современной игре правила встраиваются прямо в процесс.
Автоматический «допрос видео» (Проверка политик в пайплайне).
Раньше (Бюрократия), необходимо было, чтоб Инженер, который создаёт новую витрину с данными клиентов, должен прочитать 50-страничный PDF, заполнить заявку на доступ и ждать неделю разрешения от информационной безопасности и руководящего комитета.
Сейчас (DataOps), в пайплайне (нашей отработанной комбинации) стоит автоматический тест. Если он обнаруживает, что в данных есть поле «номер паспорта», система автоматически применяет к нему правило шифрования, проверяет права доступа и регистрирует действие в каталоге. Нарушение просто не пройдёт «синюю линию».
Сигнал судье через датчик в шайбе (Мониторинг и алерты).
Раньше о нарушении (например, утечке данных) узнавали постфактум.
Теперь система мониторинга (Observability), это как датчики в самой шайбе и на форме игроков. Она в реальном времени отслеживает аномальные контакты, доступы или попытки выгрузить слишком большой объём чувствительных данных и мгновенно отправляет сигнал «судейской» (команде безопасности).
Единый реестр всех игроков (Каталог как источник истины).
Governance отвечает на вопросы: «Кто чем владеет?», «Что является эталоном?». Каталог данных (наш видеоархив) становится техническим воплощением этих ответов. Когда у всех на виду, какая витрина является официальным источником по продажам, исчезают споры и путаница.
Предлагаем рассмотреть подход, как начать «играть» по правилам, не задушив игру бюрократией?
Не пытайтесь сразу прописать устав всех лиг чемпионата и всех турниров, которые планируете осуществлять. Начните с одного самого важного правила для одной ключевой игры.
Выберите одно правило. Например: «Все финансовые отчёты должны строиться только из данных, прошедших проверку на качество».
Встройте его в комбинацию. Модифицируйте ваш пайплайн для финального финансового отчёта так, чтобы он технически не мог взять данные, не прошедшие проверку DQ (те самые «шлемы» из Поста "Экипировка чемпиона: Клюшки, коньки и шлемы DataOps").
Зафиксируйте это в каталоге. В каталоге данных отметьте эту витрину как «Официальный источник для финансовой отчётности». Теперь это не просто чьё-то мнение, а зафиксированный и видимый всем факт.
#DatаOps@data_capital
Мы собрали команду, отточили комбинации и экипировались. Но представьте матч без правил и судей. Первая же силовая борьба у ворот превратится в драку, а результат матча будет оспорен. В мире данных ту же анархию устраняет Data Governance, свод правил и арбитров, которые делают игру честной, безопасной и предсказуемой.
Если DataOps, это ваша команда, которая гоняет шайбу по льду, то Data Governance, это официальный регламент лиги, судейская бригада и дисциплинарный комитет.
Кто есть кто на ледовой арене данных?
Главный судья и регламент (Политики и стандарты). Это стандарты, регламенты и правила Компании, зафиксированные в нормативных документах Компании. Например: «Персональные данные клиентов (PII) должны быть зашифрованы» или «Ключевые метрики определяются только в центральном каталоге данных Компании».
Линейные судьи и судьи за воротами (Владельцы данных и стюарды). Это эксперты, аудиторы, контролеры и руководители, которые следят за нарушениями в своей зоне ответственности. Владелец данных отвечает, чтобы правила для его данных соблюдались. Стюард помогает их технически реализовать.
Видеопомощник судьи (Каталог данных). Вспомним наш «архив видеоповторов» из Поста "Видеоповторы и статистика: Каталог данных как система анализа "игры".". Каталог, это и есть та самая система, которая фиксирует, какие данные к какому классу относятся, кто за них отвечает, и кто их использует. Он и есть главный свидетель для принятия решений.
Как DataOps выполняет правила на льду? Автоматизация вместо бюрократии.
Самая большая ошибка считать или предполагать, что Governance это собрания, сотня бумаг и запреты. В современной игре правила встраиваются прямо в процесс.
Автоматический «допрос видео» (Проверка политик в пайплайне).
Раньше (Бюрократия), необходимо было, чтоб Инженер, который создаёт новую витрину с данными клиентов, должен прочитать 50-страничный PDF, заполнить заявку на доступ и ждать неделю разрешения от информационной безопасности и руководящего комитета.
Сейчас (DataOps), в пайплайне (нашей отработанной комбинации) стоит автоматический тест. Если он обнаруживает, что в данных есть поле «номер паспорта», система автоматически применяет к нему правило шифрования, проверяет права доступа и регистрирует действие в каталоге. Нарушение просто не пройдёт «синюю линию».
Сигнал судье через датчик в шайбе (Мониторинг и алерты).
Раньше о нарушении (например, утечке данных) узнавали постфактум.
Теперь система мониторинга (Observability), это как датчики в самой шайбе и на форме игроков. Она в реальном времени отслеживает аномальные контакты, доступы или попытки выгрузить слишком большой объём чувствительных данных и мгновенно отправляет сигнал «судейской» (команде безопасности).
Единый реестр всех игроков (Каталог как источник истины).
Governance отвечает на вопросы: «Кто чем владеет?», «Что является эталоном?». Каталог данных (наш видеоархив) становится техническим воплощением этих ответов. Когда у всех на виду, какая витрина является официальным источником по продажам, исчезают споры и путаница.
Предлагаем рассмотреть подход, как начать «играть» по правилам, не задушив игру бюрократией?
Не пытайтесь сразу прописать устав всех лиг чемпионата и всех турниров, которые планируете осуществлять. Начните с одного самого важного правила для одной ключевой игры.
Выберите одно правило. Например: «Все финансовые отчёты должны строиться только из данных, прошедших проверку на качество».
Встройте его в комбинацию. Модифицируйте ваш пайплайн для финального финансового отчёта так, чтобы он технически не мог взять данные, не прошедшие проверку DQ (те самые «шлемы» из Поста "Экипировка чемпиона: Клюшки, коньки и шлемы DataOps").
Зафиксируйте это в каталоге. В каталоге данных отметьте эту витрину как «Официальный источник для финансовой отчётности». Теперь это не просто чьё-то мнение, а зафиксированный и видимый всем факт.
#DatаOps@data_capital
Итог: Data Governance, это не полиция, которая мешает играть. Это служба обеспечения честной и безопасной игры, которая позволяет вашей DataOps-команде выкладываться на все 100%, не нарушая границ и не создавая рисков для бизнеса. Это переход от «дикого хоккея» к профессиональной, уважаемой лиге.
Что разберём в следующем посте?
Иногда для победы нужен не стандартный бросок, а ювелирно исполненный буллит. В следующий раз поговорим про спецотряд для буллитов: DataOps в работе с машинным обучением (MLOps).
#DatаOps@data_capital
Что разберём в следующем посте?
Иногда для победы нужен не стандартный бросок, а ювелирно исполненный буллит. В следующий раз поговорим про спецотряд для буллитов: DataOps в работе с машинным обучением (MLOps).
#DatаOps@data_capital
👍2
Спецотряд для буллитов. DataOps в работе с машинным обучением (MLOps).
Наша команда уже уверенно играет по правилам и проводит чёткие комбинации. Но в решающий момент матча, когда всё решает один точный бросок, на лёд выходит спецотряд мастеров буллита, это специалисты по машинному обучению (ML). Их задача, не просто вести шайбу, а с ювелирной точностью положить её в «девятку»:, а именно предсказать отток клиентов, обнаружить мошенничество или сгенерировать уникальный контент, вариантов много, цель одна.
MLOps, это не замена DataOps. Это создание и поддержка того самого спецотряда на основе слаженной работы всей команды.
Подготовка льда и шайбы: Как DataOps обеспечивает основу для ML
Специалист по ML, это снайпер. Но даже лучший снайпер бесполезен, если лёд рыхлый, а шайбу не могут чисто и вовременно ему доставить.
Чистый, подготовленный лёд (Качественные данные).
Проблема: 80% времени ML-специалисты тратят не на создание алгоритмов, а на «расчистку льда», а именно поиск, очистку и подготовку данных. Без DataOps этот процесс ручной, медленный и неповторимый.
Решение DataOps: Автоматические пайплайны гарантированно поставляют для ML-специалистов проверенные, свежие и консистентные данные. Это уже не рыхлый лёд, а идеально откатанная поверхность для точного броска.
Идеальная подача шайбы (Воспроизводимость экспериментов).
Проблема: «У меня модель работала вчера, а сегодня - нет!» Знакомо? Причина часто не в коде, а в том, что данные незаметно изменились («обновление данных»), или нельзя точно повторить, какие именно данные использовались для обучения.
Решение DataOps: Инструменты каталога и тестирования (наши «шлемы и видеоархив» из Постов "Видеоповторы и статистика. Каталог данных как система анализа "игры"." и "Экипировка чемпиона. Клюшки, коньки и шлемы DataOps.") фиксируют снимок (снепшот) данных на момент обучения модели. Каждый эксперимент становится воспроизводимым, а пайплайны мониторят дрейф, если статистика поступающих данных "плывет", система подаёт сигнал, что «шайбу подают не в ту точку».
Тренировочная база для отряда (Feature Store и управление моделями).
Задача: Снайперы не тренируются на случайных коньках и клюшках. У них есть специальный арсенал подготовленных «приемов» (фичей), проверенных и оптимизированных переменных для моделей.
Роль DataOps: Обеспечить инфраструктуру (Feature Store) для централизованного хранения, версионирования и обслуживания этих признаков. Это как "спецхранилище" суперинвенаря спецотряда, где всё учтено, настроено и готово к работе, пополняется благодаря стабильным пайплайнам.
Предлагаем рассмотреть подход, как подготовить первый успешный бросок, буллит?
Не пытайтесь сразу создать целый отряд для всех возможных ML-задач. Начните с одного, но важного и точного броска.
Выберите одну задачу. Например, прогнозирование еженедельной пиковой нагрузки на кол-центр.
Примените свою базовую комбинацию. Используйте уже настроенный пайплайн DataOps, чтобы создать для ML-специалиста чистый, проверенный и версионированный набор исторических данных о звонках.
Зафиксируйте «снимок льда». Обязательно сохраните в каталоге точную версию данных, на которых будет обучаться модель.
Добавьте в пайплайн этап мониторинга. Настройте простую проверку, когда поступают реальные данные для прогноза, их распределение не должно сильно отличаться от «снимка» для обучения. Если отличается от «снимка», то это алерт для команды.
Итог: MLOps - это DataOps, применённый к жизненному циклу машинного обучения. Ваша слаженная DataOps-команда не просто «готовит данные для ML». Она создаёт предсказуемую, контролируемую и воспроизводимую производственную среду, в которой специалисты по ML могут фокусироваться на своей снайперской работе, а бизнес, будет получать стабильный результат от их «буллитов». Выбор вашего первого отработанного броска, всегда за вами...
Что разберём в следующем посте?
Что делать, когда одна команда перерастает в целую лигу с независимыми клубами? Поговорим о том, как принципы DataOps масштабируются в архитектуре Data Mesh.
#DatаOps@data_capital
Наша команда уже уверенно играет по правилам и проводит чёткие комбинации. Но в решающий момент матча, когда всё решает один точный бросок, на лёд выходит спецотряд мастеров буллита, это специалисты по машинному обучению (ML). Их задача, не просто вести шайбу, а с ювелирной точностью положить её в «девятку»:, а именно предсказать отток клиентов, обнаружить мошенничество или сгенерировать уникальный контент, вариантов много, цель одна.
MLOps, это не замена DataOps. Это создание и поддержка того самого спецотряда на основе слаженной работы всей команды.
Подготовка льда и шайбы: Как DataOps обеспечивает основу для ML
Специалист по ML, это снайпер. Но даже лучший снайпер бесполезен, если лёд рыхлый, а шайбу не могут чисто и вовременно ему доставить.
Чистый, подготовленный лёд (Качественные данные).
Проблема: 80% времени ML-специалисты тратят не на создание алгоритмов, а на «расчистку льда», а именно поиск, очистку и подготовку данных. Без DataOps этот процесс ручной, медленный и неповторимый.
Решение DataOps: Автоматические пайплайны гарантированно поставляют для ML-специалистов проверенные, свежие и консистентные данные. Это уже не рыхлый лёд, а идеально откатанная поверхность для точного броска.
Идеальная подача шайбы (Воспроизводимость экспериментов).
Проблема: «У меня модель работала вчера, а сегодня - нет!» Знакомо? Причина часто не в коде, а в том, что данные незаметно изменились («обновление данных»), или нельзя точно повторить, какие именно данные использовались для обучения.
Решение DataOps: Инструменты каталога и тестирования (наши «шлемы и видеоархив» из Постов "Видеоповторы и статистика. Каталог данных как система анализа "игры"." и "Экипировка чемпиона. Клюшки, коньки и шлемы DataOps.") фиксируют снимок (снепшот) данных на момент обучения модели. Каждый эксперимент становится воспроизводимым, а пайплайны мониторят дрейф, если статистика поступающих данных "плывет", система подаёт сигнал, что «шайбу подают не в ту точку».
Тренировочная база для отряда (Feature Store и управление моделями).
Задача: Снайперы не тренируются на случайных коньках и клюшках. У них есть специальный арсенал подготовленных «приемов» (фичей), проверенных и оптимизированных переменных для моделей.
Роль DataOps: Обеспечить инфраструктуру (Feature Store) для централизованного хранения, версионирования и обслуживания этих признаков. Это как "спецхранилище" суперинвенаря спецотряда, где всё учтено, настроено и готово к работе, пополняется благодаря стабильным пайплайнам.
Предлагаем рассмотреть подход, как подготовить первый успешный бросок, буллит?
Не пытайтесь сразу создать целый отряд для всех возможных ML-задач. Начните с одного, но важного и точного броска.
Выберите одну задачу. Например, прогнозирование еженедельной пиковой нагрузки на кол-центр.
Примените свою базовую комбинацию. Используйте уже настроенный пайплайн DataOps, чтобы создать для ML-специалиста чистый, проверенный и версионированный набор исторических данных о звонках.
Зафиксируйте «снимок льда». Обязательно сохраните в каталоге точную версию данных, на которых будет обучаться модель.
Добавьте в пайплайн этап мониторинга. Настройте простую проверку, когда поступают реальные данные для прогноза, их распределение не должно сильно отличаться от «снимка» для обучения. Если отличается от «снимка», то это алерт для команды.
Итог: MLOps - это DataOps, применённый к жизненному циклу машинного обучения. Ваша слаженная DataOps-команда не просто «готовит данные для ML». Она создаёт предсказуемую, контролируемую и воспроизводимую производственную среду, в которой специалисты по ML могут фокусироваться на своей снайперской работе, а бизнес, будет получать стабильный результат от их «буллитов». Выбор вашего первого отработанного броска, всегда за вами...
Что разберём в следующем посте?
Что делать, когда одна команда перерастает в целую лигу с независимыми клубами? Поговорим о том, как принципы DataOps масштабируются в архитектуре Data Mesh.
#DatаOps@data_capital
👍3