Платформа данных как продукт: стек, пайплайны и коробочное разворачивание
Мы построили data-платформу, которая не просто хранит данные, а превращает их в актив. Она покрывает весь цикл работы с данными и собирается как коробочное решение — развернуть можно в облаке или на своих серверах за считанные часы. Ниже — ключевые принципы и архитектура, на которых все держится.
📦 Не просто хранилище, а точка роста бизнеса
Наша задача — не просто собирать данные, а использовать их для принятия решений, автоматизации и роста бизнеса. Платформа построена как экосистема: ingestion, обработка, витрины, ML, визуализация и контроль качества — все в едином технологическом контуре.
🛠 Open Source как стратегия
Мы сознательно строим стек на open source-инструментах, используя ванильные версии без лишних форков. Это дает нам гибкость, контроль и скорость развития. Все компоненты собираются и настраиваются внутри команды — с пониманием того, как они устроены под капотом.
🔐 Безопасность с нуля
Аутентификация и авторизация реализованы через Keycloak (SSO). Секреты хранятся в HashiCorp Vault. Политики доступа и маскировки управляются через Open Policy Agent (OPA), который встроен в пайплайн запросов к данным. Такой подход позволяет соблюдать требования к защите данных без потери гибкости.
🏗 Архитектура: Kubernetes + GitOps
Вся платформа работает на Kubernetes-кластере и управляется через GitOps. Мы используем связку GitLab + Flux2 (вместе с Weave GitOps), чтобы автоматически доставлять конфигурации и поддерживать консистентность.
Любой инстанс платформы можно развернуть заново из репозитория — это удобно для масштабирования, стендов и внешних заказчиков.
⚙️ Наш инфраструктурный стек
Платформа состоит из десятков связанных компонентов: Trino, Hive, Iceberg, Spark, Kafka, Debezium, ClickHouse, Airflow, JupyterHub, MLFlow, Open WebUI, Qdrant, DataHub, Nexus. Все это работает как единая экосистема!
В следующий раз мы расскажем о том, как эта архитектура применяется на практике: от работы с метаданными до запуска локальных LLM и построения платформы качества данных. Stay tuned!
#строим
Мы построили data-платформу, которая не просто хранит данные, а превращает их в актив. Она покрывает весь цикл работы с данными и собирается как коробочное решение — развернуть можно в облаке или на своих серверах за считанные часы. Ниже — ключевые принципы и архитектура, на которых все держится.
📦 Не просто хранилище, а точка роста бизнеса
Наша задача — не просто собирать данные, а использовать их для принятия решений, автоматизации и роста бизнеса. Платформа построена как экосистема: ingestion, обработка, витрины, ML, визуализация и контроль качества — все в едином технологическом контуре.
🛠 Open Source как стратегия
Мы сознательно строим стек на open source-инструментах, используя ванильные версии без лишних форков. Это дает нам гибкость, контроль и скорость развития. Все компоненты собираются и настраиваются внутри команды — с пониманием того, как они устроены под капотом.
🔐 Безопасность с нуля
Аутентификация и авторизация реализованы через Keycloak (SSO). Секреты хранятся в HashiCorp Vault. Политики доступа и маскировки управляются через Open Policy Agent (OPA), который встроен в пайплайн запросов к данным. Такой подход позволяет соблюдать требования к защите данных без потери гибкости.
🏗 Архитектура: Kubernetes + GitOps
Вся платформа работает на Kubernetes-кластере и управляется через GitOps. Мы используем связку GitLab + Flux2 (вместе с Weave GitOps), чтобы автоматически доставлять конфигурации и поддерживать консистентность.
Любой инстанс платформы можно развернуть заново из репозитория — это удобно для масштабирования, стендов и внешних заказчиков.
⚙️ Наш инфраструктурный стек
Платформа состоит из десятков связанных компонентов: Trino, Hive, Iceberg, Spark, Kafka, Debezium, ClickHouse, Airflow, JupyterHub, MLFlow, Open WebUI, Qdrant, DataHub, Nexus. Все это работает как единая экосистема!
В следующий раз мы расскажем о том, как эта архитектура применяется на практике: от работы с метаданными до запуска локальных LLM и построения платформы качества данных. Stay tuned!
#строим
👍3 3❤🔥2👻2
Стройка — это тысячи документов, десятки участников и сотни версий. Раньше это означало хаос. Теперь — четкие процессы, прозрачность и контроль.
В карточках мы расскажем, как устроена Среда общих данных в Самолете — без теории и маркетинга, только практика.
А если хотите узнать подробности про СОД и другие наши продукты для девелопмента, подписывайтесь на канал 10D. Цифровая стройка.
#строим
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8😍8🤩4
Data-инструменты в действии: от контроля доступа до своей LLM-платформы
В первой части мы рассказали, как устроена архитектура нашей data-платформы.
Сегодня — о том, как мы используем эти инструменты: управляем доступом к данным, настраиваем маскирование, запускаем свои языковые модели и следим за качеством данных в автоматическом режиме.
📚 Управление метаданными и версиями данных
Мы используем связку DataHub и Project Nessie.
DataHub помогает искать таблицы, отслеживать lineage, назначать владельцев и управлять доступом.
А Project Nessie — это как Git для данных: можно создавать ветки, откатываться на предыдущие версии, тестировать изменения в изолированной среде и потом сливать их в прод. Всё работает с Apache Iceberg и другими lakehouse-форматами.
🔎 Маскировка данных на уровне запросов
Для защиты чувствительных данных мы встроили Open Policy Agent в пайплайн SQL-запросов.
Когда пользователь делает запрос через Trino, OPA проверяет его роль и подставляет маски вместо настоящих значений (например,
Политики доступа настраиваются через Keycloak и Open Policy Agent, а управление ролями — через Active Directory. Это работает прозрачно для пользователя и безопасно для бизнеса.
🧠 Open WebUI: свой интерфейс для работы с LLM
Мы используем Open WebUI как внутреннюю альтернативу ChatGPT. Интерфейс разворачивается внутри нашей инфраструктуры и позволяет работать с локальными и внешними языковыми моделями — без отправки данных в облако.
Поддерживаются модели вроде Llama 3, Phi-3, Ollama, vLLM, LM Studio и другие. Можно загружать документы, использовать RAG (Retrieval-Augmented Generation) и подключать плагины, например, для генерации изображений через Stable Diffusion.
Open WebUI встроен в нашу data-инфраструктуру и использует тот же Kubernetes-кластер и доступ через Keycloak.
✅ Платформа качества данных (DQ Platform)
Мы разработали продукт, который оркестрирует десятки тысяч автотестов данных через Apache Airflow.
Каждый тест запускается изолированно в Kubernetes, с динамической конфигурацией DAG-ов из GitLab и DQ Metastore (на PostgreSQL).
Мы тестируем как сырые данные (stage layer), так и витрины (ODS, DDS, CDM). Для выполнения тестов используем DuckDB и Trino — это позволяет обойтись без запуска Spark-сессий и снижает нагрузку.
Отчеты о результатах формируются автоматически и отправляются по почте командам аналитиков и DQ-инженеров.
Мы продолжаем развивать платформу, добавлять новые пайплайны, улучшать пайплайн маскировки, расширять каталог и интеграции с ML.
#строим
В первой части мы рассказали, как устроена архитектура нашей data-платформы.
Сегодня — о том, как мы используем эти инструменты: управляем доступом к данным, настраиваем маскирование, запускаем свои языковые модели и следим за качеством данных в автоматическом режиме.
📚 Управление метаданными и версиями данных
Мы используем связку DataHub и Project Nessie.
DataHub помогает искать таблицы, отслеживать lineage, назначать владельцев и управлять доступом.
А Project Nessie — это как Git для данных: можно создавать ветки, откатываться на предыдущие версии, тестировать изменения в изолированной среде и потом сливать их в прод. Всё работает с Apache Iceberg и другими lakehouse-форматами.
🔎 Маскировка данных на уровне запросов
Для защиты чувствительных данных мы встроили Open Policy Agent в пайплайн SQL-запросов.
Когда пользователь делает запрос через Trino, OPA проверяет его роль и подставляет маски вместо настоящих значений (например,
***@domain.com
или +7 *** *** 45
).Политики доступа настраиваются через Keycloak и Open Policy Agent, а управление ролями — через Active Directory. Это работает прозрачно для пользователя и безопасно для бизнеса.
🧠 Open WebUI: свой интерфейс для работы с LLM
Мы используем Open WebUI как внутреннюю альтернативу ChatGPT. Интерфейс разворачивается внутри нашей инфраструктуры и позволяет работать с локальными и внешними языковыми моделями — без отправки данных в облако.
Поддерживаются модели вроде Llama 3, Phi-3, Ollama, vLLM, LM Studio и другие. Можно загружать документы, использовать RAG (Retrieval-Augmented Generation) и подключать плагины, например, для генерации изображений через Stable Diffusion.
Open WebUI встроен в нашу data-инфраструктуру и использует тот же Kubernetes-кластер и доступ через Keycloak.
✅ Платформа качества данных (DQ Platform)
Мы разработали продукт, который оркестрирует десятки тысяч автотестов данных через Apache Airflow.
Каждый тест запускается изолированно в Kubernetes, с динамической конфигурацией DAG-ов из GitLab и DQ Metastore (на PostgreSQL).
Мы тестируем как сырые данные (stage layer), так и витрины (ODS, DDS, CDM). Для выполнения тестов используем DuckDB и Trino — это позволяет обойтись без запуска Spark-сессий и снижает нагрузку.
Отчеты о результатах формируются автоматически и отправляются по почте командам аналитиков и DQ-инженеров.
Мы продолжаем развивать платформу, добавлять новые пайплайны, улучшать пайплайн маскировки, расширять каталог и интеграции с ML.
#строим
❤6 6
Что происходит, когда машинное обучение выходит за пределы теории и начинает менять реальные процессы — например, в строительстве жилых районов или в работе с тысячами строк корпоративных данных? Ответы — в серии онлайн-вебинаров, которые мы проводим вместе с магистратурой «Анализ данных в девелопменте».
Если вам интересны реальные кейсы, архитектура хранилищ, вызовы и задачи на стыке data и бизнеса — обязательно загляните.
🗓 25 июня, 18:30 (МСК)
📍 Онлайн
На нашем кейсе мы обсудим:
– какие ML‑решения действительно работают в девелопменте;
– как растущая data‑инфраструктура меняет подходы к проектированию и строительству;
– что нужно знать тем, кто хочет работать на стыке данных и реального бизнеса.
🎙 Спикер: Егор Котельников, руководитель группы инженерии данных, «Самолет».
🔗 Регистрация
🗓 9 июля, 18:30 (МСК)
📍 Онлайн
О чем поговорим:
– методологии, которые помогают извлекать максимум из корпоративных данных;
– архитектура современного хранилища данных: как устроена и с какими трудностями приходится сталкиваться;
– реальные кейсы — вызовы, ошибки, решения.
👥 Спикеры:
Александр Лаптев, Team Lead группы аналитики данных, «Самолет».
Алена Кунчукина, руководитель группы качества данных, «Самолет».
🔗 Регистрация
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🆒6
This media is not supported in your browser
VIEW IN TELEGRAM
Каждую неделю мы делимся опытом, фишками, историями и болью. А еще — рассказываем, как устроены процессы внутри Самолета. За год таких постов накопилось прилично, поэтому решили собрать все полезное в одну подборку.
Сохраняйте себе и возвращайтесь, когда будет нужно:
🧠 .NET-серия
Три части рассказов от наших тимлидов: как устроены команды, какие вызовы они решают, и почему .NET — это не скучно. Опыт Олега Федорова, Игоря Сердюкова и Кирилла Бажайкина.
🤖 ИИ и HR
Где заканчиваются чарты и начинаются нейросети? Мы рассказали, как применяем ИИ, чтобы находить лучших кандидатов и экономить ресурсы команды.
🐍 #пропитон
Лайфхаки, грабли и хорошие практики для питонистов — от наших разработчиков. Тут и enum, и pathlib, и Django, и работа с JSON. Просто жмите на тег и читайте советы от наших разработчиков.
🧱 Сердце «Самолета»
Где живут данные, как с ними работают, и кто за это отвечает. Разбираемся, что стоит за инфраструктурой нашей платформы.
✍️ UX-тексты
Как писать, чтобы не усложнять. Гайд по структуре, формулировкам и смыслам — не только для UX-райтеров.
🖼 Фоны для созвонов
Немного фана: наши любимые картинки для Zoom и Meet.
🛠 ИИ в продуктах
Не только в HR. Рассказываем, как мы используем нейросети в генерации интерьеров, аналитике, автоматизации и не только.
⚙️ MR-стенды
Что это такое, как мы их внедрили, и почему теперь тестирование стало быстрее и стабильнее.
👴👶 Планирование 20+ против 30+
Внутреннее наблюдение, которое стало хорошим поводом переосмыслить подход к работе.
📂 Как мы внедряли систему S.ECM
Автоматизация документооборота своими руками: от «что это» до «почему теперь быстрее».
🏗 Архитектура как код
Опыт, боль и победы команды, которая ушла от схем в draw.io и пришла к Git и Terraform.
📚 Книги для технарей
Рекомендации от наших инженеров: что почитать, чтобы развиваться, понимать и вдохновляться.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6 4 3
SMLTECH
Video message
Мы собрали музыку, которая не мешает сосредоточиться, помогает не терять темп и плавно настраивает на рабочий лад. Можно слушать фоном, когда разбираешь почту, пишешь код или просто выдыхаешь между задачами.
Пусть неделя начнётся с нужного ритма:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6 6🙏2🥰1