SMLTECH

Платформа данных как продукт: стек, пайплайны и коробочное разворачивание

Мы построили data-платформу, которая не просто хранит данные, а превращает их в актив. Она покрывает весь цикл работы с данными и собирается как коробочное решение — развернуть можно в облаке или на своих серверах за считанные часы. Ниже — ключевые принципы и архитектура, на которых все держится.

📦 Не просто хранилище, а точка роста бизнеса

Наша задача — не просто собирать данные, а использовать их для принятия решений, автоматизации и роста бизнеса. Платформа построена как экосистема: ingestion, обработка, витрины, ML, визуализация и контроль качества — все в едином технологическом контуре.

🛠 Open Source как стратегия

Мы сознательно строим стек на open source-инструментах, используя ванильные версии без лишних форков. Это дает нам гибкость, контроль и скорость развития. Все компоненты собираются и настраиваются внутри команды — с пониманием того, как они устроены под капотом.

🔐 Безопасность с нуля

Аутентификация и авторизация реализованы через Keycloak (SSO). Секреты хранятся в HashiCorp Vault. Политики доступа и маскировки управляются через Open Policy Agent (OPA), который встроен в пайплайн запросов к данным. Такой подход позволяет соблюдать требования к защите данных без потери гибкости.

🏗 Архитектура: Kubernetes + GitOps

Вся платформа работает на Kubernetes-кластере и управляется через GitOps. Мы используем связку GitLab + Flux2 (вместе с Weave GitOps), чтобы автоматически доставлять конфигурации и поддерживать консистентность.
Любой инстанс платформы можно развернуть заново из репозитория — это удобно для масштабирования, стендов и внешних заказчиков.

⚙️ Наш инфраструктурный стек

Платформа состоит из десятков связанных компонентов: Trino, Hive, Iceberg, Spark, Kafka, Debezium, ClickHouse, Airflow, JupyterHub, MLFlow, Open WebUI, Qdrant, DataHub, Nexus. Все это работает как единая экосистема!

В следующий раз мы расскажем о том, как эта архитектура применяется на практике: от работы с метаданными до запуска локальных LLM и построения платформы качества данных. Stay tuned!

#строим

👍33❤‍🔥2👻2

686 views15:05

SMLTECH

На волне популярности ИИ напоминаем, для чего на самом деле он нужен 😉

😁13❤5😎3

670 views11:03

SMLTECH

✅ Как навести порядок в строительной документации

Стройка — это тысячи документов, десятки участников и сотни версий. Раньше это означало хаос. Теперь — четкие процессы, прозрачность и контроль.

В карточках мы расскажем, как устроена Среда общих данных в Самолете — без теории и маркетинга, только практика.

А если хотите узнать подробности про СОД и другие наши продукты для девелопмента, подписывайтесь на канал 10D. Цифровая стройка.

#строим

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8😍8🤩4

1.05K views08:46

SMLTECH

Data-инструменты в действии: от контроля доступа до своей LLM-платформы

В первой части мы рассказали, как устроена архитектура нашей data-платформы.

Сегодня — о том, как мы используем эти инструменты: управляем доступом к данным, настраиваем маскирование, запускаем свои языковые модели и следим за качеством данных в автоматическом режиме.

📚 Управление метаданными и версиями данных

Мы используем связку DataHub и Project Nessie.

DataHub помогает искать таблицы, отслеживать lineage, назначать владельцев и управлять доступом.

А Project Nessie — это как Git для данных: можно создавать ветки, откатываться на предыдущие версии, тестировать изменения в изолированной среде и потом сливать их в прод. Всё работает с Apache Iceberg и другими lakehouse-форматами.

🔎 Маскировка данных на уровне запросов

Для защиты чувствительных данных мы встроили Open Policy Agent в пайплайн SQL-запросов.

Когда пользователь делает запрос через Trino, OPA проверяет его роль и подставляет маски вместо настоящих значений (например, ***@domain.com или +7 *** *** 45).

Политики доступа настраиваются через Keycloak и Open Policy Agent, а управление ролями — через Active Directory. Это работает прозрачно для пользователя и безопасно для бизнеса.

🧠 Open WebUI: свой интерфейс для работы с LLM

Мы используем Open WebUI как внутреннюю альтернативу ChatGPT. Интерфейс разворачивается внутри нашей инфраструктуры и позволяет работать с локальными и внешними языковыми моделями — без отправки данных в облако.

Поддерживаются модели вроде Llama 3, Phi-3, Ollama, vLLM, LM Studio и другие. Можно загружать документы, использовать RAG (Retrieval-Augmented Generation) и подключать плагины, например, для генерации изображений через Stable Diffusion.

Open WebUI встроен в нашу data-инфраструктуру и использует тот же Kubernetes-кластер и доступ через Keycloak.

✅ Платформа качества данных (DQ Platform)

Мы разработали продукт, который оркестрирует десятки тысяч автотестов данных через Apache Airflow.

Каждый тест запускается изолированно в Kubernetes, с динамической конфигурацией DAG-ов из GitLab и DQ Metastore (на PostgreSQL).

Мы тестируем как сырые данные (stage layer), так и витрины (ODS, DDS, CDM). Для выполнения тестов используем DuckDB и Trino — это позволяет обойтись без запуска Spark-сессий и снижает нагрузку.

Отчеты о результатах формируются автоматически и отправляются по почте командам аналитиков и DQ-инженеров.

Мы продолжаем развивать платформу, добавлять новые пайплайны, улучшать пайплайн маскировки, расширять каталог и интеграции с ML.

#строим

❤66

570 views08:57

SMLTECH

✅

Как Data Science меняет девелопмент и бизнес — два практических вебинара от «Самолета» и ВШЭ

Что происходит, когда машинное обучение выходит за пределы теории и начинает менять реальные процессы — например, в строительстве жилых районов или в работе с тысячами строк корпоративных данных? Ответы — в серии онлайн-вебинаров, которые мы проводим вместе с магистратурой «Анализ данных в девелопменте».

Если вам интересны реальные кейсы, архитектура хранилищ, вызовы и задачи на стыке data и бизнеса — обязательно загляните.

🌟

Как машинное обучение влияет на то, как строят дома?

🗓 25 июня, 18:30 (МСК)
📍 Онлайн

На нашем кейсе мы обсудим:
– какие ML‑решения действительно работают в девелопменте;
– как растущая data‑инфраструктура меняет подходы к проектированию и строительству;
– что нужно знать тем, кто хочет работать на стыке данных и реального бизнеса.

🎙 Спикер: Егор Котельников, руководитель группы инженерии данных, «Самолет».

🔗 Регистрация

🌟

Современные подходы по работе с данными

🗓 9 июля, 18:30 (МСК)
📍 Онлайн

О чем поговорим:
– методологии, которые помогают извлекать максимум из корпоративных данных;
– архитектура современного хранилища данных: как устроена и с какими трудностями приходится сталкиваться;
– реальные кейсы — вызовы, ошибки, решения.

👥 Спикеры:
Александр Лаптев, Team Lead группы аналитики данных, «Самолет».
Алена Кунчукина, руководитель группы качества данных, «Самолет».

🔗 Регистрация

⚡️ Не упустите шанс узнать, как технологии трансформируют индустрию девелопмента изнутри.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🆒6

825 viewsedited 17:36

SMLTECH

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Лучшее от SMLTECH: подборка материалов, к которым стоит вернуться

Каждую неделю мы делимся опытом, фишками, историями и болью. А еще — рассказываем, как устроены процессы внутри Самолета. За год таких постов накопилось прилично, поэтому решили собрать все полезное в одну подборку.

Сохраняйте себе и возвращайтесь, когда будет нужно:

🧠 .NET-серия

Три части рассказов от наших тимлидов: как устроены команды, какие вызовы они решают, и почему .NET — это не скучно. Опыт Олега Федорова, Игоря Сердюкова и Кирилла Бажайкина.

🤖 ИИ и HR

Где заканчиваются чарты и начинаются нейросети? Мы рассказали, как применяем ИИ, чтобы находить лучших кандидатов и экономить ресурсы команды.

🐍 #пропитон

Лайфхаки, грабли и хорошие практики для питонистов — от наших разработчиков. Тут и enum, и pathlib, и Django, и работа с JSON. Просто жмите на тег и читайте советы от наших разработчиков.

🧱 Сердце «Самолета»

Где живут данные, как с ними работают, и кто за это отвечает. Разбираемся, что стоит за инфраструктурой нашей платформы.

✍️ UX-тексты

Как писать, чтобы не усложнять. Гайд по структуре, формулировкам и смыслам — не только для UX-райтеров.

🖼 Фоны для созвонов

Немного фана: наши любимые картинки для Zoom и Meet.

🛠 ИИ в продуктах

Не только в HR. Рассказываем, как мы используем нейросети в генерации интерьеров, аналитике, автоматизации и не только.

⚙️ MR-стенды

Что это такое, как мы их внедрили, и почему теперь тестирование стало быстрее и стабильнее.

👴👶 Планирование 20+ против 30+

Внутреннее наблюдение, которое стало хорошим поводом переосмыслить подход к работе.

📂 Как мы внедряли систему S.ECM

Автоматизация документооборота своими руками: от «что это» до «почему теперь быстрее».

🏗 Архитектура как код

Опыт, боль и победы команды, которая ушла от схем в draw.io и пришла к Git и Terraform.

📚 Книги для технарей

Рекомендации от наших инженеров: что почитать, чтобы развиваться, понимать и вдохновляться.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤643

572 views11:27

SMLTECH

This media is not supported in your browser

VIEW IN TELEGRAM

0:59

1.8K views11:39

3❤1

SMLTECH

Video message

🌟 Понедельник — это не приговор. Особенно если включить правильный плейлист

Мы собрали музыку, которая не мешает сосредоточиться, помогает не терять темп и плавно настраивает на рабочий лад. Можно слушать фоном, когда разбираешь почту, пишешь код или просто выдыхаешь между задачами.

Пусть неделя начнётся с нужного ритма:

🎧

Apple Music

🎧

YouTube Music

🧩

Spotify

🎵

VK Музыка

🤐

Яндекс Музыка

🎵

Звук