Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Forwarded from Alex Belozersky
В ВК облаке под елочку будет релиз trino-iceberg-s3 коробки. К этой коробке комплиментарен имеющийся spark-k8s.

Осталось придумать как максимально быстро бесшовно приделать к этом гринпламы и кликхаусы которые пока в моменте правят бал бигдаты в рф.
https://t.iss.one/DE_events/1183

#запись в YouTube
...
- 1:06:43 | Богдан Глебов «Как мы съели ПУД соли выстраивая data management (и почти не подавились)»
- 1:34:49 | Даниил Понизов «Создание #MLOps-платформы для десятка команд на основе Airflow»
- 2:10:08 | Дмитрий Лахвич «Floppa the #LakeHouse»

Cмотреть в VK

https://t.iss.one/hadoopusers/211544 #watch
Data Engineering / reposts & drafts
https://youtu.be/Riouu4szE5g
Yandex MetaData Hub: как управлять метаданными в облаке
00:04:26 Введение
• Светлана Марченко, руководитель группы управления транспортом и сервисами метаданных.
• Рост количества данных усложняет их организацию и требует специальных инструментов.
• Обсуждение инструментов в Яндекс Клауд, доступных в сервисе Метод Дата Хаб.

00:04:59 План доклада
• Введение в метаданные и их виды.
• Примеры использования метаданных для описания таблиц.
• Важность управления метаданными для аналитики и разработки.

00:07:10 Преимущества управления метаданными
• Управление метаданными помогает ориентироваться в данных и анализировать их.
• Полезно для аналитиков, разработчиков и бизнеса.
• Оптимизация данных и улучшение качества данных.

00:09:35 Инструменты в Метод Дата Хаб
• Коннекшн-менеджер для управления параметрами подключения.
• Схема Регистрари для загрузки и настройки схем.
• Хайф Метастор для хранения структурных метаданных.
• Дата.Дата для сбора и описания данных.

00:10:35 Пример использования Коннекшн-менеджера
• Создание пользователя для доступа к данным.
• Управление доступом к данным без раздачи паролей.
• Автоматическая генерация надежных паролей.

00:12:03 Управление доступом к подключениям
• Создание нового пользователя с автоматической генерацией пароля.
• Управление правами доступа к подключениям.
• Интеграция с управляемыми базами данных и другими сервисами.

00:14:43 Интеграция с другими сервисами
• Интеграция с Вьюзом и Дата Трансфер.
• Удобство использования параметров подключения в разных сервисах.
• Автоматическое обновление паролей при смене пользователей.

00:16:48 Аналитика и исследование данных
• Создание пользователя для аналитиков с ограниченными правами.
• Использование инструмента Дата-каталог для исследования данных.
• Дата-каталог будет доступен в первой половине 2025 года.

00:18:37 Инструмент дата-каталог
• Загружает структурные данные, таблицы, схемы и связи между ними.
• Автоматически обновляет данные и размещает их с терминами, тэгами и бизнес-контекстом.
• Коллеги могут использовать удобный поиск для решения задач.

00:19:34 Настройка поставки данных
• Создает новых пользователей для поставки данных.
• Использует кластер ClickHouse для приема данных.
• Настраивает графики и собирает дашборды.

00:20:58 Использование обжиг-сторож и легковесных кластеров
• Настраивает трансфер данных из исходного хранилища в обжиг-сторож.
• Использует легковесные вычислительные кластеры для аналитики.
• Создает кластер хайф метастор для хранения метаданных.

00:21:57 Инструмент хайф метастор
• Интегрирован с Apache Hive, Apache Spark и ObjectStore.
• Хранит описание данных и их схемы.
• Настраивает резервные копии и автоматическое масштабирование.

00:22:45 Оркестрация вычислительных кластеров
• Использует менеджер эрфлу для оркестрации.
• Все кластеры используют одни и те же метаданные.
• Результаты кластеров сохраняются в общий кластер.

00:24:55 Инструмент схема регистра
• Централизованное хранилище для схем данных.
• Определяет политику эволюции схем и загружает их версии.
• Упрощает процесс дата-дискавери и экономит трафик.

00:27:57 Пример использования схемы регистра
• Производитель данных передает схему через интерфейс схема регистра.
• Потребитель данных получает описание схемы и восстанавливает данные.
Data Engineering / reposts & drafts
https://youtu.be/Riouu4szE5g
• Упрощает процесс создания и использования данных.

00:30:29 Управление полным циклом данных
• Улучшает качество данных и повышает доверие к ним.
• Включает анализ данных, определение метрик качества и стандартов.
• Реализует стандарты и мониторит данные для исправления.

00:34:43 Итог
• Метод дата хаб автоматизирует работу с мета-данными.
• Каждый инструмент решает отдельный пул задач.
• Комплексное использование инструментов обеспечивает качественные и надежные данные.

00:35:25 Управление правами в PostgreSQL
• Вопрос о возможности переноса управления правами в PostgreSQL на коннект-менеджер.
• Коннект-менеджер служит для мапинга пользователей и учеток, но не для управления правами доступа.
• Управление правами доступа остается настройкой в кластере PostgreSQL.

00:36:16 Заключение
• Благодарность за внимание.
• Пожелание хорошего дня.
Forwarded from DATABASE DESIGN
Как мы проверяли качество данных после завершения миграции с Teradata на Greenplum

Привет, Хабр! Мы завершаем серию статей о миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущих статьях мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL‑скриптов с помощью реализованных сервисов миграции кода и переноса архива данных. В этот раз мы расскажем вам о нашем опыте и результатах кросс‑платформенной проверки качества данных во время и после миграции, а также о трудностях и решениях, связанных с этим процессом.

Завершая нашу серию, мы подходим к ключевому аспекту миграции данных — проверке и обеспечению качества данных после переноса. Теперь, когда перед нами стоят два параллельно функционирующих хранилища, возникает вопрос о точности и согласованности данных между ними.


Читать: https://habr.com/ru/companies/sberbank/articles/869294/

#ru

@database_design | Другие наши каналы
Forwarded from Data Engineer
Весьма и весьма любопытный репозиторий, я вам скажу, для тех кто хочет изучить «модные» (от слова modern) инструменты инженерии данных.

Что-то здесь дополнительно комментировать — только портить. Смотрите сами, тем более, что впереди долгие и зимние выходные.
Понимание инкрементальных стратегий dbt, часть 1

Вторую часть не буду переводить, этот перевод сделал больше с целью ознакомить с вариантами обновления данных в таблицах. По технической реализации лучше доку смотреть и анализировать, как каждая стратегия работает на уровне макросов (или сгенерированного sql).

https://datatalks.ru/understanding-dbt-incremental-strategies-part-1/

#dbt
data load tool (dlt) is an open source Python library that makes data loading easy 🛠️

🔹Автоматическая схема: проверка структуры данных и создание схемы для места назначения.
🔹 Нормализация данных: согласованные и проверенные данные перед загрузкой.
🔹Полная интеграция: Colab, AWS Lambda, Airflow и локальные среды.
🔹Масштабируемость: адаптируется к растущим потребностям в данных в производстве.
🔹Простота обслуживания: понятная структура конвейера данных для обновлений.
🔹Быстрое исследование: быстрое исследование и получение информации из новых источников данных.
🔹Универсальное использование: подходит для несистематических исследований и создания сложных погрузочных инфраструктур.
🔹Начните работу за считанные секунды с помощью CLI: Мощный CLI для управления, развертывания и проверки локальных pipelines.
🔹Поэтапная загрузка: загружайте только новые или измененные данные и избегайте повторной загрузки старых записей.
🔹Открытый исходный код: бесплатно и под лицензией Apache 2.0.

https://github.com/dlt-hub/dlt