Forwarded from Alex Belozersky
В ВК облаке под елочку будет релиз trino-iceberg-s3 коробки. К этой коробке комплиментарен имеющийся spark-k8s.
Осталось придумать как максимально быстро бесшовно приделать к этом гринпламы и кликхаусы которые пока в моменте правят бал бигдаты в рф.
Осталось придумать как максимально быстро бесшовно приделать к этом гринпламы и кликхаусы которые пока в моменте правят бал бигдаты в рф.
https://t.iss.one/DE_events/1183
#запись в YouTube
...
- 1:06:43 | Богдан Глебов «Как мы съели ПУД соли выстраивая data management (и почти не подавились)»
- 1:34:49 | Даниил Понизов «Создание #MLOps-платформы для десятка команд на основе Airflow»
- 2:10:08 | Дмитрий Лахвич «Floppa the #LakeHouse»
Cмотреть в VK
https://t.iss.one/hadoopusers/211544 #watch
#запись в YouTube
...
- 1:06:43 | Богдан Глебов «Как мы съели ПУД соли выстраивая data management (и почти не подавились)»
- 1:34:49 | Даниил Понизов «Создание #MLOps-платформы для десятка команд на основе Airflow»
- 2:10:08 | Дмитрий Лахвич «Floppa the #LakeHouse»
Cмотреть в VK
https://t.iss.one/hadoopusers/211544 #watch
Data Engineering / reposts & drafts
https://youtu.be/Riouu4szE5g
Yandex MetaData Hub: как управлять метаданными в облаке
00:04:26 Введение
• Светлана Марченко, руководитель группы управления транспортом и сервисами метаданных.
• Рост количества данных усложняет их организацию и требует специальных инструментов.
• Обсуждение инструментов в Яндекс Клауд, доступных в сервисе Метод Дата Хаб.
00:04:59 План доклада
• Введение в метаданные и их виды.
• Примеры использования метаданных для описания таблиц.
• Важность управления метаданными для аналитики и разработки.
00:07:10 Преимущества управления метаданными
• Управление метаданными помогает ориентироваться в данных и анализировать их.
• Полезно для аналитиков, разработчиков и бизнеса.
• Оптимизация данных и улучшение качества данных.
00:09:35 Инструменты в Метод Дата Хаб
• Коннекшн-менеджер для управления параметрами подключения.
• Схема Регистрари для загрузки и настройки схем.
• Хайф Метастор для хранения структурных метаданных.
• Дата.Дата для сбора и описания данных.
00:10:35 Пример использования Коннекшн-менеджера
• Создание пользователя для доступа к данным.
• Управление доступом к данным без раздачи паролей.
• Автоматическая генерация надежных паролей.
00:12:03 Управление доступом к подключениям
• Создание нового пользователя с автоматической генерацией пароля.
• Управление правами доступа к подключениям.
• Интеграция с управляемыми базами данных и другими сервисами.
00:14:43 Интеграция с другими сервисами
• Интеграция с Вьюзом и Дата Трансфер.
• Удобство использования параметров подключения в разных сервисах.
• Автоматическое обновление паролей при смене пользователей.
00:16:48 Аналитика и исследование данных
• Создание пользователя для аналитиков с ограниченными правами.
• Использование инструмента Дата-каталог для исследования данных.
• Дата-каталог будет доступен в первой половине 2025 года.
00:18:37 Инструмент дата-каталог
• Загружает структурные данные, таблицы, схемы и связи между ними.
• Автоматически обновляет данные и размещает их с терминами, тэгами и бизнес-контекстом.
• Коллеги могут использовать удобный поиск для решения задач.
00:19:34 Настройка поставки данных
• Создает новых пользователей для поставки данных.
• Использует кластер ClickHouse для приема данных.
• Настраивает графики и собирает дашборды.
00:20:58 Использование обжиг-сторож и легковесных кластеров
• Настраивает трансфер данных из исходного хранилища в обжиг-сторож.
• Использует легковесные вычислительные кластеры для аналитики.
• Создает кластер хайф метастор для хранения метаданных.
00:21:57 Инструмент хайф метастор
• Интегрирован с Apache Hive, Apache Spark и ObjectStore.
• Хранит описание данных и их схемы.
• Настраивает резервные копии и автоматическое масштабирование.
00:22:45 Оркестрация вычислительных кластеров
• Использует менеджер эрфлу для оркестрации.
• Все кластеры используют одни и те же метаданные.
• Результаты кластеров сохраняются в общий кластер.
00:24:55 Инструмент схема регистра
• Централизованное хранилище для схем данных.
• Определяет политику эволюции схем и загружает их версии.
• Упрощает процесс дата-дискавери и экономит трафик.
00:27:57 Пример использования схемы регистра
• Производитель данных передает схему через интерфейс схема регистра.
• Потребитель данных получает описание схемы и восстанавливает данные.
00:04:26 Введение
• Светлана Марченко, руководитель группы управления транспортом и сервисами метаданных.
• Рост количества данных усложняет их организацию и требует специальных инструментов.
• Обсуждение инструментов в Яндекс Клауд, доступных в сервисе Метод Дата Хаб.
00:04:59 План доклада
• Введение в метаданные и их виды.
• Примеры использования метаданных для описания таблиц.
• Важность управления метаданными для аналитики и разработки.
00:07:10 Преимущества управления метаданными
• Управление метаданными помогает ориентироваться в данных и анализировать их.
• Полезно для аналитиков, разработчиков и бизнеса.
• Оптимизация данных и улучшение качества данных.
00:09:35 Инструменты в Метод Дата Хаб
• Коннекшн-менеджер для управления параметрами подключения.
• Схема Регистрари для загрузки и настройки схем.
• Хайф Метастор для хранения структурных метаданных.
• Дата.Дата для сбора и описания данных.
00:10:35 Пример использования Коннекшн-менеджера
• Создание пользователя для доступа к данным.
• Управление доступом к данным без раздачи паролей.
• Автоматическая генерация надежных паролей.
00:12:03 Управление доступом к подключениям
• Создание нового пользователя с автоматической генерацией пароля.
• Управление правами доступа к подключениям.
• Интеграция с управляемыми базами данных и другими сервисами.
00:14:43 Интеграция с другими сервисами
• Интеграция с Вьюзом и Дата Трансфер.
• Удобство использования параметров подключения в разных сервисах.
• Автоматическое обновление паролей при смене пользователей.
00:16:48 Аналитика и исследование данных
• Создание пользователя для аналитиков с ограниченными правами.
• Использование инструмента Дата-каталог для исследования данных.
• Дата-каталог будет доступен в первой половине 2025 года.
00:18:37 Инструмент дата-каталог
• Загружает структурные данные, таблицы, схемы и связи между ними.
• Автоматически обновляет данные и размещает их с терминами, тэгами и бизнес-контекстом.
• Коллеги могут использовать удобный поиск для решения задач.
00:19:34 Настройка поставки данных
• Создает новых пользователей для поставки данных.
• Использует кластер ClickHouse для приема данных.
• Настраивает графики и собирает дашборды.
00:20:58 Использование обжиг-сторож и легковесных кластеров
• Настраивает трансфер данных из исходного хранилища в обжиг-сторож.
• Использует легковесные вычислительные кластеры для аналитики.
• Создает кластер хайф метастор для хранения метаданных.
00:21:57 Инструмент хайф метастор
• Интегрирован с Apache Hive, Apache Spark и ObjectStore.
• Хранит описание данных и их схемы.
• Настраивает резервные копии и автоматическое масштабирование.
00:22:45 Оркестрация вычислительных кластеров
• Использует менеджер эрфлу для оркестрации.
• Все кластеры используют одни и те же метаданные.
• Результаты кластеров сохраняются в общий кластер.
00:24:55 Инструмент схема регистра
• Централизованное хранилище для схем данных.
• Определяет политику эволюции схем и загружает их версии.
• Упрощает процесс дата-дискавери и экономит трафик.
00:27:57 Пример использования схемы регистра
• Производитель данных передает схему через интерфейс схема регистра.
• Потребитель данных получает описание схемы и восстанавливает данные.
YouTube
Yandex MetaData Hub: как управлять метаданными в облаке
Когда данных в компании становится больше, появляется необходимость их грамотно организовать. Доступы к базам данных, подключениям, управление ролями, классификация доступных данных — всё это превращается в рутинную работу без инструментов.
Управление метаданными…
Управление метаданными…
Data Engineering / reposts & drafts
https://youtu.be/Riouu4szE5g
• Упрощает процесс создания и использования данных.
00:30:29 Управление полным циклом данных
• Улучшает качество данных и повышает доверие к ним.
• Включает анализ данных, определение метрик качества и стандартов.
• Реализует стандарты и мониторит данные для исправления.
00:34:43 Итог
• Метод дата хаб автоматизирует работу с мета-данными.
• Каждый инструмент решает отдельный пул задач.
• Комплексное использование инструментов обеспечивает качественные и надежные данные.
00:35:25 Управление правами в PostgreSQL
• Вопрос о возможности переноса управления правами в PostgreSQL на коннект-менеджер.
• Коннект-менеджер служит для мапинга пользователей и учеток, но не для управления правами доступа.
• Управление правами доступа остается настройкой в кластере PostgreSQL.
00:36:16 Заключение
• Благодарность за внимание.
• Пожелание хорошего дня.
00:30:29 Управление полным циклом данных
• Улучшает качество данных и повышает доверие к ним.
• Включает анализ данных, определение метрик качества и стандартов.
• Реализует стандарты и мониторит данные для исправления.
00:34:43 Итог
• Метод дата хаб автоматизирует работу с мета-данными.
• Каждый инструмент решает отдельный пул задач.
• Комплексное использование инструментов обеспечивает качественные и надежные данные.
00:35:25 Управление правами в PostgreSQL
• Вопрос о возможности переноса управления правами в PostgreSQL на коннект-менеджер.
• Коннект-менеджер служит для мапинга пользователей и учеток, но не для управления правами доступа.
• Управление правами доступа остается настройкой в кластере PostgreSQL.
00:36:16 Заключение
• Благодарность за внимание.
• Пожелание хорошего дня.
YouTube
Yandex MetaData Hub: как управлять метаданными в облаке
Когда данных в компании становится больше, появляется необходимость их грамотно организовать. Доступы к базам данных, подключениям, управление ролями, классификация доступных данных — всё это превращается в рутинную работу без инструментов.
Управление метаданными…
Управление метаданными…
Forwarded from DATABASE DESIGN
Как мы проверяли качество данных после завершения миграции с Teradata на Greenplum
Привет, Хабр! Мы завершаем серию статей о миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущих статьях мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL‑скриптов с помощью реализованных сервисов миграции кода и переноса архива данных. В этот раз мы расскажем вам о нашем опыте и результатах кросс‑платформенной проверки качества данных во время и после миграции, а также о трудностях и решениях, связанных с этим процессом.
Завершая нашу серию, мы подходим к ключевому аспекту миграции данных — проверке и обеспечению качества данных после переноса. Теперь, когда перед нами стоят два параллельно функционирующих хранилища, возникает вопрос о точности и согласованности данных между ними.
Читать: https://habr.com/ru/companies/sberbank/articles/869294/
#ru
@database_design | Другие наши каналы
Привет, Хабр! Мы завершаем серию статей о миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущих статьях мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL‑скриптов с помощью реализованных сервисов миграции кода и переноса архива данных. В этот раз мы расскажем вам о нашем опыте и результатах кросс‑платформенной проверки качества данных во время и после миграции, а также о трудностях и решениях, связанных с этим процессом.
Завершая нашу серию, мы подходим к ключевому аспекту миграции данных — проверке и обеспечению качества данных после переноса. Теперь, когда перед нами стоят два параллельно функционирующих хранилища, возникает вопрос о точности и согласованности данных между ними.
Читать: https://habr.com/ru/companies/sberbank/articles/869294/
#ru
@database_design | Другие наши каналы
Forwarded from Data Engineer
Весьма и весьма любопытный репозиторий, я вам скажу, для тех кто хочет изучить «модные» (от слова modern) инструменты инженерии данных.
Что-то здесь дополнительно комментировать — только портить. Смотрите сами, тем более, что впереди долгие и зимние выходные.
Что-то здесь дополнительно комментировать — только портить. Смотрите сами, тем более, что впереди долгие и зимние выходные.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Оптимизация SQL запросов на примере ClickHouse
Бесплатно
Научимся писать SQL запросы так, чтобы не убить базу данных. Изучим основные методы оптимизации SQL запросов, актуальные для любой СУБД
https://stepik.org/course/Оптимизация-SQL-запросов-на-примере-ClickHouse-215412/
#ClickHouse
Бесплатно
Научимся писать SQL запросы так, чтобы не убить базу данных. Изучим основные методы оптимизации SQL запросов, актуальные для любой СУБД
https://stepik.org/course/Оптимизация-SQL-запросов-на-примере-ClickHouse-215412/
#ClickHouse
Stepik: online education
Оптимизация SQL запросов на примере ClickHouse
🔥 Ваши SQL-запросы тормозят и съедают ресурсы?
На этом курсе вы научитесь писать молниеносные запросы, которые не положат базу — даже на огромных данных в ClickHouse.
Без воды: только практические приемы оптимизации, которые работают в любой СУБД. Узнаете…
На этом курсе вы научитесь писать молниеносные запросы, которые не положат базу — даже на огромных данных в ClickHouse.
Без воды: только практические приемы оптимизации, которые работают в любой СУБД. Узнаете…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Awesome Data Engineering Learning Sources
Подборка ресурсов для изучения направления Data Engineering с минимальным бюджетом (большая часть бесплатно на YT).
https://datatalks.ru/awesome-data-engineering-learning-sources/
Подборка ресурсов для изучения направления Data Engineering с минимальным бюджетом (большая часть бесплатно на YT).
https://datatalks.ru/awesome-data-engineering-learning-sources/
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Awesome Data Engineering. Дорожная карта Data Engineer RoadMap
Awesome Data Engineering. Дорожная карта Data Engineer RoadMap. Дорожная карта по изучению инженерии данных. Как стать дата инженером?
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод главы "Введение в dbt" из книги Unlocking dbt
https://datatalks.ru/unlocking-dbt-data-build-tool-part-1/
#dbt
https://datatalks.ru/unlocking-dbt-data-build-tool-part-1/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод главы «Введение в dbt» из книги Unlocking dbt
Введение в dbt В 2006 году британский математик и предприниматель в области анализа данных Клайв Хамби ввел фразу: «Данные — это новая нефть», подчеркнув их невероятно высокую ценность. Как и нефть, данные в сыром виде полезны, но их нужно обработать, чтобы…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод Analytics Engineering with SQL and dbt. Глава 1
Немного о концепции Analytics Engineering и терминологии.
https://datatalks.ru/analytics-engineering-with-sql-and-dbt-chapter-1/
#dbt
Немного о концепции Analytics Engineering и терминологии.
https://datatalks.ru/analytics-engineering-with-sql-and-dbt-chapter-1/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод Analytics Engineering with SQL and dbt. Глава 1
Инженерия аналитики (Analytics Engineering) История аналитики включает важные этапы и технологии, которые сформировали эту область в том виде, какой мы знаем сегодня. Всё началось с появления концепции хранилищ данных в 1980-х годах, что стало основой для…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Понимание инкрементальных стратегий dbt, часть 1
Вторую часть не буду переводить, этот перевод сделал больше с целью ознакомить с вариантами обновления данных в таблицах. По технической реализации лучше доку смотреть и анализировать, как каждая стратегия работает на уровне макросов (или сгенерированного sql).
https://datatalks.ru/understanding-dbt-incremental-strategies-part-1/
#dbt
Вторую часть не буду переводить, этот перевод сделал больше с целью ознакомить с вариантами обновления данных в таблицах. По технической реализации лучше доку смотреть и анализировать, как каждая стратегия работает на уровне макросов (или сгенерированного sql).
https://datatalks.ru/understanding-dbt-incremental-strategies-part-1/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Понимание инкрементальных стратегий dbt, часть 1
Перевод статьи, исходный текст: https://medium.com/indiciumtech/understanding-dbt-incremental-strategies-part-1-2-22bd97c7eeb5 Данный перевод выполнен с небольшими примечаниями. Используйте статью как ориентир, проверяя по каждой базе и каждому адаптеру возможность…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Курс по dbt для инженеров данных
https://youtube.com/playlist?list=PLzvuaEeolxkyx7XruoatSFdYDyLji_o1J&si=oH5Bne-fU2lCqJl1
#dbt
https://youtube.com/playlist?list=PLzvuaEeolxkyx7XruoatSFdYDyLji_o1J&si=oH5Bne-fU2lCqJl1
#dbt
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
data load tool (dlt) is an open source Python library that makes data loading easy 🛠️
🔹Автоматическая схема: проверка структуры данных и создание схемы для места назначения.
🔹 Нормализация данных: согласованные и проверенные данные перед загрузкой.
🔹Полная интеграция: Colab, AWS Lambda, Airflow и локальные среды.
🔹Масштабируемость: адаптируется к растущим потребностям в данных в производстве.
🔹Простота обслуживания: понятная структура конвейера данных для обновлений.
🔹Быстрое исследование: быстрое исследование и получение информации из новых источников данных.
🔹Универсальное использование: подходит для несистематических исследований и создания сложных погрузочных инфраструктур.
🔹Начните работу за считанные секунды с помощью CLI: Мощный CLI для управления, развертывания и проверки локальных pipelines.
🔹Поэтапная загрузка: загружайте только новые или измененные данные и избегайте повторной загрузки старых записей.
🔹Открытый исходный код: бесплатно и под лицензией Apache 2.0.
https://github.com/dlt-hub/dlt
🔹Автоматическая схема: проверка структуры данных и создание схемы для места назначения.
🔹 Нормализация данных: согласованные и проверенные данные перед загрузкой.
🔹Полная интеграция: Colab, AWS Lambda, Airflow и локальные среды.
🔹Масштабируемость: адаптируется к растущим потребностям в данных в производстве.
🔹Простота обслуживания: понятная структура конвейера данных для обновлений.
🔹Быстрое исследование: быстрое исследование и получение информации из новых источников данных.
🔹Универсальное использование: подходит для несистематических исследований и создания сложных погрузочных инфраструктур.
🔹Начните работу за считанные секунды с помощью CLI: Мощный CLI для управления, развертывания и проверки локальных pipelines.
🔹Поэтапная загрузка: загружайте только новые или измененные данные и избегайте повторной загрузки старых записей.
🔹Открытый исходный код: бесплатно и под лицензией Apache 2.0.
https://github.com/dlt-hub/dlt
GitHub
GitHub - dlt-hub/dlt: data load tool (dlt) is an open source Python library that makes data loading easy 🛠️
data load tool (dlt) is an open source Python library that makes data loading easy 🛠️ - GitHub - dlt-hub/dlt: data load tool (dlt) is an open source Python library that makes data loading easy 🛠️