Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Сегодня, 11 февраля 2025, 17:00
Поднимаем Data Lakehouse на основе Trino в облаке

Для участия требуется регистрация

Программа
▫️Почему топовые мировые и российские IT-компании переходят на архитектуру DLH.
▫️Какие существуют архитектуры DLH и под какие задачи используются.
▫️В каких ситуациях выгоднее разворачивать DLH на собственной инфраструктуре, а когда выгоднее использовать платформу или облако.
▫️Как использование облачного решения от VK Cloud даст гибкость и позволит оперативно расширять инфраструктуру по мере роста потребностей бизнеса.
▫️Как объектное хранилище Cloud Storage (S3) поможет создать экономически выгодную модель хранения данных.
▫️На примере в лайф-режиме покажем различия в стоимости и скорости работы DLH и DWH.



Update: Запись тут https://vkvideo.ru/video-164978780_456239621
The Agile Data (AD) Method

Описываются принципы, процессы и инструменты, позволяющие быстро и эффективно разрабатывать, изменять и управлять аналитическими решениями. Основное внимание уделяется снижению сложности работы с данными, автоматизации и адаптивности к изменениям.

https://agiledata.org/
Пример создания DWH по Kimball с применением dbt

Build a Data Warehouse with dbt using Kimball’s dimensional modeling | by Haq Nawaz | Dev Genius
https://blog.devgenius.io/build-a-data-warehouse-with-dbt-using-kimballs-dimensional-modeling-59ea9bfae59f

GitHub: dbt build a datawarehouse using dimensional modeling
https://github.com/hnawaz007/dbt-dw
Перевод 3 Главы - Методология Data Vault 2.0

Подробное описание методологии Data Vault 2.0, больше с точки зрения управления проектами.

https://datatalks.ru/chapter-3-data-vault-2-0-methodology/

#DataVault
Перевод 4 Главы - Моделирование Data Vault 2.0

В этой главе рассматриваются сущности, используемые в моделировании Data Vault, включая хабы (Hubs), линки/связи (Links) и сателлиты (Satellites). Показано, как идентифицировать бизнес-ключи в исходных данных и связывать их с другими бизнес-ключами в Data Vault с помощью линк-сущностей. Также рассмотрено, как выделять дополнительные атрибуты из исходных данных и моделировать их в виде сателлитных сущностей.

https://datatalks.ru/chapter-4-data-vault-2-0-modeling/

#DataVault
Введение в Apache Iceberg. Основы, архитектура, как работает?

Накидал базовую статейку по айсбергу. Часть материала - конспект из книги "Apache Iceberg Полное руководство" - всем, кто планирует работать с этой технологией, советую прочитать.

https://ivan-shamaev.ru/apache-iceberg-tutorial-architecture-how-to-work/

#iceberg #trino #parquet #lakehouse
💯2
⚡️🔗 Большая подборка GitHub проектов с Data Vault примерами и тулзами

1️⃣ Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses.
👉🏻 https://github.com/Datavault-UK/automate-dv - Инструмент
👉🏻 https://github.com/Datavault-UK/automate-dv-demo - An example dbt project using AutomateDV to create a Data Vault 2.0 Data Warehouse based on the Snowflake TPC-H dataset.
👉🏻 https://automate-dv.readthedocs.io/en/latest/ - описание dbt package.

2️⃣ CarlTimms/Data-Vault-Example-Northwind: An example Data Vault 2.0 data warehouse modelling Microsoft's Northwind sample database.
👉🏻 https://github.com/CarlTimms/Data-Vault-Example-Northwind

3️⃣ ScalefreeCOM/datavault4dbt: Scalefree's dbt package for a Data Vault 2.0 implementation congruent to the original Data Vault 2.0 definition by Dan Linstedt including the Staging Area, DV2.0 main entities, PITs and Snapshot Tables.
👉🏻 https://github.com/ScalefreeCOM/datavault4dbt

4️⃣ Brezencat/dwh-data-vault: Построение DWH по методологии Data Vault (с модификациями).
👉🏻 https://github.com/Brezencat/dwh-data-vault

5️⃣ nshcode/data-vault-modeling: The repository contains the SQL scripts for creating a Data Vault model for a PostgreSQL demo database
👉🏻 https://github.com/nshcode/data-vault-modeling

6️⃣ gtoonstra/etl-with-airflow: Здесь есть пример автоматизации Data Vault 2.0 на Airflow + dbt
👉🏻 https://github.com/gtoonstra/etl-with-airflow

7️⃣ 👉🏻 https://t.iss.one/data_engineer_path/322 - ссылка на пост с DataVault репозиторием и другими материалами.

8️⃣ fang360/data-vault: This project is designed to store data from 2 different studies with python and PostgreSQL.
👉🏻 https://github.com/fang360/data-vault

9️⃣ MarinaZenkova/DataVault: Docker-compose to build a Data Vault from Adventureworks
👉🏻 https://github.com/MarinaZenkova/DataVault

1️⃣0️⃣ infinitelambda/dq-vault: Data Quality Observation of Data Vault layer
👉🏻 https://github.com/infinitelambda/dq-vault

1️⃣1️⃣ AdventureWorks/DataVault/DanLinstedt: ddl, sql, ER diagram
👉🏻 https://github.com/cjheath/AdventureWorks/tree/master/DataVault/DanLinstedt

1️⃣2️⃣ cimt-ag/data_vault_pipelinedescription: A concept and syntax to provide a universal data format, for storing all essential informations, that are needed to implement or generate a data loading process for a data vault model.
👉🏻 https://github.com/cimt-ag/data_vault_pipelinedescription

🏁 Ну и напоследок, полезная библиотечка datnguye/dbterd, которая позволяет генерировать ERD as a code из dbt проектов

🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
#DataVault
Channel: @data_engineer_path
👍1🔥1😍1