Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 2 Главы - Масштабируемая архитектура хранилища данных
Введение в архитектуру Data Vault 2.0 без детальных подробностей.
https://datatalks.ru/data-vault-2-0-chapter-2-scalable-data-warehouse-architecture/
#DataVault
Введение в архитектуру Data Vault 2.0 без детальных подробностей.
https://datatalks.ru/data-vault-2-0-chapter-2-scalable-data-warehouse-architecture/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 2 Главы — Масштабируемая архитектура хранилища данных
Перевод 2 Главы - Масштабируемая архитектура хранилища данных Data Vault 2.0
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Как быстро запустить процесс ведения каталога данных в компании. Пример DataHub - доклад Журавлевой Натальи на SmartData 2024
https://youtu.be/nCt4gYVQdqc?si=YUpGIqHB5SqCddrH
https://youtu.be/nCt4gYVQdqc?si=YUpGIqHB5SqCddrH
YouTube
Наталья Журавлева — Как быстро запустить процесс ведения каталога данных в компании. Пример DataHub
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/YPFuf5
Проблема: данных становится слишком много. Вы знаете, что вам нужен каталог данных, но не знаете, с чего начать и как реализовать инструмент…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/YPFuf5
Проблема: данных становится слишком много. Вы знаете, что вам нужен каталог данных, но не знаете, с чего начать и как реализовать инструмент…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Пример создания DWH по Kimball с применением dbt
Build a Data Warehouse with dbt using Kimball’s dimensional modeling | by Haq Nawaz | Dev Genius
https://blog.devgenius.io/build-a-data-warehouse-with-dbt-using-kimballs-dimensional-modeling-59ea9bfae59f
GitHub: dbt build a datawarehouse using dimensional modeling
https://github.com/hnawaz007/dbt-dw
Build a Data Warehouse with dbt using Kimball’s dimensional modeling | by Haq Nawaz | Dev Genius
https://blog.devgenius.io/build-a-data-warehouse-with-dbt-using-kimballs-dimensional-modeling-59ea9bfae59f
GitHub: dbt build a datawarehouse using dimensional modeling
https://github.com/hnawaz007/dbt-dw
Medium
Build a Data Warehouse with dbt using Kimball’s dimensional modeling
using dbt, SQL, SQL Server, Postgres
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SmartData 2024: От хайпа до продакшена: data mesh на Airflow + dbt
https://youtu.be/OT-Sx-bd-6k?si=MG0kbWWjZIXwR2nm
https://youtu.be/OT-Sx-bd-6k?si=MG0kbWWjZIXwR2nm
YouTube
Никита Юрасов, Леонид Кожинов — От хайпа до продакшена: data mesh на Airflow + dbt
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/MnC8LZ
Обещанного три года ждут, а toloka.ai опережает поставленные сроки: год назад спикеры рассказывали про подход к интеграции dbt и Airflow…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/MnC8LZ
Обещанного три года ждут, а toloka.ai опережает поставленные сроки: год назад спикеры рассказывали про подход к интеграции dbt и Airflow…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 3 Главы - Методология Data Vault 2.0
Подробное описание методологии Data Vault 2.0, больше с точки зрения управления проектами.
https://datatalks.ru/chapter-3-data-vault-2-0-methodology/
#DataVault
Подробное описание методологии Data Vault 2.0, больше с точки зрения управления проектами.
https://datatalks.ru/chapter-3-data-vault-2-0-methodology/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 3 Главы — Методология Data Vault 2.0
Перевод 3 Главы - Методология Data Vault 2.0
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SoftwareMill Kafka Visualization
Визуально можно увидеть, как работает кафка.
https://softwaremill.com/kafka-visualisation/
И дополнительно статья, описывающая инструмент
https://habr.com/ru/articles/865120/
#kafka
Визуально можно увидеть, как работает кафка.
https://softwaremill.com/kafka-visualisation/
И дополнительно статья, описывающая инструмент
https://habr.com/ru/articles/865120/
#kafka
Softwaremill
SoftwareMill Kafka Visualization
Using the Kafka Visualization tool you can simulate how data flows through a replicated Kafka topic, to gain a better understanding of the message processing model.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 4 Главы - Моделирование Data Vault 2.0
https://datatalks.ru/chapter-4-data-vault-2-0-modeling/
#DataVault
В этой главе рассматриваются сущности, используемые в моделировании Data Vault, включая хабы (Hubs), линки/связи (Links) и сателлиты (Satellites). Показано, как идентифицировать бизнес-ключи в исходных данных и связывать их с другими бизнес-ключами в Data Vault с помощью линк-сущностей. Также рассмотрено, как выделять дополнительные атрибуты из исходных данных и моделировать их в виде сателлитных сущностей.https://datatalks.ru/chapter-4-data-vault-2-0-modeling/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 4 Главы — Моделирование Data Vault 2.0 — Что такое Hub / Link / Satellite?
Перевод 4 Главы - Моделирование Data Vault 2.0 - Что такое Hub / Link / Satellite? Data Vault модель данных data warehouse DDS. Примеры. Книга
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SmartData 2024 "dbt в деле: реальные кейсы и лайфхаки (Антон Александров)"
https://youtu.be/RV5ZSMcwm9w?si=BDSx3q8h0gb_ZQTX
Презентация
https://youtu.be/RV5ZSMcwm9w?si=BDSx3q8h0gb_ZQTX
Презентация
YouTube
Антон Александров — dbt в деле: реальные кейсы и лайфхаки
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/8i0yvb
В 2022 году компания «Детский мир» столкнулась с резким увеличением объема витрин данных, что привело к многочисленным техническим…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/8i0yvb
В 2022 году компания «Детский мир» столкнулась с резким увеличением объема витрин данных, что привело к многочисленным техническим…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Введение в Apache Iceberg. Основы, архитектура, как работает?
Накидал базовую статейку по айсбергу. Часть материала - конспект из книги "Apache Iceberg Полное руководство" - всем, кто планирует работать с этой технологией, советую прочитать.
https://ivan-shamaev.ru/apache-iceberg-tutorial-architecture-how-to-work/
#iceberg #trino #parquet #lakehouse
Накидал базовую статейку по айсбергу. Часть материала - конспект из книги "Apache Iceberg Полное руководство" - всем, кто планирует работать с этой технологией, советую прочитать.
https://ivan-shamaev.ru/apache-iceberg-tutorial-architecture-how-to-work/
#iceberg #trino #parquet #lakehouse
Персональный блог Data Engineer | Ex-TeamLead BI Developer
Введение в Apache Iceberg. Основы, архитектура, как работает?
Введение в Apache Iceberg. Основы. Архитектура. Как работает и внутреннее устройство. Полное руководство, обучение, курс для Data Engineer
💯2
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SmartData 2024: Валентин Пановский - Как кролик съел зелёную сливу и не умер: сказ о миграции на Iceberg
Процесс миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object Storage).
https://youtu.be/YWD7WcfFfk8?si=Meqb8QIAsCQa4D8X
#trino #apacheiceberg
Процесс миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object Storage).
https://youtu.be/YWD7WcfFfk8?si=Meqb8QIAsCQa4D8X
#trino #apacheiceberg
YouTube
Валентин Пановский — Как кролик съел зеленую сливу и не умер: сказ о миграции на Iceberg
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/t0xTmS
Спикер рассказал о процессе миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/t0xTmS
Спикер рассказал о процессе миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object…
❤1
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 5 главы из книги "Building a Scalable Data Warehouse with Data Vault 2.0"
https://datatalks.ru/data-vault-chapter-5-intermediate-data-vault-modeling/
#DataVault
https://datatalks.ru/data-vault-chapter-5-intermediate-data-vault-modeling/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 5 Главы — Intermediate Моделирование Data Vault
❤1🔥1
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 6 Главы - Продвинутое моделирование Data Vault 2.0 - Advanced Data Vault Modeling
Рассмотрено использование PIT- и Bridge-таблиц
https://datatalks.ru/chapter-6-data-vault-advanced-data-vault-modeling/
#DataVault
Рассмотрено использование PIT- и Bridge-таблиц
https://datatalks.ru/chapter-6-data-vault-advanced-data-vault-modeling/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 6 Главы — Продвинутое моделирование Data Vault 2.0 — Advanced Data Vault Modeling
Перевод 6 Главы Продвинутое моделирование Advanced Data Vault Modeling. Книга "Building a Scalable Data Warehouse with Data Vault 2.0"
👏1
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
⚡️🔗 Большая подборка GitHub проектов с Data Vault примерами и тулзами
1️⃣ Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses.
👉🏻 https://github.com/Datavault-UK/automate-dv - Инструмент
👉🏻 https://github.com/Datavault-UK/automate-dv-demo - An example dbt project using AutomateDV to create a Data Vault 2.0 Data Warehouse based on the Snowflake TPC-H dataset.
👉🏻 https://automate-dv.readthedocs.io/en/latest/ - описание dbt package.
2️⃣ CarlTimms/Data-Vault-Example-Northwind: An example Data Vault 2.0 data warehouse modelling Microsoft's Northwind sample database.
👉🏻 https://github.com/CarlTimms/Data-Vault-Example-Northwind
3️⃣ ScalefreeCOM/datavault4dbt: Scalefree's dbt package for a Data Vault 2.0 implementation congruent to the original Data Vault 2.0 definition by Dan Linstedt including the Staging Area, DV2.0 main entities, PITs and Snapshot Tables.
👉🏻 https://github.com/ScalefreeCOM/datavault4dbt
4️⃣ Brezencat/dwh-data-vault: Построение DWH по методологии Data Vault (с модификациями).
👉🏻 https://github.com/Brezencat/dwh-data-vault
5️⃣ nshcode/data-vault-modeling: The repository contains the SQL scripts for creating a Data Vault model for a PostgreSQL demo database
👉🏻 https://github.com/nshcode/data-vault-modeling
6️⃣ gtoonstra/etl-with-airflow: Здесь есть пример автоматизации Data Vault 2.0 на Airflow + dbt
👉🏻 https://github.com/gtoonstra/etl-with-airflow
7️⃣ 👉🏻 https://t.iss.one/data_engineer_path/322 - ссылка на пост с DataVault репозиторием и другими материалами.
8️⃣ fang360/data-vault: This project is designed to store data from 2 different studies with python and PostgreSQL.
👉🏻 https://github.com/fang360/data-vault
9️⃣ MarinaZenkova/DataVault: Docker-compose to build a Data Vault from Adventureworks
👉🏻 https://github.com/MarinaZenkova/DataVault
1️⃣0️⃣ infinitelambda/dq-vault: Data Quality Observation of Data Vault layer
👉🏻 https://github.com/infinitelambda/dq-vault
1️⃣1️⃣ AdventureWorks/DataVault/DanLinstedt: ddl, sql, ER diagram
👉🏻 https://github.com/cjheath/AdventureWorks/tree/master/DataVault/DanLinstedt
1️⃣2️⃣ cimt-ag/data_vault_pipelinedescription: A concept and syntax to provide a universal data format, for storing all essential informations, that are needed to implement or generate a data loading process for a data vault model.
👉🏻 https://github.com/cimt-ag/data_vault_pipelinedescription
🏁 Ну и напоследок, полезная библиотечка datnguye/dbterd, которая позволяет генерировать ERD as a code из dbt проектов
🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
#DataVault
Channel: @data_engineer_path
1️⃣ Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses.
👉🏻 https://github.com/Datavault-UK/automate-dv - Инструмент
👉🏻 https://github.com/Datavault-UK/automate-dv-demo - An example dbt project using AutomateDV to create a Data Vault 2.0 Data Warehouse based on the Snowflake TPC-H dataset.
👉🏻 https://automate-dv.readthedocs.io/en/latest/ - описание dbt package.
2️⃣ CarlTimms/Data-Vault-Example-Northwind: An example Data Vault 2.0 data warehouse modelling Microsoft's Northwind sample database.
👉🏻 https://github.com/CarlTimms/Data-Vault-Example-Northwind
3️⃣ ScalefreeCOM/datavault4dbt: Scalefree's dbt package for a Data Vault 2.0 implementation congruent to the original Data Vault 2.0 definition by Dan Linstedt including the Staging Area, DV2.0 main entities, PITs and Snapshot Tables.
👉🏻 https://github.com/ScalefreeCOM/datavault4dbt
4️⃣ Brezencat/dwh-data-vault: Построение DWH по методологии Data Vault (с модификациями).
👉🏻 https://github.com/Brezencat/dwh-data-vault
5️⃣ nshcode/data-vault-modeling: The repository contains the SQL scripts for creating a Data Vault model for a PostgreSQL demo database
👉🏻 https://github.com/nshcode/data-vault-modeling
6️⃣ gtoonstra/etl-with-airflow: Здесь есть пример автоматизации Data Vault 2.0 на Airflow + dbt
👉🏻 https://github.com/gtoonstra/etl-with-airflow
7️⃣ 👉🏻 https://t.iss.one/data_engineer_path/322 - ссылка на пост с DataVault репозиторием и другими материалами.
8️⃣ fang360/data-vault: This project is designed to store data from 2 different studies with python and PostgreSQL.
👉🏻 https://github.com/fang360/data-vault
9️⃣ MarinaZenkova/DataVault: Docker-compose to build a Data Vault from Adventureworks
👉🏻 https://github.com/MarinaZenkova/DataVault
1️⃣0️⃣ infinitelambda/dq-vault: Data Quality Observation of Data Vault layer
👉🏻 https://github.com/infinitelambda/dq-vault
1️⃣1️⃣ AdventureWorks/DataVault/DanLinstedt: ddl, sql, ER diagram
👉🏻 https://github.com/cjheath/AdventureWorks/tree/master/DataVault/DanLinstedt
1️⃣2️⃣ cimt-ag/data_vault_pipelinedescription: A concept and syntax to provide a universal data format, for storing all essential informations, that are needed to implement or generate a data loading process for a data vault model.
👉🏻 https://github.com/cimt-ag/data_vault_pipelinedescription
🏁 Ну и напоследок, полезная библиотечка datnguye/dbterd, которая позволяет генерировать ERD as a code из dbt проектов
🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
#DataVault
Channel: @data_engineer_path
GitHub
GitHub - Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses…
A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses (powered by dbt, an open source data engineering tool, registered trademark of dbt Labs) - Datavault-UK/...
👍1🔥1😍1
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 7 Главы - Dimensional Modeling (Data Vault 2.0)
https://datatalks.ru/chapter-7-data-vault-2-0-dimensional-modeling/
#DataVault #DimensionalModeling
https://datatalks.ru/chapter-7-data-vault-2-0-dimensional-modeling/
#DataVault #DimensionalModeling
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 7 Главы — Dimensional Modeling (Data Vault 2.0)
Перевод 7 Главы - Dimensional Modeling (Data Vault 2.0)
👍1🔥1😍1
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
How we built fast UPDATEs for the ClickHouse column store
▫️Part 1: Purpose-built engines
▫️Part 2: SQL-style UPDATEs
В первой части автор Том Шрайбер поясняет, как ClickHouse обходится без традиционного обновления строк, превращая UPDATE/DELETE в вставки с помощью специальных движков вроде ReplacingMergeTree, CollapsingMergeTree и др., которые позднее сливаются фоновым процессом, обеспечивая высокую скорость и масштабируемость на аналитических нагрузках. Это решение позволило объединить эффективность вставок и возможность правки данных без ущерба для быстрого чтения.
Вторая статья рассказывает о новой архитектуре патч‑партиций (patch parts), благодаря которым ClickHouse наконец поддерживает классический синтаксис UPDATE … WHERE, но без затрат на перестройку колонок: патч‑партиции содержат только изменённые значения и сливаются в фоновом режиме, обеспечивая мгновенную видимость изменений и высокую производительность. Автор подробно описывает эволюцию от тяжёлых мутаций до экономных, декларативных обновлений на основе SQL, вдохновлённых механизмами MergeTree.
#ClickHouse
▫️Part 1: Purpose-built engines
▫️Part 2: SQL-style UPDATEs
В первой части автор Том Шрайбер поясняет, как ClickHouse обходится без традиционного обновления строк, превращая UPDATE/DELETE в вставки с помощью специальных движков вроде ReplacingMergeTree, CollapsingMergeTree и др., которые позднее сливаются фоновым процессом, обеспечивая высокую скорость и масштабируемость на аналитических нагрузках. Это решение позволило объединить эффективность вставок и возможность правки данных без ущерба для быстрого чтения.
Вторая статья рассказывает о новой архитектуре патч‑партиций (patch parts), благодаря которым ClickHouse наконец поддерживает классический синтаксис UPDATE … WHERE, но без затрат на перестройку колонок: патч‑партиции содержат только изменённые значения и сливаются в фоновом режиме, обеспечивая мгновенную видимость изменений и высокую производительность. Автор подробно описывает эволюцию от тяжёлых мутаций до экономных, декларативных обновлений на основе SQL, вдохновлённых механизмами MergeTree.
#ClickHouse
ClickHouse
How we built fast UPDATEs for the ClickHouse column store – Part 1: Purpose-built engines
ClickHouse is a column store, but that doesn’t mean updates are slow. In this post, we explore how purpose-built engines like ReplacingMergeTree deliver fast, efficient UPDATE-like behavior through smart insert semantics.
⚡2👏1
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Денис Лукьянов - Data Vault 2.0. Когда внедрять, проблемы применения при построении DWH на GreenPlum
https://youtu.be/oGwQbeP5iss?si=HT-W93nX2d6Ig_ZP
#DataVault
https://youtu.be/oGwQbeP5iss?si=HT-W93nX2d6Ig_ZP
#DataVault
YouTube
Денис Лукьянов — Data Vault 2.0. Когда внедрять, проблемы применения при построении DWH на Greenplum
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/bTcWPn
При внедрении Data Vault на Greenplum возникает множество корнер-кейсов, которые могут привести как к просадке производительности системы…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/bTcWPn
При внедрении Data Vault на Greenplum возникает множество корнер-кейсов, которые могут привести как к просадке производительности системы…
👍2👏2💯2🔥1
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SmartData 2024: Александр Токарев - Пишем свой cluster manager для Apache Spark
https://youtu.be/oDuL8-ptFyk?si=VO_QTc7E7S8y-16v
https://youtu.be/oDuL8-ptFyk?si=VO_QTc7E7S8y-16v
YouTube
Александр Токарев — Пишем свой cluster manager для Apache Spark
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/Vsou2A
Apache Spark — это развитый фреймворк для обработки больших объемов неструктурированных данных. Одно из его достоинств — способность…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/Vsou2A
Apache Spark — это развитый фреймворк для обработки больших объемов неструктурированных данных. Одно из его достоинств — способность…
⚡2👍2💯1
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Оптимизация запросов в Trino
Наковырял из документации основные термины и понятия по Trino (плюс настройки из последней версии 478, которые могут пригодиться для оптимизации). Получился в некотором виде конспект.
https://ivan-shamaev.ru/trino-query-optimizer/
Также на днях вышел перевод книги Trino. Анализ больших данных.
Первая глава и оглавление доступны для просмотра
#trino #iceberg
Наковырял из документации основные термины и понятия по Trino (плюс настройки из последней версии 478, которые могут пригодиться для оптимизации). Получился в некотором виде конспект.
https://ivan-shamaev.ru/trino-query-optimizer/
Также на днях вышел перевод книги Trino. Анализ больших данных.
Первая глава и оглавление доступны для просмотра
#trino #iceberg
Персональный блог Data Engineer | Ex-TeamLead BI Developer
Оптимизация запросов в Trino. Обзор функциональности и настроек
Оптимизация запросов в Trino. Обзор функциональности и настроек. Перевод документации по улучшению производительности sql запросов в трино
👏2💯2❤1⚡1👍1😍1
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Как устроена работа Iceberg на примере Trino и Rest Catalog?
Iceberg - это табличный формат хранения данных в datalake, который управляется через библиотеку на Java (есть также реализации на Go, Rust, C++ и Python). Но базово работает через Java.
В статье кратко рассматривается как устроено Trino и как устроен Iceberg Java API (без погружения в разработку).
Ну и ссылочки на deepwiki по Iceberg/Trino/Rest Catalog.
https://ivan-shamaev.ru/how-iceberg-works-using-trino-and-rest-catalog/
#Trino #Iceberg #RestCatalog #Java
Iceberg - это табличный формат хранения данных в datalake, который управляется через библиотеку на Java (есть также реализации на Go, Rust, C++ и Python). Но базово работает через Java.
В статье кратко рассматривается как устроено Trino и как устроен Iceberg Java API (без погружения в разработку).
Ну и ссылочки на deepwiki по Iceberg/Trino/Rest Catalog.
https://ivan-shamaev.ru/how-iceberg-works-using-trino-and-rest-catalog/
#Trino #Iceberg #RestCatalog #Java
Персональный блог Data Engineer | Ex-TeamLead BI Developer
Как устроена работа Iceberg на примере Trino и Rest Catalog?
🔥2💯2❤1⚡1👍1
Forwarded from rzv Data Engineering
Как я коммитил в Open-source или опыт затаскивания сырой библиотеки на проект 1/2
🔸 Для учебного проекта на менторстве строю свою небольшую платформу данных. Там пересекаются задачи Dev Ops, Data Engineering, Project Management, и нужно много инструментов связать между собой.
Двумя недавними задачами было интегрировать dbt core с Airflow и развернуть multi-project UI для документации (аналог dbt docs serve). Прошерстил github, stackoverflow и reddit, нашёл упоминание нового пакета memiiso/opendbt -- как раз вроде всё есть, что мне нужно, и интеграции выглядят всего лишь в пару строчек. Ещё и обновлённый дата каталог есть по кнопке из Airflow UI -- красота https://memiiso.github.io/opendbt/opendbtdocs/ .
Интуиция и опыт подсказывали, что ~150 звёзд это лотерея и стоит ограничить время на эксперименты, но душа желала приключений. И вот как они прошли.
🔸 Вначале оказалось, что документация не обновлена и следование Tutorial ведёт к багу. Исправил у себя и решил сделать свой небольшой вклад в перспективный проект. Pull Request приняли быстро и с благодарностью, что подогрело моё желание по возможности поддержать проект временем.
Затем оказалось, что красивый UI каталог нужно вручную подкладывать в папку взамен index.html по результатам
🔸 А потом выяснилось то, почему решил написать этот пост. Следующие фичи, заявленные в Readme, не работают вместе:
⁃ user-friendly data catalog
⁃ running multiple projects
То есть вы можете использовать несколько проектов, но в UI мы их вам не покажем. И тут я совершил большую ошибку — подумал “нужно всего лишь добавить выпадающий список для выбора проектов”. Что могло пойти не так?)
🔸 Для учебного проекта на менторстве строю свою небольшую платформу данных. Там пересекаются задачи Dev Ops, Data Engineering, Project Management, и нужно много инструментов связать между собой.
Двумя недавними задачами было интегрировать dbt core с Airflow и развернуть multi-project UI для документации (аналог dbt docs serve). Прошерстил github, stackoverflow и reddit, нашёл упоминание нового пакета memiiso/opendbt -- как раз вроде всё есть, что мне нужно, и интеграции выглядят всего лишь в пару строчек. Ещё и обновлённый дата каталог есть по кнопке из Airflow UI -- красота https://memiiso.github.io/opendbt/opendbtdocs/ .
Интуиция и опыт подсказывали, что ~150 звёзд это лотерея и стоит ограничить время на эксперименты, но душа желала приключений. И вот как они прошли.
🔸 Вначале оказалось, что документация не обновлена и следование Tutorial ведёт к багу. Исправил у себя и решил сделать свой небольшой вклад в перспективный проект. Pull Request приняли быстро и с благодарностью, что подогрело моё желание по возможности поддержать проект временем.
Затем оказалось, что красивый UI каталог нужно вручную подкладывать в папку взамен index.html по результатам
dbt docs generate. И то, чем автор пакета хвалится, нельзя использовать “из коробки”. Покрутил вместе с claude code agent, докинул недостающую команду opendbt docs generate, описал в доке и сделал PR. Его тоже быстро приняли.🔸 А потом выяснилось то, почему решил написать этот пост. Следующие фичи, заявленные в Readme, не работают вместе:
⁃ user-friendly data catalog
⁃ running multiple projects
То есть вы можете использовать несколько проектов, но в UI мы их вам не покажем. И тут я совершил большую ошибку — подумал “нужно всего лишь добавить выпадающий список для выбора проектов”. Что могло пойти не так?)
😍2❤1⚡1👍1🔥1👏1