Data Engineering / reposts & drafts – Telegram

Data Engineering / reposts & drafts

@DataEngineering_ru

34 subscribers

227 photos

22 videos

40 files

557 links

#DataEngineering
#data_engineering
#data_engineering_ru

#DE_ru #DE

Download Telegram

About

Blog

Apps

Platform

Data Engineering / reposts & drafts

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

SmartData 2024: Валентин Пановский - Как кролик съел зелёную сливу и не умер: сказ о миграции на Iceberg

Процесс миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object Storage).

https://youtu.be/YWD7WcfFfk8?si=Meqb8QIAsCQa4D8X

#trino #apacheiceberg

Валентин Пановский — Как кролик съел зеленую сливу и не умер: сказ о миграции на Iceberg

Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/t0xTmS

Спикер рассказал о процессе миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object…

❤1

5 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Перевод 5 главы из книги "Building a Scalable Data Warehouse with Data Vault 2.0"

https://datatalks.ru/data-vault-chapter-5-intermediate-data-vault-modeling/

#DataVault

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Перевод 5 Главы — Intermediate Моделирование Data Vault

❤1🔥1

7 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Перевод 6 Главы - Продвинутое моделирование Data Vault 2.0 - Advanced Data Vault Modeling

Рассмотрено использование PIT- и Bridge-таблиц

https://datatalks.ru/chapter-6-data-vault-advanced-data-vault-modeling/

#DataVault

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Перевод 6 Главы — Продвинутое моделирование Data Vault 2.0 — Advanced Data Vault Modeling

Перевод 6 Главы Продвинутое моделирование Advanced Data Vault Modeling. Книга "Building a Scalable Data Warehouse with Data Vault 2.0"

👏1

5 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

⚡️🔗 Большая подборка GitHub проектов с Data Vault примерами и тулзами

1️⃣ Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses.
👉🏻 https://github.com/Datavault-UK/automate-dv - Инструмент
👉🏻 https://github.com/Datavault-UK/automate-dv-demo - An example dbt project using AutomateDV to create a Data Vault 2.0 Data Warehouse based on the Snowflake TPC-H dataset.
👉🏻 https://automate-dv.readthedocs.io/en/latest/ - описание dbt package.

2️⃣ CarlTimms/Data-Vault-Example-Northwind: An example Data Vault 2.0 data warehouse modelling Microsoft's Northwind sample database.
👉🏻 https://github.com/CarlTimms/Data-Vault-Example-Northwind

3️⃣ ScalefreeCOM/datavault4dbt: Scalefree's dbt package for a Data Vault 2.0 implementation congruent to the original Data Vault 2.0 definition by Dan Linstedt including the Staging Area, DV2.0 main entities, PITs and Snapshot Tables.
👉🏻 https://github.com/ScalefreeCOM/datavault4dbt

4️⃣ Brezencat/dwh-data-vault: Построение DWH по методологии Data Vault (с модификациями).
👉🏻 https://github.com/Brezencat/dwh-data-vault

5️⃣ nshcode/data-vault-modeling: The repository contains the SQL scripts for creating a Data Vault model for a PostgreSQL demo database
👉🏻 https://github.com/nshcode/data-vault-modeling

6️⃣ gtoonstra/etl-with-airflow: Здесь есть пример автоматизации Data Vault 2.0 на Airflow + dbt
👉🏻 https://github.com/gtoonstra/etl-with-airflow

7️⃣ 👉🏻 https://t.iss.one/data_engineer_path/322 - ссылка на пост с DataVault репозиторием и другими материалами.

8️⃣ fang360/data-vault: This project is designed to store data from 2 different studies with python and PostgreSQL.
👉🏻 https://github.com/fang360/data-vault

9️⃣ MarinaZenkova/DataVault: Docker-compose to build a Data Vault from Adventureworks
👉🏻 https://github.com/MarinaZenkova/DataVault

1️⃣0️⃣ infinitelambda/dq-vault: Data Quality Observation of Data Vault layer
👉🏻 https://github.com/infinitelambda/dq-vault

1️⃣1️⃣ AdventureWorks/DataVault/DanLinstedt: ddl, sql, ER diagram
👉🏻 https://github.com/cjheath/AdventureWorks/tree/master/DataVault/DanLinstedt

1️⃣2️⃣ cimt-ag/data_vault_pipelinedescription: A concept and syntax to provide a universal data format, for storing all essential informations, that are needed to implement or generate a data loading process for a data vault model.
👉🏻 https://github.com/cimt-ag/data_vault_pipelinedescription

🏁 Ну и напоследок, полезная библиотечка datnguye/dbterd, которая позволяет генерировать ERD as a code из dbt проектов

🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
#DataVault
Channel: @data_engineer_path

GitHub - Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses…

A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses (powered by dbt, an open source data engineering tool, registered trademark of dbt Labs) - Datavault-UK/...

👍1🔥1😍1

6 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Перевод 7 Главы - Dimensional Modeling (Data Vault 2.0)

https://datatalks.ru/chapter-7-data-vault-2-0-dimensional-modeling/

#DataVault #DimensionalModeling

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Перевод 7 Главы — Dimensional Modeling (Data Vault 2.0)

Перевод 7 Главы - Dimensional Modeling (Data Vault 2.0)

👍1🔥1😍1

9 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

How we built fast UPDATEs for the ClickHouse column store

▫️Part 1: Purpose-built engines

▫️Part 2: SQL-style UPDATEs

В первой части автор Том Шрайбер поясняет, как ClickHouse обходится без традиционного обновления строк, превращая UPDATE/DELETE в вставки с помощью специальных движков вроде ReplacingMergeTree, CollapsingMergeTree и др., которые позднее сливаются фоновым процессом, обеспечивая высокую скорость и масштабируемость на аналитических нагрузках. Это решение позволило объединить эффективность вставок и возможность правки данных без ущерба для быстрого чтения.

Вторая статья рассказывает о новой архитектуре патч‑партиций (patch parts), благодаря которым ClickHouse наконец поддерживает классический синтаксис UPDATE … WHERE, но без затрат на перестройку колонок: патч‑партиции содержат только изменённые значения и сливаются в фоновом режиме, обеспечивая мгновенную видимость изменений и высокую производительность. Автор подробно описывает эволюцию от тяжёлых мутаций до экономных, декларативных обновлений на основе SQL, вдохновлённых механизмами MergeTree.

#ClickHouse

How we built fast UPDATEs for the ClickHouse column store – Part 1: Purpose-built engines

ClickHouse is a column store, but that doesn’t mean updates are slow. In this post, we explore how purpose-built engines like ReplacingMergeTree deliver fast, efficient UPDATE-like behavior through smart insert semantics.

⚡2👏1

9 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Денис Лукьянов - Data Vault 2.0. Когда внедрять, проблемы применения при построении DWH на GreenPlum

https://youtu.be/oGwQbeP5iss?si=HT-W93nX2d6Ig_ZP

#DataVault

Денис Лукьянов — Data Vault 2.0. Когда внедрять, проблемы применения при построении DWH на Greenplum

Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/bTcWPn

При внедрении Data Vault на Greenplum возникает множество корнер-кейсов, которые могут привести как к просадке производительности системы…

👍2👏2💯2🔥1

9 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

SmartData 2024: Александр Токарев - Пишем свой cluster manager для Apache Spark

https://youtu.be/oDuL8-ptFyk?si=VO_QTc7E7S8y-16v

Александр Токарев — Пишем свой cluster manager для Apache Spark

Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/Vsou2A

Apache Spark — это развитый фреймворк для обработки больших объемов неструктурированных данных. Одно из его достоинств — способность…

⚡2👍2💯1

13 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Оптимизация запросов в Trino

Наковырял из документации основные термины и понятия по Trino (плюс настройки из последней версии 478, которые могут пригодиться для оптимизации). Получился в некотором виде конспект.

https://ivan-shamaev.ru/trino-query-optimizer/

Также на днях вышел перевод книги Trino. Анализ больших данных.

Первая глава и оглавление доступны для просмотра

#trino #iceberg

Персональный блог Data Engineer | Ex-TeamLead BI Developer

Оптимизация запросов в Trino. Обзор функциональности и настроек

Оптимизация запросов в Trino. Обзор функциональности и настроек. Перевод документации по улучшению производительности sql запросов в трино

👏2💯2❤1⚡1👍1😍1

16 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Как устроена работа Iceberg на примере Trino и Rest Catalog?

Iceberg - это табличный формат хранения данных в datalake, который управляется через библиотеку на Java (есть также реализации на Go, Rust, C++ и Python). Но базово работает через Java.
В статье кратко рассматривается как устроено Trino и как устроен Iceberg Java API (без погружения в разработку).

Ну и ссылочки на deepwiki по Iceberg/Trino/Rest Catalog.

https://ivan-shamaev.ru/how-iceberg-works-using-trino-and-rest-catalog/

#Trino #Iceberg #RestCatalog #Java

Персональный блог Data Engineer | Ex-TeamLead BI Developer

Как устроена работа Iceberg на примере Trino и Rest Catalog?

🔥2💯2❤1⚡1👍1

21 views16:00

Data Engineering / reposts & drafts

https://t.iss.one/rzv_de/381 #OpenDBT

rzv Data Engineering

Как я коммитил в Open-source или опыт затаскивания сырой библиотеки на проект 1/2

🔸 Для учебного проекта на менторстве строю свою небольшую платформу данных. Там пересекаются задачи Dev Ops, Data Engineering, Project Management, и нужно много инструментов…

⚡2🔥2👏2👍1

13 views10:35

Data Engineering / reposts & drafts

Forwarded from rzv Data Engineering

Как я коммитил в Open-source или опыт затаскивания сырой библиотеки на проект 1/2

🔸 Для учебного проекта на менторстве строю свою небольшую платформу данных. Там пересекаются задачи Dev Ops, Data Engineering, Project Management, и нужно много инструментов связать между собой.

Двумя недавними задачами было интегрировать dbt core с Airflow и развернуть multi-project UI для документации (аналог dbt docs serve). Прошерстил github, stackoverflow и reddit, нашёл упоминание нового пакета memiiso/opendbt -- как раз вроде всё есть, что мне нужно, и интеграции выглядят всего лишь в пару строчек. Ещё и обновлённый дата каталог есть по кнопке из Airflow UI -- красота https://memiiso.github.io/opendbt/opendbtdocs/ .

Интуиция и опыт подсказывали, что ~150 звёзд это лотерея и стоит ограничить время на эксперименты, но душа желала приключений. И вот как они прошли.

🔸 Вначале оказалось, что документация не обновлена и следование Tutorial ведёт к багу. Исправил у себя и решил сделать свой небольшой вклад в перспективный проект. Pull Request приняли быстро и с благодарностью, что подогрело моё желание по возможности поддержать проект временем.

Затем оказалось, что красивый UI каталог нужно вручную подкладывать в папку взамен index.html по результатам dbt docs generate. И то, чем автор пакета хвалится, нельзя использовать “из коробки”. Покрутил вместе с claude code agent, докинул недостающую команду opendbt docs generate, описал в доке и сделал PR. Его тоже быстро приняли.

🔸 А потом выяснилось то, почему решил написать этот пост. Следующие фичи, заявленные в Readme, не работают вместе:
⁃ user-friendly data catalog
⁃ running multiple projects

То есть вы можете использовать несколько проектов, но в UI мы их вам не покажем. И тут я совершил большую ошибку — подумал “нужно всего лишь добавить выпадающий список для выбора проектов”. Что могло пойти не так?)

😍2❤1⚡1👍1🔥1👏1

16 views10:35

Data Engineering / reposts & drafts

Forwarded from rzv Data Engineering

Как я коммитил в Open-source или опыт затаскивания сырой библиотеки на проект 2/2

🔸 Нагенерить рабочее решение получилось за пару вечеров, и его можно было использовать в проекте. Я делаю PR, обрадовавшись что могу внести первый значимый вклад в проект, что-то новое. Потом делаю ещё несколько итераций, чтобы пройти проверки по линтеру. Всё, тесты проходит, выдыхаю.

Но теперь PR встречают не так радостно, потому что говнокод получился тот ещё (я не спец по frontend/backend), и изменение вышло масштабным. Не буду тебя томить подробным описанием истории каждой правки, получение Approve & Merge заняло 3 недели.

🔸 И вот что я выяснил за это время:
⁃ Оказалось что “маленькая правка” требует изменения backend и frontend на сотни строк кода
⁃ Мне нужно покрыть код тестами, и их AI генерит неплохо
⁃ CI тесты в контейнерах не запускаются, автор впилил костыль для их пропуска, и пара вечеров ушла на починку "инфры для тестов"
⁃ Часть моего кода не поддерживается в python 3.8, с которым автор либы хочет поддерживать совместимость
⁃ Пакеты в текущих тестах устанавливаются через сложную цепочку действий с обходом проверок pip

⁃ Делая “для себя”, я не учёл половину сценариев “что может пойти не так” и не обрабатывал какие-то исключения/выводил непонятные ошибки
⁃ Моя правка привела к потере загрузки “статического html” даже если проект один и его не нужно выбирать, пришлось учесть пожелание автора либы
⁃ Понадобилось несколько итераций чтобы прийти к понятному “интерфейсу конфигурации”
⁃ И на порядок больше итераций, чтобы выпилить лишние настройки, участки кода и оставить работающим только нужное
⁃ Я так и не смог заставить работать добавление переменной через AIRFLOW_VAR_[VAR_NAME]

⁃ Работа пошла в разы быстрее после установки act и запуска Github Actions тестов локально
⁃ AI Agent всеми силами пытается убедить что всё работает, скрывая явные ошибки и увиливая от ответственности
⁃ Если ты волонтёришь в open-source, тебе никто ничего не должен, в том числе отвечать быстро или что-то исправлять за тебя
⁃ Если планируется глобальная правка, нужно сначала ОТКРЫТЬ ISSUE и обсудить подход

🔸 Результат здесь, если тебе интересно посмотреть подробнее: https://github.com/memiiso/opendbt/pull/104
А у тебя есть подобный опыт? Поделись в комментах)

[UI] Add multi-project support for DBT Docs in Airflow by LexxaRRioo · Pull Request #104 · memiiso/opendbt

Multi-Project Support for DBT Docs in Airflow
Summary
This PR adds support for viewing documentation from multiple dbt projects in a single Airflow instance. Users can switch between projects via a...

⚡2😍2👍1🔥1

24 views10:35

Data Engineering / reposts & drafts

Forwarded from A Hillman

Актуальный стек mid_Data_Enginer.pdf

❤1👍1🔥1👏1

23 views19:32

Data Engineering / reposts & drafts

Forwarded from A Hillman

выгрузил у чатаГПТ актуальный стек на 2025 год

🔥2💯2👏1😍1

23 views19:32

Data Engineering / reposts & drafts

Forwarded from Data & IT Career

Актуальный стек mid_Data_Enginer.pdf

ну хз хз хз...

https://chatgpt.com/share/6943db7c-8b58-8009-9dad-95e769a8a761 – вот более похоже)

покажи свой промпт! 😂

😁

Please open Telegram to view this post

VIEW IN TELEGRAM

ChatGPT - Частичное согласие по 2024-2025

ChatGPT helps you get answers, find inspiration, and be more productive.

❤2😍2💯2👏1

24 views19:32

Data Engineering / reposts & drafts

Forwarded from Data & IT Career

Data & IT Career

https://chatgpt.com/share/6943db7c-8b58-8009-9dad-95e769a8a761 – вот более похоже)

я бы ещё только
- добавил бы
- Trino (как modern)
- и Hadoop / Greenplum для РФ (как legacy – кто туда хочет, пч до сих пор популярно, особенно у бигтехов)
- заменил бы всё-таки Terraform на Docker / K8S – всё-таки они приоритетнее
- перенёс бы Airbyte / dlt / etc в "Bonus", пч Data Ingest куча разного бывает – не надо именно эти тулы именно учить, в отличе от остального
- разделил бы Data на рынки РФ / не РФ: пч для первого нужны CH + PG, а для загран – Snowflake/ BQ / Databricks

Airflow и dbt – это просто must-have что для РФ, что для загран!
- это прям самое главное и единое для всех DE во всём мире, кроме нишевых, типа streaming-oriented 😁
- Dagster больше для хипстеров) (хотя у нас на работе он))

Please open Telegram to view this post

VIEW IN TELEGRAM

30 views19:32

Data Engineering / reposts & drafts

Forwarded from A Hillman

Data & IT Career

покажи свой промпт! 😂

не сохранился. Запрашивал срез по вакансиям в ЕС на мидла

31 views19:32

Data Engineering / reposts & drafts

Forwarded from Data & IT Career

не сохранился. Запрашивал срез по вакансиям в ЕС на мидла

кароч, ничо личного: фуфел твой промпт был! 😁

вот я те с норм подписки/контектса (я в GPT много ресёрчу по DE) и норм запроса норм скиллсет подобрал – https://t.iss.one/digitalberd/3134/54677
- я тебе как сеньор говорю 😁

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥2👏2👍1😍1💯1

32 views19:32

Data Engineering / reposts & drafts

Forwarded from Архитектор Данных

Самые быстро развивающиеся продукты мира Data и Streaming

💯3😍2❤1👍1🔥1👏1

32 views12:42