Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
System Design - Теория шардирования. Как масштабировать базы данных
https://youtu.be/d6BtxBKhQoc?si=DPhblrYssQX87MRT
https://youtu.be/d6BtxBKhQoc?si=DPhblrYssQX87MRT
YouTube
System Design - теория шардирования | Как масштабировать базы данных
Курсы по программированию: https://clck.ru/37iG2b
Потренироваться проходить собеседования: https://clck.ru/3C2CY3
Консультации:
https://getmentor.dev/mentor/vladimir-balun-191
https://solvery.io/ru/mentor/vladimir_balun
Таймкоды:
00:00 - План открытого…
Потренироваться проходить собеседования: https://clck.ru/3C2CY3
Консультации:
https://getmentor.dev/mentor/vladimir-balun-191
https://solvery.io/ru/mentor/vladimir_balun
Таймкоды:
00:00 - План открытого…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Data Pipeline Design Patterns - Шаблоны проектирования потоков данных
https://datatalks.ru/data-pipeline-design-patterns/
https://datatalks.ru/data-pipeline-design-patterns/
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Data Pipeline Design Patterns — Шаблоны проектирования потоков данных
Data Pipeline Design Patterns - Шаблоны проектирования потоков данных
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Сегодня, 11 февраля 2025, 17:00
Поднимаем Data Lakehouse на основе Trino в облаке
Для участия требуется регистрация
Программа
▫️Почему топовые мировые и российские IT-компании переходят на архитектуру DLH.
▫️Какие существуют архитектуры DLH и под какие задачи используются.
▫️В каких ситуациях выгоднее разворачивать DLH на собственной инфраструктуре, а когда выгоднее использовать платформу или облако.
▫️Как использование облачного решения от VK Cloud даст гибкость и позволит оперативно расширять инфраструктуру по мере роста потребностей бизнеса.
▫️Как объектное хранилище Cloud Storage (S3) поможет создать экономически выгодную модель хранения данных.
▫️На примере в лайф-режиме покажем различия в стоимости и скорости работы DLH и DWH.
〰〰〰〰〰〰〰〰〰〰
Update: Запись тут https://vkvideo.ru/video-164978780_456239621
Поднимаем Data Lakehouse на основе Trino в облаке
Для участия требуется регистрация
Программа
▫️Почему топовые мировые и российские IT-компании переходят на архитектуру DLH.
▫️Какие существуют архитектуры DLH и под какие задачи используются.
▫️В каких ситуациях выгоднее разворачивать DLH на собственной инфраструктуре, а когда выгоднее использовать платформу или облако.
▫️Как использование облачного решения от VK Cloud даст гибкость и позволит оперативно расширять инфраструктуру по мере роста потребностей бизнеса.
▫️Как объектное хранилище Cloud Storage (S3) поможет создать экономически выгодную модель хранения данных.
▫️На примере в лайф-режиме покажем различия в стоимости и скорости работы DLH и DWH.
〰〰〰〰〰〰〰〰〰〰
Update: Запись тут https://vkvideo.ru/video-164978780_456239621
VK Видео
Поднимаем Data Lakehouse на основе Trino в облаке
11 февраля в 17:00 на вебинаре мы разберём, что такое Data Lakehouse и как эта архитектура объединит преимущества Data Lake и Data Warehouse, упрощая управление, хранения и анализ данных из различных источников в одном месте. Покажем, как новый облачный сервис…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Как работает Apache Iceberg на примере Trino - SmartData 2024
https://youtu.be/hsCtWz8JDRc?si=cX8CmxXB3yGh1rDW
#trino #iceberg
https://youtu.be/hsCtWz8JDRc?si=cX8CmxXB3yGh1rDW
#trino #iceberg
YouTube
Владимир Озеров — Как работает Apache Iceberg на примере Trino
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/pSa4pt
Apache Iceberg — популярный табличный формат для построения современных lakehouse-платформ. В докладе детально рассмотрели архитектуру…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/pSa4pt
Apache Iceberg — популярный табличный формат для построения современных lakehouse-платформ. В докладе детально рассмотрели архитектуру…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
The Agile Data (AD) Method
Описываются принципы, процессы и инструменты, позволяющие быстро и эффективно разрабатывать, изменять и управлять аналитическими решениями. Основное внимание уделяется снижению сложности работы с данными, автоматизации и адаптивности к изменениям.
https://agiledata.org/
Описываются принципы, процессы и инструменты, позволяющие быстро и эффективно разрабатывать, изменять и управлять аналитическими решениями. Основное внимание уделяется снижению сложности работы с данными, автоматизации и адаптивности к изменениям.
https://agiledata.org/
The Agile Data (AD) Method - Strategies for effective data-oriented development
The Agile Data (AD) Method
Agile Data: The increasing pace of change, increasing complexity, and increasing volume of data demands nothing less than complete data agility.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 1 Главы - Введение в хранилища данных
Начало перевода книги "Building a Scalable Data Warehouse with Data Vault 2.0"
https://datatalks.ru/data-vault-2-0-chapter-1-introduction-to-data-warehousing/
#DataVault
Начало перевода книги "Building a Scalable Data Warehouse with Data Vault 2.0"
https://datatalks.ru/data-vault-2-0-chapter-1-introduction-to-data-warehousing/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 1 Главы — Введение в хранилища данных
Перевод 1 Главы - Введение в хранилища данных
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 2 Главы - Масштабируемая архитектура хранилища данных
Введение в архитектуру Data Vault 2.0 без детальных подробностей.
https://datatalks.ru/data-vault-2-0-chapter-2-scalable-data-warehouse-architecture/
#DataVault
Введение в архитектуру Data Vault 2.0 без детальных подробностей.
https://datatalks.ru/data-vault-2-0-chapter-2-scalable-data-warehouse-architecture/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 2 Главы — Масштабируемая архитектура хранилища данных
Перевод 2 Главы - Масштабируемая архитектура хранилища данных Data Vault 2.0
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Как быстро запустить процесс ведения каталога данных в компании. Пример DataHub - доклад Журавлевой Натальи на SmartData 2024
https://youtu.be/nCt4gYVQdqc?si=YUpGIqHB5SqCddrH
https://youtu.be/nCt4gYVQdqc?si=YUpGIqHB5SqCddrH
YouTube
Наталья Журавлева — Как быстро запустить процесс ведения каталога данных в компании. Пример DataHub
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/YPFuf5
Проблема: данных становится слишком много. Вы знаете, что вам нужен каталог данных, но не знаете, с чего начать и как реализовать инструмент…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/YPFuf5
Проблема: данных становится слишком много. Вы знаете, что вам нужен каталог данных, но не знаете, с чего начать и как реализовать инструмент…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Пример создания DWH по Kimball с применением dbt
Build a Data Warehouse with dbt using Kimball’s dimensional modeling | by Haq Nawaz | Dev Genius
https://blog.devgenius.io/build-a-data-warehouse-with-dbt-using-kimballs-dimensional-modeling-59ea9bfae59f
GitHub: dbt build a datawarehouse using dimensional modeling
https://github.com/hnawaz007/dbt-dw
Build a Data Warehouse with dbt using Kimball’s dimensional modeling | by Haq Nawaz | Dev Genius
https://blog.devgenius.io/build-a-data-warehouse-with-dbt-using-kimballs-dimensional-modeling-59ea9bfae59f
GitHub: dbt build a datawarehouse using dimensional modeling
https://github.com/hnawaz007/dbt-dw
Medium
Build a Data Warehouse with dbt using Kimball’s dimensional modeling
using dbt, SQL, SQL Server, Postgres
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SmartData 2024: От хайпа до продакшена: data mesh на Airflow + dbt
https://youtu.be/OT-Sx-bd-6k?si=MG0kbWWjZIXwR2nm
https://youtu.be/OT-Sx-bd-6k?si=MG0kbWWjZIXwR2nm
YouTube
Никита Юрасов, Леонид Кожинов — От хайпа до продакшена: data mesh на Airflow + dbt
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/MnC8LZ
Обещанного три года ждут, а toloka.ai опережает поставленные сроки: год назад спикеры рассказывали про подход к интеграции dbt и Airflow…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/MnC8LZ
Обещанного три года ждут, а toloka.ai опережает поставленные сроки: год назад спикеры рассказывали про подход к интеграции dbt и Airflow…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 3 Главы - Методология Data Vault 2.0
Подробное описание методологии Data Vault 2.0, больше с точки зрения управления проектами.
https://datatalks.ru/chapter-3-data-vault-2-0-methodology/
#DataVault
Подробное описание методологии Data Vault 2.0, больше с точки зрения управления проектами.
https://datatalks.ru/chapter-3-data-vault-2-0-methodology/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 3 Главы — Методология Data Vault 2.0
Перевод 3 Главы - Методология Data Vault 2.0
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SoftwareMill Kafka Visualization
Визуально можно увидеть, как работает кафка.
https://softwaremill.com/kafka-visualisation/
И дополнительно статья, описывающая инструмент
https://habr.com/ru/articles/865120/
#kafka
Визуально можно увидеть, как работает кафка.
https://softwaremill.com/kafka-visualisation/
И дополнительно статья, описывающая инструмент
https://habr.com/ru/articles/865120/
#kafka
Softwaremill
SoftwareMill Kafka Visualization
Using the Kafka Visualization tool you can simulate how data flows through a replicated Kafka topic, to gain a better understanding of the message processing model.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 4 Главы - Моделирование Data Vault 2.0
https://datatalks.ru/chapter-4-data-vault-2-0-modeling/
#DataVault
В этой главе рассматриваются сущности, используемые в моделировании Data Vault, включая хабы (Hubs), линки/связи (Links) и сателлиты (Satellites). Показано, как идентифицировать бизнес-ключи в исходных данных и связывать их с другими бизнес-ключами в Data Vault с помощью линк-сущностей. Также рассмотрено, как выделять дополнительные атрибуты из исходных данных и моделировать их в виде сателлитных сущностей.https://datatalks.ru/chapter-4-data-vault-2-0-modeling/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 4 Главы — Моделирование Data Vault 2.0 — Что такое Hub / Link / Satellite?
Перевод 4 Главы - Моделирование Data Vault 2.0 - Что такое Hub / Link / Satellite? Data Vault модель данных data warehouse DDS. Примеры. Книга
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SmartData 2024 "dbt в деле: реальные кейсы и лайфхаки (Антон Александров)"
https://youtu.be/RV5ZSMcwm9w?si=BDSx3q8h0gb_ZQTX
Презентация
https://youtu.be/RV5ZSMcwm9w?si=BDSx3q8h0gb_ZQTX
Презентация
YouTube
Антон Александров — dbt в деле: реальные кейсы и лайфхаки
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/8i0yvb
В 2022 году компания «Детский мир» столкнулась с резким увеличением объема витрин данных, что привело к многочисленным техническим…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/8i0yvb
В 2022 году компания «Детский мир» столкнулась с резким увеличением объема витрин данных, что привело к многочисленным техническим…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Введение в Apache Iceberg. Основы, архитектура, как работает?
Накидал базовую статейку по айсбергу. Часть материала - конспект из книги "Apache Iceberg Полное руководство" - всем, кто планирует работать с этой технологией, советую прочитать.
https://ivan-shamaev.ru/apache-iceberg-tutorial-architecture-how-to-work/
#iceberg #trino #parquet #lakehouse
Накидал базовую статейку по айсбергу. Часть материала - конспект из книги "Apache Iceberg Полное руководство" - всем, кто планирует работать с этой технологией, советую прочитать.
https://ivan-shamaev.ru/apache-iceberg-tutorial-architecture-how-to-work/
#iceberg #trino #parquet #lakehouse
Персональный блог Data Engineer | Ex-TeamLead BI Developer
Введение в Apache Iceberg. Основы, архитектура, как работает?
Введение в Apache Iceberg. Основы. Архитектура. Как работает и внутреннее устройство. Полное руководство, обучение, курс для Data Engineer
💯2
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SmartData 2024: Валентин Пановский - Как кролик съел зелёную сливу и не умер: сказ о миграции на Iceberg
Процесс миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object Storage).
https://youtu.be/YWD7WcfFfk8?si=Meqb8QIAsCQa4D8X
#trino #apacheiceberg
Процесс миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object Storage).
https://youtu.be/YWD7WcfFfk8?si=Meqb8QIAsCQa4D8X
#trino #apacheiceberg
YouTube
Валентин Пановский — Как кролик съел зеленую сливу и не умер: сказ о миграции на Iceberg
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/t0xTmS
Спикер рассказал о процессе миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/t0xTmS
Спикер рассказал о процессе миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object…
❤1
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 5 главы из книги "Building a Scalable Data Warehouse with Data Vault 2.0"
https://datatalks.ru/data-vault-chapter-5-intermediate-data-vault-modeling/
#DataVault
https://datatalks.ru/data-vault-chapter-5-intermediate-data-vault-modeling/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 5 Главы — Intermediate Моделирование Data Vault
❤1🔥1
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 6 Главы - Продвинутое моделирование Data Vault 2.0 - Advanced Data Vault Modeling
Рассмотрено использование PIT- и Bridge-таблиц
https://datatalks.ru/chapter-6-data-vault-advanced-data-vault-modeling/
#DataVault
Рассмотрено использование PIT- и Bridge-таблиц
https://datatalks.ru/chapter-6-data-vault-advanced-data-vault-modeling/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 6 Главы — Продвинутое моделирование Data Vault 2.0 — Advanced Data Vault Modeling
Перевод 6 Главы Продвинутое моделирование Advanced Data Vault Modeling. Книга "Building a Scalable Data Warehouse with Data Vault 2.0"
👏1
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
⚡️🔗 Большая подборка GitHub проектов с Data Vault примерами и тулзами
1️⃣ Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses.
👉🏻 https://github.com/Datavault-UK/automate-dv - Инструмент
👉🏻 https://github.com/Datavault-UK/automate-dv-demo - An example dbt project using AutomateDV to create a Data Vault 2.0 Data Warehouse based on the Snowflake TPC-H dataset.
👉🏻 https://automate-dv.readthedocs.io/en/latest/ - описание dbt package.
2️⃣ CarlTimms/Data-Vault-Example-Northwind: An example Data Vault 2.0 data warehouse modelling Microsoft's Northwind sample database.
👉🏻 https://github.com/CarlTimms/Data-Vault-Example-Northwind
3️⃣ ScalefreeCOM/datavault4dbt: Scalefree's dbt package for a Data Vault 2.0 implementation congruent to the original Data Vault 2.0 definition by Dan Linstedt including the Staging Area, DV2.0 main entities, PITs and Snapshot Tables.
👉🏻 https://github.com/ScalefreeCOM/datavault4dbt
4️⃣ Brezencat/dwh-data-vault: Построение DWH по методологии Data Vault (с модификациями).
👉🏻 https://github.com/Brezencat/dwh-data-vault
5️⃣ nshcode/data-vault-modeling: The repository contains the SQL scripts for creating a Data Vault model for a PostgreSQL demo database
👉🏻 https://github.com/nshcode/data-vault-modeling
6️⃣ gtoonstra/etl-with-airflow: Здесь есть пример автоматизации Data Vault 2.0 на Airflow + dbt
👉🏻 https://github.com/gtoonstra/etl-with-airflow
7️⃣ 👉🏻 https://t.iss.one/data_engineer_path/322 - ссылка на пост с DataVault репозиторием и другими материалами.
8️⃣ fang360/data-vault: This project is designed to store data from 2 different studies with python and PostgreSQL.
👉🏻 https://github.com/fang360/data-vault
9️⃣ MarinaZenkova/DataVault: Docker-compose to build a Data Vault from Adventureworks
👉🏻 https://github.com/MarinaZenkova/DataVault
1️⃣0️⃣ infinitelambda/dq-vault: Data Quality Observation of Data Vault layer
👉🏻 https://github.com/infinitelambda/dq-vault
1️⃣1️⃣ AdventureWorks/DataVault/DanLinstedt: ddl, sql, ER diagram
👉🏻 https://github.com/cjheath/AdventureWorks/tree/master/DataVault/DanLinstedt
1️⃣2️⃣ cimt-ag/data_vault_pipelinedescription: A concept and syntax to provide a universal data format, for storing all essential informations, that are needed to implement or generate a data loading process for a data vault model.
👉🏻 https://github.com/cimt-ag/data_vault_pipelinedescription
🏁 Ну и напоследок, полезная библиотечка datnguye/dbterd, которая позволяет генерировать ERD as a code из dbt проектов
🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
#DataVault
Channel: @data_engineer_path
1️⃣ Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses.
👉🏻 https://github.com/Datavault-UK/automate-dv - Инструмент
👉🏻 https://github.com/Datavault-UK/automate-dv-demo - An example dbt project using AutomateDV to create a Data Vault 2.0 Data Warehouse based on the Snowflake TPC-H dataset.
👉🏻 https://automate-dv.readthedocs.io/en/latest/ - описание dbt package.
2️⃣ CarlTimms/Data-Vault-Example-Northwind: An example Data Vault 2.0 data warehouse modelling Microsoft's Northwind sample database.
👉🏻 https://github.com/CarlTimms/Data-Vault-Example-Northwind
3️⃣ ScalefreeCOM/datavault4dbt: Scalefree's dbt package for a Data Vault 2.0 implementation congruent to the original Data Vault 2.0 definition by Dan Linstedt including the Staging Area, DV2.0 main entities, PITs and Snapshot Tables.
👉🏻 https://github.com/ScalefreeCOM/datavault4dbt
4️⃣ Brezencat/dwh-data-vault: Построение DWH по методологии Data Vault (с модификациями).
👉🏻 https://github.com/Brezencat/dwh-data-vault
5️⃣ nshcode/data-vault-modeling: The repository contains the SQL scripts for creating a Data Vault model for a PostgreSQL demo database
👉🏻 https://github.com/nshcode/data-vault-modeling
6️⃣ gtoonstra/etl-with-airflow: Здесь есть пример автоматизации Data Vault 2.0 на Airflow + dbt
👉🏻 https://github.com/gtoonstra/etl-with-airflow
7️⃣ 👉🏻 https://t.iss.one/data_engineer_path/322 - ссылка на пост с DataVault репозиторием и другими материалами.
8️⃣ fang360/data-vault: This project is designed to store data from 2 different studies with python and PostgreSQL.
👉🏻 https://github.com/fang360/data-vault
9️⃣ MarinaZenkova/DataVault: Docker-compose to build a Data Vault from Adventureworks
👉🏻 https://github.com/MarinaZenkova/DataVault
1️⃣0️⃣ infinitelambda/dq-vault: Data Quality Observation of Data Vault layer
👉🏻 https://github.com/infinitelambda/dq-vault
1️⃣1️⃣ AdventureWorks/DataVault/DanLinstedt: ddl, sql, ER diagram
👉🏻 https://github.com/cjheath/AdventureWorks/tree/master/DataVault/DanLinstedt
1️⃣2️⃣ cimt-ag/data_vault_pipelinedescription: A concept and syntax to provide a universal data format, for storing all essential informations, that are needed to implement or generate a data loading process for a data vault model.
👉🏻 https://github.com/cimt-ag/data_vault_pipelinedescription
🏁 Ну и напоследок, полезная библиотечка datnguye/dbterd, которая позволяет генерировать ERD as a code из dbt проектов
🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸🔸
#DataVault
Channel: @data_engineer_path
GitHub
GitHub - Datavault-UK/automate-dv: A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses…
A free to use dbt package for creating and loading Data Vault 2.0 compliant Data Warehouses (powered by dbt, an open source data engineering tool, registered trademark of dbt Labs) - Datavault-UK/...
👍1🔥1😍1
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 7 Главы - Dimensional Modeling (Data Vault 2.0)
https://datatalks.ru/chapter-7-data-vault-2-0-dimensional-modeling/
#DataVault #DimensionalModeling
https://datatalks.ru/chapter-7-data-vault-2-0-dimensional-modeling/
#DataVault #DimensionalModeling
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 7 Главы — Dimensional Modeling (Data Vault 2.0)
Перевод 7 Главы - Dimensional Modeling (Data Vault 2.0)
👍1🔥1😍1