Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Data Engineering Handbook
Сайт: https://karlchris.github.io/data-engineering/
GitHub: https://github.com/karlchris/data-engineering/tree/master
Разделы:
▫️Projects
▫️Data Engineering
▫️Data Modeling
▫️Data Ingestion
▫️Data Architecture
▫️Data Orchestration
▫️Data Processing
▫️Data Quality
▫️Python
Сайт: https://karlchris.github.io/data-engineering/
GitHub: https://github.com/karlchris/data-engineering/tree/master
Разделы:
▫️Projects
▫️Data Engineering
▫️Data Modeling
▫️Data Ingestion
▫️Data Architecture
▫️Data Orchestration
▫️Data Processing
▫️Data Quality
▫️Python
karlchris.github.io
Data Engineering Works
All you need to know about Data Engineering, Data Warehousing and Data Platform.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Создание архитектуры Medallion с помощью ClickHouse
https://datatalks.ru/medallion-architecture-with-clickhouse/
#ClickHouse #Medallion
https://datatalks.ru/medallion-architecture-with-clickhouse/
#ClickHouse #Medallion
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Создание архитектуры Medallion с помощью ClickHouse
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Database Sharding — PlanetScale
Интересный сайт про шардированию, понравились интерактивные схемы.
https://planetscale.com/blog/database-sharding
Интересный сайт про шардированию, понравились интерактивные схемы.
https://planetscale.com/blog/database-sharding
Planetscale
Database Sharding — PlanetScale
Learn about the database sharding scaling pattern in this interactive blog.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Эволюция архитектур платформы данных- Евгений Ермаков
https://youtu.be/EvefrwYmOn0?si=0IkudCSOSRtMMHyy
https://youtu.be/EvefrwYmOn0?si=0IkudCSOSRtMMHyy
YouTube
Евгений Ермаков — Эволюция архитектур платформы данных
Подробнее о фестивале TechTrain: https://jrg.su/YR8JKw
— —
Во всем мире компании из самых разных отраслей вкладывают средства в анализ своих данных, в создание эффективных стратегий обработки данных и построение платформ данных. По некоторым оценкам к 2030…
— —
Во всем мире компании из самых разных отраслей вкладывают средства в анализ своих данных, в создание эффективных стратегий обработки данных и построение платформ данных. По некоторым оценкам к 2030…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
How I Built This Data Platform in One Week | by Dorian Teffo | DataDrivenInvestor
Airflow + Cosmos + DBT
https://medium.datadriveninvestor.com/how-i-built-this-data-platform-in-one-week-13b457d7c323
https://medium.datadriveninvestor.com/how-i-built-this-data-platform-in-one-week-13b457d7c323
Medium
How I Built This Data Platform in One Week
This will certainly be my longest project (and the most expensive, so please like and comment), as well as my longest blog post. But…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
How we orchestrate 2000+ DBT models in Apache Airflow | by Alexandre Magno Lima Martins | Apache Airflow | Medium
Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.
Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.
https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d
Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.
Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.
https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d
Medium
How we orchestrate 2000+ DBT models in Apache Airflow
In recent years, DBT (Data Build Tool) has established itself as the go-to data transformation workflow, connecting to a variety of…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
System Design - Теория шардирования. Как масштабировать базы данных
https://youtu.be/d6BtxBKhQoc?si=DPhblrYssQX87MRT
https://youtu.be/d6BtxBKhQoc?si=DPhblrYssQX87MRT
YouTube
System Design - теория шардирования | Как масштабировать базы данных
Курсы по программированию: https://clck.ru/37iG2b
Потренироваться проходить собеседования: https://clck.ru/3C2CY3
Консультации:
https://getmentor.dev/mentor/vladimir-balun-191
https://solvery.io/ru/mentor/vladimir_balun
Таймкоды:
00:00 - План открытого…
Потренироваться проходить собеседования: https://clck.ru/3C2CY3
Консультации:
https://getmentor.dev/mentor/vladimir-balun-191
https://solvery.io/ru/mentor/vladimir_balun
Таймкоды:
00:00 - План открытого…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Data Pipeline Design Patterns - Шаблоны проектирования потоков данных
https://datatalks.ru/data-pipeline-design-patterns/
https://datatalks.ru/data-pipeline-design-patterns/
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Data Pipeline Design Patterns — Шаблоны проектирования потоков данных
Data Pipeline Design Patterns - Шаблоны проектирования потоков данных
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Сегодня, 11 февраля 2025, 17:00
Поднимаем Data Lakehouse на основе Trino в облаке
Для участия требуется регистрация
Программа
▫️Почему топовые мировые и российские IT-компании переходят на архитектуру DLH.
▫️Какие существуют архитектуры DLH и под какие задачи используются.
▫️В каких ситуациях выгоднее разворачивать DLH на собственной инфраструктуре, а когда выгоднее использовать платформу или облако.
▫️Как использование облачного решения от VK Cloud даст гибкость и позволит оперативно расширять инфраструктуру по мере роста потребностей бизнеса.
▫️Как объектное хранилище Cloud Storage (S3) поможет создать экономически выгодную модель хранения данных.
▫️На примере в лайф-режиме покажем различия в стоимости и скорости работы DLH и DWH.
〰〰〰〰〰〰〰〰〰〰
Update: Запись тут https://vkvideo.ru/video-164978780_456239621
Поднимаем Data Lakehouse на основе Trino в облаке
Для участия требуется регистрация
Программа
▫️Почему топовые мировые и российские IT-компании переходят на архитектуру DLH.
▫️Какие существуют архитектуры DLH и под какие задачи используются.
▫️В каких ситуациях выгоднее разворачивать DLH на собственной инфраструктуре, а когда выгоднее использовать платформу или облако.
▫️Как использование облачного решения от VK Cloud даст гибкость и позволит оперативно расширять инфраструктуру по мере роста потребностей бизнеса.
▫️Как объектное хранилище Cloud Storage (S3) поможет создать экономически выгодную модель хранения данных.
▫️На примере в лайф-режиме покажем различия в стоимости и скорости работы DLH и DWH.
〰〰〰〰〰〰〰〰〰〰
Update: Запись тут https://vkvideo.ru/video-164978780_456239621
VK Видео
Поднимаем Data Lakehouse на основе Trino в облаке
11 февраля в 17:00 на вебинаре мы разберём, что такое Data Lakehouse и как эта архитектура объединит преимущества Data Lake и Data Warehouse, упрощая управление, хранения и анализ данных из различных источников в одном месте. Покажем, как новый облачный сервис…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Как работает Apache Iceberg на примере Trino - SmartData 2024
https://youtu.be/hsCtWz8JDRc?si=cX8CmxXB3yGh1rDW
#trino #iceberg
https://youtu.be/hsCtWz8JDRc?si=cX8CmxXB3yGh1rDW
#trino #iceberg
YouTube
Владимир Озеров — Как работает Apache Iceberg на примере Trino
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/pSa4pt
Apache Iceberg — популярный табличный формат для построения современных lakehouse-платформ. В докладе детально рассмотрели архитектуру…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/pSa4pt
Apache Iceberg — популярный табличный формат для построения современных lakehouse-платформ. В докладе детально рассмотрели архитектуру…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
The Agile Data (AD) Method
Описываются принципы, процессы и инструменты, позволяющие быстро и эффективно разрабатывать, изменять и управлять аналитическими решениями. Основное внимание уделяется снижению сложности работы с данными, автоматизации и адаптивности к изменениям.
https://agiledata.org/
Описываются принципы, процессы и инструменты, позволяющие быстро и эффективно разрабатывать, изменять и управлять аналитическими решениями. Основное внимание уделяется снижению сложности работы с данными, автоматизации и адаптивности к изменениям.
https://agiledata.org/
The Agile Data (AD) Method - Strategies for effective data-oriented development
The Agile Data (AD) Method
Agile Data: The increasing pace of change, increasing complexity, and increasing volume of data demands nothing less than complete data agility.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 1 Главы - Введение в хранилища данных
Начало перевода книги "Building a Scalable Data Warehouse with Data Vault 2.0"
https://datatalks.ru/data-vault-2-0-chapter-1-introduction-to-data-warehousing/
#DataVault
Начало перевода книги "Building a Scalable Data Warehouse with Data Vault 2.0"
https://datatalks.ru/data-vault-2-0-chapter-1-introduction-to-data-warehousing/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 1 Главы — Введение в хранилища данных
Перевод 1 Главы - Введение в хранилища данных
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 2 Главы - Масштабируемая архитектура хранилища данных
Введение в архитектуру Data Vault 2.0 без детальных подробностей.
https://datatalks.ru/data-vault-2-0-chapter-2-scalable-data-warehouse-architecture/
#DataVault
Введение в архитектуру Data Vault 2.0 без детальных подробностей.
https://datatalks.ru/data-vault-2-0-chapter-2-scalable-data-warehouse-architecture/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 2 Главы — Масштабируемая архитектура хранилища данных
Перевод 2 Главы - Масштабируемая архитектура хранилища данных Data Vault 2.0
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Как быстро запустить процесс ведения каталога данных в компании. Пример DataHub - доклад Журавлевой Натальи на SmartData 2024
https://youtu.be/nCt4gYVQdqc?si=YUpGIqHB5SqCddrH
https://youtu.be/nCt4gYVQdqc?si=YUpGIqHB5SqCddrH
YouTube
Наталья Журавлева — Как быстро запустить процесс ведения каталога данных в компании. Пример DataHub
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/YPFuf5
Проблема: данных становится слишком много. Вы знаете, что вам нужен каталог данных, но не знаете, с чего начать и как реализовать инструмент…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/YPFuf5
Проблема: данных становится слишком много. Вы знаете, что вам нужен каталог данных, но не знаете, с чего начать и как реализовать инструмент…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Пример создания DWH по Kimball с применением dbt
Build a Data Warehouse with dbt using Kimball’s dimensional modeling | by Haq Nawaz | Dev Genius
https://blog.devgenius.io/build-a-data-warehouse-with-dbt-using-kimballs-dimensional-modeling-59ea9bfae59f
GitHub: dbt build a datawarehouse using dimensional modeling
https://github.com/hnawaz007/dbt-dw
Build a Data Warehouse with dbt using Kimball’s dimensional modeling | by Haq Nawaz | Dev Genius
https://blog.devgenius.io/build-a-data-warehouse-with-dbt-using-kimballs-dimensional-modeling-59ea9bfae59f
GitHub: dbt build a datawarehouse using dimensional modeling
https://github.com/hnawaz007/dbt-dw
Medium
Build a Data Warehouse with dbt using Kimball’s dimensional modeling
using dbt, SQL, SQL Server, Postgres
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SmartData 2024: От хайпа до продакшена: data mesh на Airflow + dbt
https://youtu.be/OT-Sx-bd-6k?si=MG0kbWWjZIXwR2nm
https://youtu.be/OT-Sx-bd-6k?si=MG0kbWWjZIXwR2nm
YouTube
Никита Юрасов, Леонид Кожинов — От хайпа до продакшена: data mesh на Airflow + dbt
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/MnC8LZ
Обещанного три года ждут, а toloka.ai опережает поставленные сроки: год назад спикеры рассказывали про подход к интеграции dbt и Airflow…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/MnC8LZ
Обещанного три года ждут, а toloka.ai опережает поставленные сроки: год назад спикеры рассказывали про подход к интеграции dbt и Airflow…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 3 Главы - Методология Data Vault 2.0
Подробное описание методологии Data Vault 2.0, больше с точки зрения управления проектами.
https://datatalks.ru/chapter-3-data-vault-2-0-methodology/
#DataVault
Подробное описание методологии Data Vault 2.0, больше с точки зрения управления проектами.
https://datatalks.ru/chapter-3-data-vault-2-0-methodology/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 3 Главы — Методология Data Vault 2.0
Перевод 3 Главы - Методология Data Vault 2.0
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SoftwareMill Kafka Visualization
Визуально можно увидеть, как работает кафка.
https://softwaremill.com/kafka-visualisation/
И дополнительно статья, описывающая инструмент
https://habr.com/ru/articles/865120/
#kafka
Визуально можно увидеть, как работает кафка.
https://softwaremill.com/kafka-visualisation/
И дополнительно статья, описывающая инструмент
https://habr.com/ru/articles/865120/
#kafka
Softwaremill
SoftwareMill Kafka Visualization
Using the Kafka Visualization tool you can simulate how data flows through a replicated Kafka topic, to gain a better understanding of the message processing model.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 4 Главы - Моделирование Data Vault 2.0
https://datatalks.ru/chapter-4-data-vault-2-0-modeling/
#DataVault
В этой главе рассматриваются сущности, используемые в моделировании Data Vault, включая хабы (Hubs), линки/связи (Links) и сателлиты (Satellites). Показано, как идентифицировать бизнес-ключи в исходных данных и связывать их с другими бизнес-ключами в Data Vault с помощью линк-сущностей. Также рассмотрено, как выделять дополнительные атрибуты из исходных данных и моделировать их в виде сателлитных сущностей.https://datatalks.ru/chapter-4-data-vault-2-0-modeling/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 4 Главы — Моделирование Data Vault 2.0 — Что такое Hub / Link / Satellite?
Перевод 4 Главы - Моделирование Data Vault 2.0 - Что такое Hub / Link / Satellite? Data Vault модель данных data warehouse DDS. Примеры. Книга
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SmartData 2024 "dbt в деле: реальные кейсы и лайфхаки (Антон Александров)"
https://youtu.be/RV5ZSMcwm9w?si=BDSx3q8h0gb_ZQTX
Презентация
https://youtu.be/RV5ZSMcwm9w?si=BDSx3q8h0gb_ZQTX
Презентация
YouTube
Антон Александров — dbt в деле: реальные кейсы и лайфхаки
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/8i0yvb
В 2022 году компания «Детский мир» столкнулась с резким увеличением объема витрин данных, что привело к многочисленным техническим…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/8i0yvb
В 2022 году компания «Детский мир» столкнулась с резким увеличением объема витрин данных, что привело к многочисленным техническим…