Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 2 главы "Моделирование данных для аналитики (dbt)"
https://datatalks.ru/dbt-data-modeling-for-analytics/
#dbt
https://datatalks.ru/dbt-data-modeling-for-analytics/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 2 главы «Моделирование данных для аналитики (dbt)»
Перевод 2 главы "Моделирование данных для аналитики" книги Analytics Engineering with sql and dbt. Модели данных Звезда, Снежинка Data Vault
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
data load tool (dlt) is an open source Python library that makes data loading easy 🛠️
🔹Автоматическая схема: проверка структуры данных и создание схемы для места назначения.
🔹 Нормализация данных: согласованные и проверенные данные перед загрузкой.
🔹Полная интеграция: Colab, AWS Lambda, Airflow и локальные среды.
🔹Масштабируемость: адаптируется к растущим потребностям в данных в производстве.
🔹Простота обслуживания: понятная структура конвейера данных для обновлений.
🔹Быстрое исследование: быстрое исследование и получение информации из новых источников данных.
🔹Универсальное использование: подходит для несистематических исследований и создания сложных погрузочных инфраструктур.
🔹Начните работу за считанные секунды с помощью CLI: Мощный CLI для управления, развертывания и проверки локальных pipelines.
🔹Поэтапная загрузка: загружайте только новые или измененные данные и избегайте повторной загрузки старых записей.
🔹Открытый исходный код: бесплатно и под лицензией Apache 2.0.
https://github.com/dlt-hub/dlt
🔹Автоматическая схема: проверка структуры данных и создание схемы для места назначения.
🔹 Нормализация данных: согласованные и проверенные данные перед загрузкой.
🔹Полная интеграция: Colab, AWS Lambda, Airflow и локальные среды.
🔹Масштабируемость: адаптируется к растущим потребностям в данных в производстве.
🔹Простота обслуживания: понятная структура конвейера данных для обновлений.
🔹Быстрое исследование: быстрое исследование и получение информации из новых источников данных.
🔹Универсальное использование: подходит для несистематических исследований и создания сложных погрузочных инфраструктур.
🔹Начните работу за считанные секунды с помощью CLI: Мощный CLI для управления, развертывания и проверки локальных pipelines.
🔹Поэтапная загрузка: загружайте только новые или измененные данные и избегайте повторной загрузки старых записей.
🔹Открытый исходный код: бесплатно и под лицензией Apache 2.0.
https://github.com/dlt-hub/dlt
GitHub
GitHub - dlt-hub/dlt: data load tool (dlt) is an open source Python library that makes data loading easy 🛠️
data load tool (dlt) is an open source Python library that makes data loading easy 🛠️ - GitHub - dlt-hub/dlt: data load tool (dlt) is an open source Python library that makes data loading easy 🛠️
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Проектирование DWH. Data Modeling. Kimball, Data Vault 2.0, Anchor Modeling
https://ivan-shamaev.ru/data-modeling-dwh-kimball-scd-types-data-vault-2-anchor-modeling/
#DataVault
https://ivan-shamaev.ru/data-modeling-dwh-kimball-scd-types-data-vault-2-anchor-modeling/
#DataVault
Персональный блог Data Engineer | Ex-TeamLead BI Developer
Проектирование DWH. Data Modeling. Kimball, Data Vault 2.0, Anchor Modeling
Проектирование DWH. Data Modeling. Kimball Data Vault 2.0 Anchor Modeling
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Data Engineering Handbook
Сайт: https://karlchris.github.io/data-engineering/
GitHub: https://github.com/karlchris/data-engineering/tree/master
Разделы:
▫️Projects
▫️Data Engineering
▫️Data Modeling
▫️Data Ingestion
▫️Data Architecture
▫️Data Orchestration
▫️Data Processing
▫️Data Quality
▫️Python
Сайт: https://karlchris.github.io/data-engineering/
GitHub: https://github.com/karlchris/data-engineering/tree/master
Разделы:
▫️Projects
▫️Data Engineering
▫️Data Modeling
▫️Data Ingestion
▫️Data Architecture
▫️Data Orchestration
▫️Data Processing
▫️Data Quality
▫️Python
karlchris.github.io
Data Engineering Works
All you need to know about Data Engineering, Data Warehousing and Data Platform.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Создание архитектуры Medallion с помощью ClickHouse
https://datatalks.ru/medallion-architecture-with-clickhouse/
#ClickHouse #Medallion
https://datatalks.ru/medallion-architecture-with-clickhouse/
#ClickHouse #Medallion
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Создание архитектуры Medallion с помощью ClickHouse
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Database Sharding — PlanetScale
Интересный сайт про шардированию, понравились интерактивные схемы.
https://planetscale.com/blog/database-sharding
Интересный сайт про шардированию, понравились интерактивные схемы.
https://planetscale.com/blog/database-sharding
Planetscale
Database Sharding — PlanetScale
Learn about the database sharding scaling pattern in this interactive blog.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Эволюция архитектур платформы данных- Евгений Ермаков
https://youtu.be/EvefrwYmOn0?si=0IkudCSOSRtMMHyy
https://youtu.be/EvefrwYmOn0?si=0IkudCSOSRtMMHyy
YouTube
Евгений Ермаков — Эволюция архитектур платформы данных
Подробнее о фестивале TechTrain: https://jrg.su/YR8JKw
— —
Во всем мире компании из самых разных отраслей вкладывают средства в анализ своих данных, в создание эффективных стратегий обработки данных и построение платформ данных. По некоторым оценкам к 2030…
— —
Во всем мире компании из самых разных отраслей вкладывают средства в анализ своих данных, в создание эффективных стратегий обработки данных и построение платформ данных. По некоторым оценкам к 2030…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
How I Built This Data Platform in One Week | by Dorian Teffo | DataDrivenInvestor
Airflow + Cosmos + DBT
https://medium.datadriveninvestor.com/how-i-built-this-data-platform-in-one-week-13b457d7c323
https://medium.datadriveninvestor.com/how-i-built-this-data-platform-in-one-week-13b457d7c323
Medium
How I Built This Data Platform in One Week
This will certainly be my longest project (and the most expensive, so please like and comment), as well as my longest blog post. But…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
How we orchestrate 2000+ DBT models in Apache Airflow | by Alexandre Magno Lima Martins | Apache Airflow | Medium
Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.
Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.
https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d
Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.
Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.
https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d
Medium
How we orchestrate 2000+ DBT models in Apache Airflow
In recent years, DBT (Data Build Tool) has established itself as the go-to data transformation workflow, connecting to a variety of…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
System Design - Теория шардирования. Как масштабировать базы данных
https://youtu.be/d6BtxBKhQoc?si=DPhblrYssQX87MRT
https://youtu.be/d6BtxBKhQoc?si=DPhblrYssQX87MRT
YouTube
System Design - теория шардирования | Как масштабировать базы данных
Курсы по программированию: https://clck.ru/37iG2b
Потренироваться проходить собеседования: https://clck.ru/3C2CY3
Консультации:
https://getmentor.dev/mentor/vladimir-balun-191
https://solvery.io/ru/mentor/vladimir_balun
Таймкоды:
00:00 - План открытого…
Потренироваться проходить собеседования: https://clck.ru/3C2CY3
Консультации:
https://getmentor.dev/mentor/vladimir-balun-191
https://solvery.io/ru/mentor/vladimir_balun
Таймкоды:
00:00 - План открытого…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Data Pipeline Design Patterns - Шаблоны проектирования потоков данных
https://datatalks.ru/data-pipeline-design-patterns/
https://datatalks.ru/data-pipeline-design-patterns/
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Data Pipeline Design Patterns — Шаблоны проектирования потоков данных
Data Pipeline Design Patterns - Шаблоны проектирования потоков данных
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Сегодня, 11 февраля 2025, 17:00
Поднимаем Data Lakehouse на основе Trino в облаке
Для участия требуется регистрация
Программа
▫️Почему топовые мировые и российские IT-компании переходят на архитектуру DLH.
▫️Какие существуют архитектуры DLH и под какие задачи используются.
▫️В каких ситуациях выгоднее разворачивать DLH на собственной инфраструктуре, а когда выгоднее использовать платформу или облако.
▫️Как использование облачного решения от VK Cloud даст гибкость и позволит оперативно расширять инфраструктуру по мере роста потребностей бизнеса.
▫️Как объектное хранилище Cloud Storage (S3) поможет создать экономически выгодную модель хранения данных.
▫️На примере в лайф-режиме покажем различия в стоимости и скорости работы DLH и DWH.
〰〰〰〰〰〰〰〰〰〰
Update: Запись тут https://vkvideo.ru/video-164978780_456239621
Поднимаем Data Lakehouse на основе Trino в облаке
Для участия требуется регистрация
Программа
▫️Почему топовые мировые и российские IT-компании переходят на архитектуру DLH.
▫️Какие существуют архитектуры DLH и под какие задачи используются.
▫️В каких ситуациях выгоднее разворачивать DLH на собственной инфраструктуре, а когда выгоднее использовать платформу или облако.
▫️Как использование облачного решения от VK Cloud даст гибкость и позволит оперативно расширять инфраструктуру по мере роста потребностей бизнеса.
▫️Как объектное хранилище Cloud Storage (S3) поможет создать экономически выгодную модель хранения данных.
▫️На примере в лайф-режиме покажем различия в стоимости и скорости работы DLH и DWH.
〰〰〰〰〰〰〰〰〰〰
Update: Запись тут https://vkvideo.ru/video-164978780_456239621
VK Видео
Поднимаем Data Lakehouse на основе Trino в облаке
11 февраля в 17:00 на вебинаре мы разберём, что такое Data Lakehouse и как эта архитектура объединит преимущества Data Lake и Data Warehouse, упрощая управление, хранения и анализ данных из различных источников в одном месте. Покажем, как новый облачный сервис…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Как работает Apache Iceberg на примере Trino - SmartData 2024
https://youtu.be/hsCtWz8JDRc?si=cX8CmxXB3yGh1rDW
#trino #iceberg
https://youtu.be/hsCtWz8JDRc?si=cX8CmxXB3yGh1rDW
#trino #iceberg
YouTube
Владимир Озеров — Как работает Apache Iceberg на примере Trino
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/pSa4pt
Apache Iceberg — популярный табличный формат для построения современных lakehouse-платформ. В докладе детально рассмотрели архитектуру…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/pSa4pt
Apache Iceberg — популярный табличный формат для построения современных lakehouse-платформ. В докладе детально рассмотрели архитектуру…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
The Agile Data (AD) Method
Описываются принципы, процессы и инструменты, позволяющие быстро и эффективно разрабатывать, изменять и управлять аналитическими решениями. Основное внимание уделяется снижению сложности работы с данными, автоматизации и адаптивности к изменениям.
https://agiledata.org/
Описываются принципы, процессы и инструменты, позволяющие быстро и эффективно разрабатывать, изменять и управлять аналитическими решениями. Основное внимание уделяется снижению сложности работы с данными, автоматизации и адаптивности к изменениям.
https://agiledata.org/
The Agile Data (AD) Method - Strategies for effective data-oriented development
The Agile Data (AD) Method
Agile Data: The increasing pace of change, increasing complexity, and increasing volume of data demands nothing less than complete data agility.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 1 Главы - Введение в хранилища данных
Начало перевода книги "Building a Scalable Data Warehouse with Data Vault 2.0"
https://datatalks.ru/data-vault-2-0-chapter-1-introduction-to-data-warehousing/
#DataVault
Начало перевода книги "Building a Scalable Data Warehouse with Data Vault 2.0"
https://datatalks.ru/data-vault-2-0-chapter-1-introduction-to-data-warehousing/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 1 Главы — Введение в хранилища данных
Перевод 1 Главы - Введение в хранилища данных
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 2 Главы - Масштабируемая архитектура хранилища данных
Введение в архитектуру Data Vault 2.0 без детальных подробностей.
https://datatalks.ru/data-vault-2-0-chapter-2-scalable-data-warehouse-architecture/
#DataVault
Введение в архитектуру Data Vault 2.0 без детальных подробностей.
https://datatalks.ru/data-vault-2-0-chapter-2-scalable-data-warehouse-architecture/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 2 Главы — Масштабируемая архитектура хранилища данных
Перевод 2 Главы - Масштабируемая архитектура хранилища данных Data Vault 2.0
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Как быстро запустить процесс ведения каталога данных в компании. Пример DataHub - доклад Журавлевой Натальи на SmartData 2024
https://youtu.be/nCt4gYVQdqc?si=YUpGIqHB5SqCddrH
https://youtu.be/nCt4gYVQdqc?si=YUpGIqHB5SqCddrH
YouTube
Наталья Журавлева — Как быстро запустить процесс ведения каталога данных в компании. Пример DataHub
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/YPFuf5
Проблема: данных становится слишком много. Вы знаете, что вам нужен каталог данных, но не знаете, с чего начать и как реализовать инструмент…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/YPFuf5
Проблема: данных становится слишком много. Вы знаете, что вам нужен каталог данных, но не знаете, с чего начать и как реализовать инструмент…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Пример создания DWH по Kimball с применением dbt
Build a Data Warehouse with dbt using Kimball’s dimensional modeling | by Haq Nawaz | Dev Genius
https://blog.devgenius.io/build-a-data-warehouse-with-dbt-using-kimballs-dimensional-modeling-59ea9bfae59f
GitHub: dbt build a datawarehouse using dimensional modeling
https://github.com/hnawaz007/dbt-dw
Build a Data Warehouse with dbt using Kimball’s dimensional modeling | by Haq Nawaz | Dev Genius
https://blog.devgenius.io/build-a-data-warehouse-with-dbt-using-kimballs-dimensional-modeling-59ea9bfae59f
GitHub: dbt build a datawarehouse using dimensional modeling
https://github.com/hnawaz007/dbt-dw
Medium
Build a Data Warehouse with dbt using Kimball’s dimensional modeling
using dbt, SQL, SQL Server, Postgres
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SmartData 2024: От хайпа до продакшена: data mesh на Airflow + dbt
https://youtu.be/OT-Sx-bd-6k?si=MG0kbWWjZIXwR2nm
https://youtu.be/OT-Sx-bd-6k?si=MG0kbWWjZIXwR2nm
YouTube
Никита Юрасов, Леонид Кожинов — От хайпа до продакшена: data mesh на Airflow + dbt
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/MnC8LZ
Обещанного три года ждут, а toloka.ai опережает поставленные сроки: год назад спикеры рассказывали про подход к интеграции dbt и Airflow…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/MnC8LZ
Обещанного три года ждут, а toloka.ai опережает поставленные сроки: год назад спикеры рассказывали про подход к интеграции dbt и Airflow…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 3 Главы - Методология Data Vault 2.0
Подробное описание методологии Data Vault 2.0, больше с точки зрения управления проектами.
https://datatalks.ru/chapter-3-data-vault-2-0-methodology/
#DataVault
Подробное описание методологии Data Vault 2.0, больше с точки зрения управления проектами.
https://datatalks.ru/chapter-3-data-vault-2-0-methodology/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 3 Главы — Методология Data Vault 2.0
Перевод 3 Главы - Методология Data Vault 2.0