Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Эволюция архитектур платформы данных- Евгений Ермаков
https://youtu.be/EvefrwYmOn0?si=0IkudCSOSRtMMHyy
https://youtu.be/EvefrwYmOn0?si=0IkudCSOSRtMMHyy
YouTube
Евгений Ермаков — Эволюция архитектур платформы данных
Подробнее о фестивале TechTrain: https://jrg.su/YR8JKw
— —
Во всем мире компании из самых разных отраслей вкладывают средства в анализ своих данных, в создание эффективных стратегий обработки данных и построение платформ данных. По некоторым оценкам к 2030…
— —
Во всем мире компании из самых разных отраслей вкладывают средства в анализ своих данных, в создание эффективных стратегий обработки данных и построение платформ данных. По некоторым оценкам к 2030…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
How I Built This Data Platform in One Week | by Dorian Teffo | DataDrivenInvestor
Airflow + Cosmos + DBT
https://medium.datadriveninvestor.com/how-i-built-this-data-platform-in-one-week-13b457d7c323
https://medium.datadriveninvestor.com/how-i-built-this-data-platform-in-one-week-13b457d7c323
Medium
How I Built This Data Platform in One Week
This will certainly be my longest project (and the most expensive, so please like and comment), as well as my longest blog post. But…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
How we orchestrate 2000+ DBT models in Apache Airflow | by Alexandre Magno Lima Martins | Apache Airflow | Medium
Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.
Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.
https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d
Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.
Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.
https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d
Medium
How we orchestrate 2000+ DBT models in Apache Airflow
In recent years, DBT (Data Build Tool) has established itself as the go-to data transformation workflow, connecting to a variety of…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
System Design - Теория шардирования. Как масштабировать базы данных
https://youtu.be/d6BtxBKhQoc?si=DPhblrYssQX87MRT
https://youtu.be/d6BtxBKhQoc?si=DPhblrYssQX87MRT
YouTube
System Design - теория шардирования | Как масштабировать базы данных
Курсы по программированию: https://clck.ru/37iG2b
Потренироваться проходить собеседования: https://clck.ru/3C2CY3
Консультации:
https://getmentor.dev/mentor/vladimir-balun-191
https://solvery.io/ru/mentor/vladimir_balun
Таймкоды:
00:00 - План открытого…
Потренироваться проходить собеседования: https://clck.ru/3C2CY3
Консультации:
https://getmentor.dev/mentor/vladimir-balun-191
https://solvery.io/ru/mentor/vladimir_balun
Таймкоды:
00:00 - План открытого…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Data Pipeline Design Patterns - Шаблоны проектирования потоков данных
https://datatalks.ru/data-pipeline-design-patterns/
https://datatalks.ru/data-pipeline-design-patterns/
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Data Pipeline Design Patterns — Шаблоны проектирования потоков данных
Data Pipeline Design Patterns - Шаблоны проектирования потоков данных
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Сегодня, 11 февраля 2025, 17:00
Поднимаем Data Lakehouse на основе Trino в облаке
Для участия требуется регистрация
Программа
▫️Почему топовые мировые и российские IT-компании переходят на архитектуру DLH.
▫️Какие существуют архитектуры DLH и под какие задачи используются.
▫️В каких ситуациях выгоднее разворачивать DLH на собственной инфраструктуре, а когда выгоднее использовать платформу или облако.
▫️Как использование облачного решения от VK Cloud даст гибкость и позволит оперативно расширять инфраструктуру по мере роста потребностей бизнеса.
▫️Как объектное хранилище Cloud Storage (S3) поможет создать экономически выгодную модель хранения данных.
▫️На примере в лайф-режиме покажем различия в стоимости и скорости работы DLH и DWH.
〰〰〰〰〰〰〰〰〰〰
Update: Запись тут https://vkvideo.ru/video-164978780_456239621
Поднимаем Data Lakehouse на основе Trino в облаке
Для участия требуется регистрация
Программа
▫️Почему топовые мировые и российские IT-компании переходят на архитектуру DLH.
▫️Какие существуют архитектуры DLH и под какие задачи используются.
▫️В каких ситуациях выгоднее разворачивать DLH на собственной инфраструктуре, а когда выгоднее использовать платформу или облако.
▫️Как использование облачного решения от VK Cloud даст гибкость и позволит оперативно расширять инфраструктуру по мере роста потребностей бизнеса.
▫️Как объектное хранилище Cloud Storage (S3) поможет создать экономически выгодную модель хранения данных.
▫️На примере в лайф-режиме покажем различия в стоимости и скорости работы DLH и DWH.
〰〰〰〰〰〰〰〰〰〰
Update: Запись тут https://vkvideo.ru/video-164978780_456239621
VK Видео
Поднимаем Data Lakehouse на основе Trino в облаке
11 февраля в 17:00 на вебинаре мы разберём, что такое Data Lakehouse и как эта архитектура объединит преимущества Data Lake и Data Warehouse, упрощая управление, хранения и анализ данных из различных источников в одном месте. Покажем, как новый облачный сервис…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Как работает Apache Iceberg на примере Trino - SmartData 2024
https://youtu.be/hsCtWz8JDRc?si=cX8CmxXB3yGh1rDW
#trino #iceberg
https://youtu.be/hsCtWz8JDRc?si=cX8CmxXB3yGh1rDW
#trino #iceberg
YouTube
Владимир Озеров — Как работает Apache Iceberg на примере Trino
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/pSa4pt
Apache Iceberg — популярный табличный формат для построения современных lakehouse-платформ. В докладе детально рассмотрели архитектуру…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/pSa4pt
Apache Iceberg — популярный табличный формат для построения современных lakehouse-платформ. В докладе детально рассмотрели архитектуру…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
The Agile Data (AD) Method
Описываются принципы, процессы и инструменты, позволяющие быстро и эффективно разрабатывать, изменять и управлять аналитическими решениями. Основное внимание уделяется снижению сложности работы с данными, автоматизации и адаптивности к изменениям.
https://agiledata.org/
Описываются принципы, процессы и инструменты, позволяющие быстро и эффективно разрабатывать, изменять и управлять аналитическими решениями. Основное внимание уделяется снижению сложности работы с данными, автоматизации и адаптивности к изменениям.
https://agiledata.org/
The Agile Data (AD) Method - Strategies for effective data-oriented development
The Agile Data (AD) Method
Agile Data: The increasing pace of change, increasing complexity, and increasing volume of data demands nothing less than complete data agility.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 1 Главы - Введение в хранилища данных
Начало перевода книги "Building a Scalable Data Warehouse with Data Vault 2.0"
https://datatalks.ru/data-vault-2-0-chapter-1-introduction-to-data-warehousing/
#DataVault
Начало перевода книги "Building a Scalable Data Warehouse with Data Vault 2.0"
https://datatalks.ru/data-vault-2-0-chapter-1-introduction-to-data-warehousing/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 1 Главы — Введение в хранилища данных
Перевод 1 Главы - Введение в хранилища данных
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 2 Главы - Масштабируемая архитектура хранилища данных
Введение в архитектуру Data Vault 2.0 без детальных подробностей.
https://datatalks.ru/data-vault-2-0-chapter-2-scalable-data-warehouse-architecture/
#DataVault
Введение в архитектуру Data Vault 2.0 без детальных подробностей.
https://datatalks.ru/data-vault-2-0-chapter-2-scalable-data-warehouse-architecture/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 2 Главы — Масштабируемая архитектура хранилища данных
Перевод 2 Главы - Масштабируемая архитектура хранилища данных Data Vault 2.0
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Как быстро запустить процесс ведения каталога данных в компании. Пример DataHub - доклад Журавлевой Натальи на SmartData 2024
https://youtu.be/nCt4gYVQdqc?si=YUpGIqHB5SqCddrH
https://youtu.be/nCt4gYVQdqc?si=YUpGIqHB5SqCddrH
YouTube
Наталья Журавлева — Как быстро запустить процесс ведения каталога данных в компании. Пример DataHub
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/YPFuf5
Проблема: данных становится слишком много. Вы знаете, что вам нужен каталог данных, но не знаете, с чего начать и как реализовать инструмент…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/YPFuf5
Проблема: данных становится слишком много. Вы знаете, что вам нужен каталог данных, но не знаете, с чего начать и как реализовать инструмент…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Пример создания DWH по Kimball с применением dbt
Build a Data Warehouse with dbt using Kimball’s dimensional modeling | by Haq Nawaz | Dev Genius
https://blog.devgenius.io/build-a-data-warehouse-with-dbt-using-kimballs-dimensional-modeling-59ea9bfae59f
GitHub: dbt build a datawarehouse using dimensional modeling
https://github.com/hnawaz007/dbt-dw
Build a Data Warehouse with dbt using Kimball’s dimensional modeling | by Haq Nawaz | Dev Genius
https://blog.devgenius.io/build-a-data-warehouse-with-dbt-using-kimballs-dimensional-modeling-59ea9bfae59f
GitHub: dbt build a datawarehouse using dimensional modeling
https://github.com/hnawaz007/dbt-dw
Medium
Build a Data Warehouse with dbt using Kimball’s dimensional modeling
using dbt, SQL, SQL Server, Postgres
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SmartData 2024: От хайпа до продакшена: data mesh на Airflow + dbt
https://youtu.be/OT-Sx-bd-6k?si=MG0kbWWjZIXwR2nm
https://youtu.be/OT-Sx-bd-6k?si=MG0kbWWjZIXwR2nm
YouTube
Никита Юрасов, Леонид Кожинов — От хайпа до продакшена: data mesh на Airflow + dbt
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/MnC8LZ
Обещанного три года ждут, а toloka.ai опережает поставленные сроки: год назад спикеры рассказывали про подход к интеграции dbt и Airflow…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/MnC8LZ
Обещанного три года ждут, а toloka.ai опережает поставленные сроки: год назад спикеры рассказывали про подход к интеграции dbt и Airflow…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 3 Главы - Методология Data Vault 2.0
Подробное описание методологии Data Vault 2.0, больше с точки зрения управления проектами.
https://datatalks.ru/chapter-3-data-vault-2-0-methodology/
#DataVault
Подробное описание методологии Data Vault 2.0, больше с точки зрения управления проектами.
https://datatalks.ru/chapter-3-data-vault-2-0-methodology/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 3 Главы — Методология Data Vault 2.0
Перевод 3 Главы - Методология Data Vault 2.0
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SoftwareMill Kafka Visualization
Визуально можно увидеть, как работает кафка.
https://softwaremill.com/kafka-visualisation/
И дополнительно статья, описывающая инструмент
https://habr.com/ru/articles/865120/
#kafka
Визуально можно увидеть, как работает кафка.
https://softwaremill.com/kafka-visualisation/
И дополнительно статья, описывающая инструмент
https://habr.com/ru/articles/865120/
#kafka
Softwaremill
SoftwareMill Kafka Visualization
Using the Kafka Visualization tool you can simulate how data flows through a replicated Kafka topic, to gain a better understanding of the message processing model.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 4 Главы - Моделирование Data Vault 2.0
https://datatalks.ru/chapter-4-data-vault-2-0-modeling/
#DataVault
В этой главе рассматриваются сущности, используемые в моделировании Data Vault, включая хабы (Hubs), линки/связи (Links) и сателлиты (Satellites). Показано, как идентифицировать бизнес-ключи в исходных данных и связывать их с другими бизнес-ключами в Data Vault с помощью линк-сущностей. Также рассмотрено, как выделять дополнительные атрибуты из исходных данных и моделировать их в виде сателлитных сущностей.https://datatalks.ru/chapter-4-data-vault-2-0-modeling/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 4 Главы — Моделирование Data Vault 2.0 — Что такое Hub / Link / Satellite?
Перевод 4 Главы - Моделирование Data Vault 2.0 - Что такое Hub / Link / Satellite? Data Vault модель данных data warehouse DDS. Примеры. Книга
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SmartData 2024 "dbt в деле: реальные кейсы и лайфхаки (Антон Александров)"
https://youtu.be/RV5ZSMcwm9w?si=BDSx3q8h0gb_ZQTX
Презентация
https://youtu.be/RV5ZSMcwm9w?si=BDSx3q8h0gb_ZQTX
Презентация
YouTube
Антон Александров — dbt в деле: реальные кейсы и лайфхаки
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/8i0yvb
В 2022 году компания «Детский мир» столкнулась с резким увеличением объема витрин данных, что привело к многочисленным техническим…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/8i0yvb
В 2022 году компания «Детский мир» столкнулась с резким увеличением объема витрин данных, что привело к многочисленным техническим…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Введение в Apache Iceberg. Основы, архитектура, как работает?
Накидал базовую статейку по айсбергу. Часть материала - конспект из книги "Apache Iceberg Полное руководство" - всем, кто планирует работать с этой технологией, советую прочитать.
https://ivan-shamaev.ru/apache-iceberg-tutorial-architecture-how-to-work/
#iceberg #trino #parquet #lakehouse
Накидал базовую статейку по айсбергу. Часть материала - конспект из книги "Apache Iceberg Полное руководство" - всем, кто планирует работать с этой технологией, советую прочитать.
https://ivan-shamaev.ru/apache-iceberg-tutorial-architecture-how-to-work/
#iceberg #trino #parquet #lakehouse
Персональный блог Data Engineer | Ex-TeamLead BI Developer
Введение в Apache Iceberg. Основы, архитектура, как работает?
Введение в Apache Iceberg. Основы. Архитектура. Как работает и внутреннее устройство. Полное руководство, обучение, курс для Data Engineer
💯2
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
SmartData 2024: Валентин Пановский - Как кролик съел зелёную сливу и не умер: сказ о миграции на Iceberg
Процесс миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object Storage).
https://youtu.be/YWD7WcfFfk8?si=Meqb8QIAsCQa4D8X
#trino #apacheiceberg
Процесс миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object Storage).
https://youtu.be/YWD7WcfFfk8?si=Meqb8QIAsCQa4D8X
#trino #apacheiceberg
YouTube
Валентин Пановский — Как кролик съел зеленую сливу и не умер: сказ о миграции на Iceberg
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/t0xTmS
Спикер рассказал о процессе миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/t0xTmS
Спикер рассказал о процессе миграции DWH из состояния AS IS (Greenplum) в целевое состояние TO BE (Trino, Iceberg REST Catalog, Object…
❤1
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 5 главы из книги "Building a Scalable Data Warehouse with Data Vault 2.0"
https://datatalks.ru/data-vault-chapter-5-intermediate-data-vault-modeling/
#DataVault
https://datatalks.ru/data-vault-chapter-5-intermediate-data-vault-modeling/
#DataVault
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 5 Главы — Intermediate Моделирование Data Vault
❤1🔥1