Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
This media is not supported in your browser
VIEW IN TELEGRAM
💡 7 стратегий для масштабирования базы данных
1️⃣ Индексация
Анализируйте запросы вашего приложения и создавайте подходящие индексы для ускорения работы.
2️⃣ Материализованные представления
Предварительно вычисляйте сложные запросы и сохраняйте результаты для быстрого доступа.
3️⃣ Денормализация
Сократите сложные соединения таблиц, чтобы повысить производительность запросов.
4️⃣ Вертикальное масштабирование
Увеличьте мощность сервера базы данных, добавив больше CPU, оперативной памяти или хранилища.
5️⃣ Кэширование
Сохраняйте часто используемые данные в более быстром слое хранения, чтобы снизить нагрузку на базу данных.
6️⃣ Репликация
Создавайте копии основной базы данных на других серверах для распределения нагрузки на чтение.
7️⃣ Шардинг
Разделяйте таблицы на небольшие части и распределяйте их по разным серверам. Это поможет масштабировать как чтение, так и запись.
YouTube: 7 must-know strategies to scale your database
#scaling #масштабирование_базы_данных
1️⃣ Индексация
Анализируйте запросы вашего приложения и создавайте подходящие индексы для ускорения работы.
2️⃣ Материализованные представления
Предварительно вычисляйте сложные запросы и сохраняйте результаты для быстрого доступа.
3️⃣ Денормализация
Сократите сложные соединения таблиц, чтобы повысить производительность запросов.
4️⃣ Вертикальное масштабирование
Увеличьте мощность сервера базы данных, добавив больше CPU, оперативной памяти или хранилища.
5️⃣ Кэширование
Сохраняйте часто используемые данные в более быстром слое хранения, чтобы снизить нагрузку на базу данных.
6️⃣ Репликация
Создавайте копии основной базы данных на других серверах для распределения нагрузки на чтение.
7️⃣ Шардинг
Разделяйте таблицы на небольшие части и распределяйте их по разным серверам. Это поможет масштабировать как чтение, так и запись.
YouTube: 7 must-know strategies to scale your database
#scaling #масштабирование_базы_данных
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
7 Projects to Master Data Engineering - KDnuggets
https://www.kdnuggets.com/7-projects-master-data-engineering
https://www.kdnuggets.com/7-projects-master-data-engineering
KDnuggets
7 Projects to Master Data Engineering - KDnuggets
Learn to build, run, and manage data engineering pipelines both locally and in the cloud using popular tools.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
В видео по Spark есть ссылка на роадмап по DE с кучей полезных инструкций по инструментам.
GitHub - halltape/HalltapeRoadmapDE: Roadmap для Data Engineer.
https://github.com/halltape/HalltapeRoadmapDE
GitHub - halltape/HalltapeRoadmapDE: Roadmap для Data Engineer.
https://github.com/halltape/HalltapeRoadmapDE
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Оптимизация SQL запросов на примере ClickHouse
Бесплатно
Научимся писать SQL запросы так, чтобы не убить базу данных. Изучим основные методы оптимизации SQL запросов, актуальные для любой СУБД
https://stepik.org/course/Оптимизация-SQL-запросов-на-примере-ClickHouse-215412/
#ClickHouse
Бесплатно
Научимся писать SQL запросы так, чтобы не убить базу данных. Изучим основные методы оптимизации SQL запросов, актуальные для любой СУБД
https://stepik.org/course/Оптимизация-SQL-запросов-на-примере-ClickHouse-215412/
#ClickHouse
Stepik: online education
Оптимизация SQL запросов на примере ClickHouse
🔥 Ваши SQL-запросы тормозят и съедают ресурсы?
На этом курсе вы научитесь писать молниеносные запросы, которые не положат базу — даже на огромных данных в ClickHouse.
Без воды: только практические приемы оптимизации, которые работают в любой СУБД. Узнаете…
На этом курсе вы научитесь писать молниеносные запросы, которые не положат базу — даже на огромных данных в ClickHouse.
Без воды: только практические приемы оптимизации, которые работают в любой СУБД. Узнаете…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Awesome Data Engineering Learning Sources - Roadmap для инженеров данных
Подборка ресурсов для изучения направления Data Engineering с минимальным бюджетом (большая часть бесплатно на YT).
https://datatalks.ru/awesome-data-engineering-learning-sources/
Подборка ресурсов для изучения направления Data Engineering с минимальным бюджетом (большая часть бесплатно на YT).
https://datatalks.ru/awesome-data-engineering-learning-sources/
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Awesome Data Engineering. Дорожная карта Data Engineer RoadMap
Awesome Data Engineering. Дорожная карта Data Engineer RoadMap. Дорожная карта по изучению инженерии данных. Как стать дата инженером?
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод главы "Введение в dbt" из книги Unlocking dbt
https://datatalks.ru/unlocking-dbt-data-build-tool-part-1/
#dbt
https://datatalks.ru/unlocking-dbt-data-build-tool-part-1/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод главы «Введение в dbt» из книги Unlocking dbt
Введение в dbt В 2006 году британский математик и предприниматель в области анализа данных Клайв Хамби ввел фразу: «Данные — это новая нефть», подчеркнув их невероятно высокую ценность. Как и нефть, данные в сыром виде полезны, но их нужно обработать, чтобы…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Apache Iceberg + StarRocks YouTube Playlist
StarRocks as LakeHouse Query Engine
24 видосика.
https://youtu.be/8Q5Vev4O1lQ?si=7DIuO3IuIOmf6aHi
=== PS ===
В доке пишут, что StarRocks превосходит по производительности ClickHouse и Trino https://docs.starrocks.io/docs/benchmarking/
Понятно, что надо смотреть на типы задач, настройки и структуры данных, но интересный инструмент в любом случае.
Еще 1 статья Сравнение трино и старрокс https://gavrilov.info/all/sravnenie-query-dvizhkov-trino-i-starrocks/
#Iceberg #StarRocks
StarRocks as LakeHouse Query Engine
24 видосика.
https://youtu.be/8Q5Vev4O1lQ?si=7DIuO3IuIOmf6aHi
=== PS ===
В доке пишут, что StarRocks превосходит по производительности ClickHouse и Trino https://docs.starrocks.io/docs/benchmarking/
Понятно, что надо смотреть на типы задач, настройки и структуры данных, но интересный инструмент в любом случае.
Еще 1 статья Сравнение трино и старрокс https://gavrilov.info/all/sravnenie-query-dvizhkov-trino-i-starrocks/
#Iceberg #StarRocks
YouTube
Apache Iceberg + StarRocks: Your Recipe for Superior Lakehouse Performance
Apache Iceberg brought reliability and simplicity to the open data lake, and now it’s helping drive query performance too. Thanks to new integrations with the StarRocks project, Apache Iceberg users no longer need to copy their data into a proprietary data…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод Analytics Engineering with SQL and dbt. Глава 1
Немного о концепции Analytics Engineering и терминологии.
https://datatalks.ru/analytics-engineering-with-sql-and-dbt-chapter-1/
#dbt
Немного о концепции Analytics Engineering и терминологии.
https://datatalks.ru/analytics-engineering-with-sql-and-dbt-chapter-1/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод Analytics Engineering with SQL and dbt. Глава 1
Инженерия аналитики (Analytics Engineering) История аналитики включает важные этапы и технологии, которые сформировали эту область в том виде, какой мы знаем сегодня. Всё началось с появления концепции хранилищ данных в 1980-х годах, что стало основой для…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Понимание инкрементальных стратегий dbt, часть 1
Вторую часть не буду переводить, этот перевод сделал больше с целью ознакомить с вариантами обновления данных в таблицах. По технической реализации лучше доку смотреть и анализировать, как каждая стратегия работает на уровне макросов (или сгенерированного sql).
https://datatalks.ru/understanding-dbt-incremental-strategies-part-1/
#dbt
Вторую часть не буду переводить, этот перевод сделал больше с целью ознакомить с вариантами обновления данных в таблицах. По технической реализации лучше доку смотреть и анализировать, как каждая стратегия работает на уровне макросов (или сгенерированного sql).
https://datatalks.ru/understanding-dbt-incremental-strategies-part-1/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Понимание инкрементальных стратегий dbt, часть 1
Перевод статьи, исходный текст: https://medium.com/indiciumtech/understanding-dbt-incremental-strategies-part-1-2-22bd97c7eeb5 Данный перевод выполнен с небольшими примечаниями. Используйте статью как ориентир, проверяя по каждой базе и каждому адаптеру возможность…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Курс по dbt для инженеров данных
https://youtube.com/playlist?list=PLzvuaEeolxkyx7XruoatSFdYDyLji_o1J&si=oH5Bne-fU2lCqJl1
#dbt
https://youtube.com/playlist?list=PLzvuaEeolxkyx7XruoatSFdYDyLji_o1J&si=oH5Bne-fU2lCqJl1
#dbt
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод 2 главы "Моделирование данных для аналитики (dbt)"
https://datatalks.ru/dbt-data-modeling-for-analytics/
#dbt
https://datatalks.ru/dbt-data-modeling-for-analytics/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод 2 главы «Моделирование данных для аналитики (dbt)»
Перевод 2 главы "Моделирование данных для аналитики" книги Analytics Engineering with sql and dbt. Модели данных Звезда, Снежинка Data Vault
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
data load tool (dlt) is an open source Python library that makes data loading easy 🛠️
🔹Автоматическая схема: проверка структуры данных и создание схемы для места назначения.
🔹 Нормализация данных: согласованные и проверенные данные перед загрузкой.
🔹Полная интеграция: Colab, AWS Lambda, Airflow и локальные среды.
🔹Масштабируемость: адаптируется к растущим потребностям в данных в производстве.
🔹Простота обслуживания: понятная структура конвейера данных для обновлений.
🔹Быстрое исследование: быстрое исследование и получение информации из новых источников данных.
🔹Универсальное использование: подходит для несистематических исследований и создания сложных погрузочных инфраструктур.
🔹Начните работу за считанные секунды с помощью CLI: Мощный CLI для управления, развертывания и проверки локальных pipelines.
🔹Поэтапная загрузка: загружайте только новые или измененные данные и избегайте повторной загрузки старых записей.
🔹Открытый исходный код: бесплатно и под лицензией Apache 2.0.
https://github.com/dlt-hub/dlt
🔹Автоматическая схема: проверка структуры данных и создание схемы для места назначения.
🔹 Нормализация данных: согласованные и проверенные данные перед загрузкой.
🔹Полная интеграция: Colab, AWS Lambda, Airflow и локальные среды.
🔹Масштабируемость: адаптируется к растущим потребностям в данных в производстве.
🔹Простота обслуживания: понятная структура конвейера данных для обновлений.
🔹Быстрое исследование: быстрое исследование и получение информации из новых источников данных.
🔹Универсальное использование: подходит для несистематических исследований и создания сложных погрузочных инфраструктур.
🔹Начните работу за считанные секунды с помощью CLI: Мощный CLI для управления, развертывания и проверки локальных pipelines.
🔹Поэтапная загрузка: загружайте только новые или измененные данные и избегайте повторной загрузки старых записей.
🔹Открытый исходный код: бесплатно и под лицензией Apache 2.0.
https://github.com/dlt-hub/dlt
GitHub
GitHub - dlt-hub/dlt: data load tool (dlt) is an open source Python library that makes data loading easy 🛠️
data load tool (dlt) is an open source Python library that makes data loading easy 🛠️ - GitHub - dlt-hub/dlt: data load tool (dlt) is an open source Python library that makes data loading easy 🛠️
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Проектирование DWH. Data Modeling. Kimball, Data Vault 2.0, Anchor Modeling
https://ivan-shamaev.ru/data-modeling-dwh-kimball-scd-types-data-vault-2-anchor-modeling/
#DataVault
https://ivan-shamaev.ru/data-modeling-dwh-kimball-scd-types-data-vault-2-anchor-modeling/
#DataVault
Персональный блог Data Engineer | Ex-TeamLead BI Developer
Проектирование DWH. Data Modeling. Kimball, Data Vault 2.0, Anchor Modeling
Проектирование DWH. Data Modeling. Kimball Data Vault 2.0 Anchor Modeling
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Data Engineering Handbook
Сайт: https://karlchris.github.io/data-engineering/
GitHub: https://github.com/karlchris/data-engineering/tree/master
Разделы:
▫️Projects
▫️Data Engineering
▫️Data Modeling
▫️Data Ingestion
▫️Data Architecture
▫️Data Orchestration
▫️Data Processing
▫️Data Quality
▫️Python
Сайт: https://karlchris.github.io/data-engineering/
GitHub: https://github.com/karlchris/data-engineering/tree/master
Разделы:
▫️Projects
▫️Data Engineering
▫️Data Modeling
▫️Data Ingestion
▫️Data Architecture
▫️Data Orchestration
▫️Data Processing
▫️Data Quality
▫️Python
karlchris.github.io
Data Engineering Works
All you need to know about Data Engineering, Data Warehousing and Data Platform.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Создание архитектуры Medallion с помощью ClickHouse
https://datatalks.ru/medallion-architecture-with-clickhouse/
#ClickHouse #Medallion
https://datatalks.ru/medallion-architecture-with-clickhouse/
#ClickHouse #Medallion
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Создание архитектуры Medallion с помощью ClickHouse
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Database Sharding — PlanetScale
Интересный сайт про шардированию, понравились интерактивные схемы.
https://planetscale.com/blog/database-sharding
Интересный сайт про шардированию, понравились интерактивные схемы.
https://planetscale.com/blog/database-sharding
Planetscale
Database Sharding — PlanetScale
Learn about the database sharding scaling pattern in this interactive blog.
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Эволюция архитектур платформы данных- Евгений Ермаков
https://youtu.be/EvefrwYmOn0?si=0IkudCSOSRtMMHyy
https://youtu.be/EvefrwYmOn0?si=0IkudCSOSRtMMHyy
YouTube
Евгений Ермаков — Эволюция архитектур платформы данных
Подробнее о фестивале TechTrain: https://jrg.su/YR8JKw
— —
Во всем мире компании из самых разных отраслей вкладывают средства в анализ своих данных, в создание эффективных стратегий обработки данных и построение платформ данных. По некоторым оценкам к 2030…
— —
Во всем мире компании из самых разных отраслей вкладывают средства в анализ своих данных, в создание эффективных стратегий обработки данных и построение платформ данных. По некоторым оценкам к 2030…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
How I Built This Data Platform in One Week | by Dorian Teffo | DataDrivenInvestor
Airflow + Cosmos + DBT
https://medium.datadriveninvestor.com/how-i-built-this-data-platform-in-one-week-13b457d7c323
https://medium.datadriveninvestor.com/how-i-built-this-data-platform-in-one-week-13b457d7c323
Medium
How I Built This Data Platform in One Week
This will certainly be my longest project (and the most expensive, so please like and comment), as well as my longest blog post. But…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
How we orchestrate 2000+ DBT models in Apache Airflow | by Alexandre Magno Lima Martins | Apache Airflow | Medium
Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.
Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.
https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d
Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.
Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.
https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d
Medium
How we orchestrate 2000+ DBT models in Apache Airflow
In recent years, DBT (Data Build Tool) has established itself as the go-to data transformation workflow, connecting to a variety of…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
System Design - Теория шардирования. Как масштабировать базы данных
https://youtu.be/d6BtxBKhQoc?si=DPhblrYssQX87MRT
https://youtu.be/d6BtxBKhQoc?si=DPhblrYssQX87MRT
YouTube
System Design - теория шардирования | Как масштабировать базы данных
Курсы по программированию: https://clck.ru/37iG2b
Потренироваться проходить собеседования: https://clck.ru/3C2CY3
Консультации:
https://getmentor.dev/mentor/vladimir-balun-191
https://solvery.io/ru/mentor/vladimir_balun
Таймкоды:
00:00 - План открытого…
Потренироваться проходить собеседования: https://clck.ru/3C2CY3
Консультации:
https://getmentor.dev/mentor/vladimir-balun-191
https://solvery.io/ru/mentor/vladimir_balun
Таймкоды:
00:00 - План открытого…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Data Pipeline Design Patterns - Шаблоны проектирования потоков данных
https://datatalks.ru/data-pipeline-design-patterns/
https://datatalks.ru/data-pipeline-design-patterns/
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Data Pipeline Design Patterns — Шаблоны проектирования потоков данных
Data Pipeline Design Patterns - Шаблоны проектирования потоков данных