Data Engineering / reposts & drafts – Telegram

Data Engineering / reposts & drafts

@DataEngineering_ru

35 subscribers

227 photos

22 videos

40 files

557 links

#DataEngineering
#data_engineering
#data_engineering_ru

#DE_ru #DE

Download Telegram

About

Blog

Apps

Platform

Data Engineering / reposts & drafts

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

This media is not supported in your browser

VIEW IN TELEGRAM

💡 7 стратегий для масштабирования базы данных

1️⃣ Индексация
Анализируйте запросы вашего приложения и создавайте подходящие индексы для ускорения работы.

2️⃣ Материализованные представления
Предварительно вычисляйте сложные запросы и сохраняйте результаты для быстрого доступа.

3️⃣ Денормализация
Сократите сложные соединения таблиц, чтобы повысить производительность запросов.

4️⃣ Вертикальное масштабирование
Увеличьте мощность сервера базы данных, добавив больше CPU, оперативной памяти или хранилища.

5️⃣ Кэширование
Сохраняйте часто используемые данные в более быстром слое хранения, чтобы снизить нагрузку на базу данных.

6️⃣ Репликация
Создавайте копии основной базы данных на других серверах для распределения нагрузки на чтение.

7️⃣ Шардинг
Разделяйте таблицы на небольшие части и распределяйте их по разным серверам. Это поможет масштабировать как чтение, так и запись.

YouTube: 7 must-know strategies to scale your database

#scaling #масштабирование_базы_данных

2 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

7 Projects to Master Data Engineering - KDnuggets
https://www.kdnuggets.com/7-projects-master-data-engineering

7 Projects to Master Data Engineering - KDnuggets

Learn to build, run, and manage data engineering pipelines both locally and in the cloud using popular tools.

2 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

В видео по Spark есть ссылка на роадмап по DE с кучей полезных инструкций по инструментам.

GitHub - halltape/HalltapeRoadmapDE: Roadmap для Data Engineer.

https://github.com/halltape/HalltapeRoadmapDE

2 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Оптимизация SQL запросов на примере ClickHouse

Бесплатно

Научимся писать SQL запросы так, чтобы не убить базу данных. Изучим основные методы оптимизации SQL запросов, актуальные для любой СУБД

https://stepik.org/course/Оптимизация-SQL-запросов-на-примере-ClickHouse-215412/

#ClickHouse

Stepik: online education

Оптимизация SQL запросов на примере ClickHouse

🔥 Ваши SQL-запросы тормозят и съедают ресурсы?

На этом курсе вы научитесь писать молниеносные запросы, которые не положат базу — даже на огромных данных в ClickHouse.

Без воды: только практические приемы оптимизации, которые работают в любой СУБД. Узнаете…

2 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Awesome Data Engineering Learning Sources - Roadmap для инженеров данных

Подборка ресурсов для изучения направления Data Engineering с минимальным бюджетом (большая часть бесплатно на YT).

https://datatalks.ru/awesome-data-engineering-learning-sources/

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Awesome Data Engineering. Дорожная карта Data Engineer RoadMap

Awesome Data Engineering. Дорожная карта Data Engineer RoadMap. Дорожная карта по изучению инженерии данных. Как стать дата инженером?

2 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Перевод главы "Введение в dbt" из книги Unlocking dbt

https://datatalks.ru/unlocking-dbt-data-build-tool-part-1/

#dbt

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Перевод главы «Введение в dbt» из книги Unlocking dbt

Введение в dbt В 2006 году британский математик и предприниматель в области анализа данных Клайв Хамби ввел фразу: «Данные — это новая нефть», подчеркнув их невероятно высокую ценность. Как и нефть, данные в сыром виде полезны, но их нужно обработать, чтобы…

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Apache Iceberg + StarRocks YouTube Playlist

StarRocks as LakeHouse Query Engine

24 видосика.
https://youtu.be/8Q5Vev4O1lQ?si=7DIuO3IuIOmf6aHi

=== PS ===

В доке пишут, что StarRocks превосходит по производительности ClickHouse и Trino https://docs.starrocks.io/docs/benchmarking/

Понятно, что надо смотреть на типы задач, настройки и структуры данных, но интересный инструмент в любом случае.

Еще 1 статья Сравнение трино и старрокс https://gavrilov.info/all/sravnenie-query-dvizhkov-trino-i-starrocks/

#Iceberg #StarRocks

Apache Iceberg + StarRocks: Your Recipe for Superior Lakehouse Performance

Apache Iceberg brought reliability and simplicity to the open data lake, and now it’s helping drive query performance too. Thanks to new integrations with the StarRocks project, Apache Iceberg users no longer need to copy their data into a proprietary data…

2 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Перевод Analytics Engineering with SQL and dbt. Глава 1

Немного о концепции Analytics Engineering и терминологии.

https://datatalks.ru/analytics-engineering-with-sql-and-dbt-chapter-1/

#dbt

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Перевод Analytics Engineering with SQL and dbt. Глава 1

Инженерия аналитики (Analytics Engineering) История аналитики включает важные этапы и технологии, которые сформировали эту область в том виде, какой мы знаем сегодня. Всё началось с появления концепции хранилищ данных в 1980-х годах, что стало основой для…

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Понимание инкрементальных стратегий dbt, часть 1

Вторую часть не буду переводить, этот перевод сделал больше с целью ознакомить с вариантами обновления данных в таблицах. По технической реализации лучше доку смотреть и анализировать, как каждая стратегия работает на уровне макросов (или сгенерированного sql).

https://datatalks.ru/understanding-dbt-incremental-strategies-part-1/

#dbt

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Понимание инкрементальных стратегий dbt, часть 1

Перевод статьи, исходный текст: https://medium.com/indiciumtech/understanding-dbt-incremental-strategies-part-1-2-22bd97c7eeb5 Данный перевод выполнен с небольшими примечаниями. Используйте статью как ориентир, проверяя по каждой базе и каждому адаптеру возможность…

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Курс по dbt для инженеров данных

https://youtube.com/playlist?list=PLzvuaEeolxkyx7XruoatSFdYDyLji_o1J&si=oH5Bne-fU2lCqJl1

#dbt

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Перевод 2 главы "Моделирование данных для аналитики (dbt)"

https://datatalks.ru/dbt-data-modeling-for-analytics/

#dbt

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Перевод 2 главы «Моделирование данных для аналитики (dbt)»

Перевод 2 главы "Моделирование данных для аналитики" книги Analytics Engineering with sql and dbt. Модели данных Звезда, Снежинка Data Vault

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

data load tool (dlt) is an open source Python library that makes data loading easy 🛠️

🔹Автоматическая схема: проверка структуры данных и создание схемы для места назначения.
🔹 Нормализация данных: согласованные и проверенные данные перед загрузкой.
🔹Полная интеграция: Colab, AWS Lambda, Airflow и локальные среды.
🔹Масштабируемость: адаптируется к растущим потребностям в данных в производстве.
🔹Простота обслуживания: понятная структура конвейера данных для обновлений.
🔹Быстрое исследование: быстрое исследование и получение информации из новых источников данных.
🔹Универсальное использование: подходит для несистематических исследований и создания сложных погрузочных инфраструктур.
🔹Начните работу за считанные секунды с помощью CLI: Мощный CLI для управления, развертывания и проверки локальных pipelines.
🔹Поэтапная загрузка: загружайте только новые или измененные данные и избегайте повторной загрузки старых записей.
🔹Открытый исходный код: бесплатно и под лицензией Apache 2.0.

https://github.com/dlt-hub/dlt

GitHub - dlt-hub/dlt: data load tool (dlt) is an open source Python library that makes data loading easy 🛠️

data load tool (dlt) is an open source Python library that makes data loading easy 🛠️ - GitHub - dlt-hub/dlt: data load tool (dlt) is an open source Python library that makes data loading easy 🛠️

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Проектирование DWH. Data Modeling. Kimball, Data Vault 2.0, Anchor Modeling

https://ivan-shamaev.ru/data-modeling-dwh-kimball-scd-types-data-vault-2-anchor-modeling/

#DataVault

Персональный блог Data Engineer | Ex-TeamLead BI Developer

Проектирование DWH. Data Modeling. Kimball, Data Vault 2.0, Anchor Modeling

Проектирование DWH. Data Modeling. Kimball Data Vault 2.0 Anchor Modeling

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Data Engineering Handbook

Сайт: https://karlchris.github.io/data-engineering/
GitHub: https://github.com/karlchris/data-engineering/tree/master

Разделы:
▫️Projects
▫️Data Engineering
▫️Data Modeling
▫️Data Ingestion
▫️Data Architecture
▫️Data Orchestration
▫️Data Processing
▫️Data Quality
▫️Python

karlchris.github.io

Data Engineering Works

All you need to know about Data Engineering, Data Warehousing and Data Platform.

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Создание архитектуры Medallion с помощью ClickHouse

https://datatalks.ru/medallion-architecture-with-clickhouse/

#ClickHouse #Medallion

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Создание архитектуры Medallion с помощью ClickHouse

4 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Database Sharding — PlanetScale

Интересный сайт про шардированию, понравились интерактивные схемы.

https://planetscale.com/blog/database-sharding

Database Sharding — PlanetScale

Learn about the database sharding scaling pattern in this interactive blog.

4 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Эволюция архитектур платформы данных- Евгений Ермаков

https://youtu.be/EvefrwYmOn0?si=0IkudCSOSRtMMHyy

Евгений Ермаков — Эволюция архитектур платформы данных

Подробнее о фестивале TechTrain: https://jrg.su/YR8JKw
— —
Во всем мире компании из самых разных отраслей вкладывают средства в анализ своих данных, в создание эффективных стратегий обработки данных и построение платформ данных. По некоторым оценкам к 2030…

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

How I Built This Data Platform in One Week | by Dorian Teffo | DataDrivenInvestor

Airflow + Cosmos + DBT

https://medium.datadriveninvestor.com/how-i-built-this-data-platform-in-one-week-13b457d7c323

How I Built This Data Platform in One Week

This will certainly be my longest project (and the most expensive, so please like and comment), as well as my longest blog post. But…

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

How we orchestrate 2000+ DBT models in Apache Airflow | by Alexandre Magno Lima Martins | Apache Airflow | Medium

Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.

Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.

https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d

How we orchestrate 2000+ DBT models in Apache Airflow

In recent years, DBT (Data Build Tool) has established itself as the go-to data transformation workflow, connecting to a variety of…

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

System Design - Теория шардирования. Как масштабировать базы данных

https://youtu.be/d6BtxBKhQoc?si=DPhblrYssQX87MRT

System Design - теория шардирования | Как масштабировать базы данных

Курсы по программированию: https://clck.ru/37iG2b
Потренироваться проходить собеседования: https://clck.ru/3C2CY3

Консультации:
https://getmentor.dev/mentor/vladimir-balun-191
https://solvery.io/ru/mentor/vladimir_balun

Таймкоды:
00:00 - План открытого…

4 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Data Pipeline Design Patterns - Шаблоны проектирования потоков данных

https://datatalks.ru/data-pipeline-design-patterns/

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Data Pipeline Design Patterns — Шаблоны проектирования потоков данных

Data Pipeline Design Patterns - Шаблоны проектирования потоков данных

5 views16:00