Data Engineering / reposts & drafts – Telegram

Data Engineering / reposts & drafts

@DataEngineering_ru

35 subscribers

227 photos

22 videos

40 files

557 links

#DataEngineering
#data_engineering
#data_engineering_ru

#DE_ru #DE

Download Telegram

About

Blog

Apps

Platform

Data Engineering / reposts & drafts

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Введение в dbt: основы моделирования данных

Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая ценность dbt?
05:51 Начало Data Lake
08:35 Большие SQL скрипты
10:12 Glue Spark ETL
13:00 Решение через Data Builder
17:40 Как продать команде свое решение?
19:18 Преимущества data build tool
28:33 Анатомия проекта на дбт
30:00 Создаем проект
01:10:15 Моделирование данных с dbt
01:21:41 Проблемы с аналитикой в БД
01:27:50 Оркестрация data build tool
01:30:00 Преимущества на dbt
01:31:10 Подводные камни ди би ти

https://www.youtube.com/watch?v=BSge0lPJeHk

#dbt

Введение в dbt: основы моделирования данных | INZHENERKA.TECH

#dbt #dataanalytics #dataengineering #dataengineer
🚀 Получить демо-доступ к курсу – https://clck.ru/3Bj87X
тг - канал с новостями от ИнженеркаТех – https://t.iss.one/InzhenerkaTech

Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая…

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

DBT Tutorial 12 videos YouTube Playlist

https://youtube.com/playlist?list=PLc2EZr8W2QIBegSYp4dEIMrfLj_cCJgYA&si=RXZY3jcHCOQ9A4Sz

#dbt

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

This media is not supported in your browser

VIEW IN TELEGRAM

Apache Kafka

Изначально созданная для обработки логов, Kafka теперь является основой для множества приложений. Её устойчивое хранилище сообщений и гибкий доступ к данным позволяют потребителям извлекать записи в удобное для них время.

Вот несколько популярных сценариев использования Kafka:
▫️Обработка и анализ логов: Эффективно справляется с огромными объёмами данных логов для их анализа и генерации инсайтов.
▫️Стриминг данных для рекомендаций: Обеспечивает потоковую обработку данных в реальном времени для предоставления персонализированных рекомендаций.
▫️Мониторинг и оповещения систем: Ускоряет мониторинг метрик и отправку уведомлений для своевременного реагирования на события в системе.
▫️Change Data Capture (CDC): Фиксирует и обрабатывает изменения в базах данных, чтобы поддерживать синхронизацию данных между системами.
▫️Миграция систем: Поддерживает бесшовную миграцию данных, обеспечивая их консистентность и доступность.

YouTube: Top Kafka use cases you should know

YouTube: Что такое кафка

#kafka

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

This media is not supported in your browser

VIEW IN TELEGRAM

💡 7 стратегий для масштабирования базы данных

1️⃣ Индексация
Анализируйте запросы вашего приложения и создавайте подходящие индексы для ускорения работы.

2️⃣ Материализованные представления
Предварительно вычисляйте сложные запросы и сохраняйте результаты для быстрого доступа.

3️⃣ Денормализация
Сократите сложные соединения таблиц, чтобы повысить производительность запросов.

4️⃣ Вертикальное масштабирование
Увеличьте мощность сервера базы данных, добавив больше CPU, оперативной памяти или хранилища.

5️⃣ Кэширование
Сохраняйте часто используемые данные в более быстром слое хранения, чтобы снизить нагрузку на базу данных.

6️⃣ Репликация
Создавайте копии основной базы данных на других серверах для распределения нагрузки на чтение.

7️⃣ Шардинг
Разделяйте таблицы на небольшие части и распределяйте их по разным серверам. Это поможет масштабировать как чтение, так и запись.

YouTube: 7 must-know strategies to scale your database

#scaling #масштабирование_базы_данных

2 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

7 Projects to Master Data Engineering - KDnuggets
https://www.kdnuggets.com/7-projects-master-data-engineering

7 Projects to Master Data Engineering - KDnuggets

Learn to build, run, and manage data engineering pipelines both locally and in the cloud using popular tools.

2 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

В видео по Spark есть ссылка на роадмап по DE с кучей полезных инструкций по инструментам.

GitHub - halltape/HalltapeRoadmapDE: Roadmap для Data Engineer.

https://github.com/halltape/HalltapeRoadmapDE

2 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Оптимизация SQL запросов на примере ClickHouse

Бесплатно

Научимся писать SQL запросы так, чтобы не убить базу данных. Изучим основные методы оптимизации SQL запросов, актуальные для любой СУБД

https://stepik.org/course/Оптимизация-SQL-запросов-на-примере-ClickHouse-215412/

#ClickHouse

Stepik: online education

Оптимизация SQL запросов на примере ClickHouse

🔥 Ваши SQL-запросы тормозят и съедают ресурсы?

На этом курсе вы научитесь писать молниеносные запросы, которые не положат базу — даже на огромных данных в ClickHouse.

Без воды: только практические приемы оптимизации, которые работают в любой СУБД. Узнаете…

2 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Awesome Data Engineering Learning Sources - Roadmap для инженеров данных

Подборка ресурсов для изучения направления Data Engineering с минимальным бюджетом (большая часть бесплатно на YT).

https://datatalks.ru/awesome-data-engineering-learning-sources/

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Awesome Data Engineering. Дорожная карта Data Engineer RoadMap

Awesome Data Engineering. Дорожная карта Data Engineer RoadMap. Дорожная карта по изучению инженерии данных. Как стать дата инженером?

2 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Перевод главы "Введение в dbt" из книги Unlocking dbt

https://datatalks.ru/unlocking-dbt-data-build-tool-part-1/

#dbt

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Перевод главы «Введение в dbt» из книги Unlocking dbt

Введение в dbt В 2006 году британский математик и предприниматель в области анализа данных Клайв Хамби ввел фразу: «Данные — это новая нефть», подчеркнув их невероятно высокую ценность. Как и нефть, данные в сыром виде полезны, но их нужно обработать, чтобы…

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Apache Iceberg + StarRocks YouTube Playlist

StarRocks as LakeHouse Query Engine

24 видосика.
https://youtu.be/8Q5Vev4O1lQ?si=7DIuO3IuIOmf6aHi

=== PS ===

В доке пишут, что StarRocks превосходит по производительности ClickHouse и Trino https://docs.starrocks.io/docs/benchmarking/

Понятно, что надо смотреть на типы задач, настройки и структуры данных, но интересный инструмент в любом случае.

Еще 1 статья Сравнение трино и старрокс https://gavrilov.info/all/sravnenie-query-dvizhkov-trino-i-starrocks/

#Iceberg #StarRocks

Apache Iceberg + StarRocks: Your Recipe for Superior Lakehouse Performance

Apache Iceberg brought reliability and simplicity to the open data lake, and now it’s helping drive query performance too. Thanks to new integrations with the StarRocks project, Apache Iceberg users no longer need to copy their data into a proprietary data…

2 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Перевод Analytics Engineering with SQL and dbt. Глава 1

Немного о концепции Analytics Engineering и терминологии.

https://datatalks.ru/analytics-engineering-with-sql-and-dbt-chapter-1/

#dbt

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Перевод Analytics Engineering with SQL and dbt. Глава 1

Инженерия аналитики (Analytics Engineering) История аналитики включает важные этапы и технологии, которые сформировали эту область в том виде, какой мы знаем сегодня. Всё началось с появления концепции хранилищ данных в 1980-х годах, что стало основой для…

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Понимание инкрементальных стратегий dbt, часть 1

Вторую часть не буду переводить, этот перевод сделал больше с целью ознакомить с вариантами обновления данных в таблицах. По технической реализации лучше доку смотреть и анализировать, как каждая стратегия работает на уровне макросов (или сгенерированного sql).

https://datatalks.ru/understanding-dbt-incremental-strategies-part-1/

#dbt

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Понимание инкрементальных стратегий dbt, часть 1

Перевод статьи, исходный текст: https://medium.com/indiciumtech/understanding-dbt-incremental-strategies-part-1-2-22bd97c7eeb5 Данный перевод выполнен с небольшими примечаниями. Используйте статью как ориентир, проверяя по каждой базе и каждому адаптеру возможность…

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Курс по dbt для инженеров данных

https://youtube.com/playlist?list=PLzvuaEeolxkyx7XruoatSFdYDyLji_o1J&si=oH5Bne-fU2lCqJl1

#dbt

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Перевод 2 главы "Моделирование данных для аналитики (dbt)"

https://datatalks.ru/dbt-data-modeling-for-analytics/

#dbt

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Перевод 2 главы «Моделирование данных для аналитики (dbt)»

Перевод 2 главы "Моделирование данных для аналитики" книги Analytics Engineering with sql and dbt. Модели данных Звезда, Снежинка Data Vault

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

data load tool (dlt) is an open source Python library that makes data loading easy 🛠️

🔹Автоматическая схема: проверка структуры данных и создание схемы для места назначения.
🔹 Нормализация данных: согласованные и проверенные данные перед загрузкой.
🔹Полная интеграция: Colab, AWS Lambda, Airflow и локальные среды.
🔹Масштабируемость: адаптируется к растущим потребностям в данных в производстве.
🔹Простота обслуживания: понятная структура конвейера данных для обновлений.
🔹Быстрое исследование: быстрое исследование и получение информации из новых источников данных.
🔹Универсальное использование: подходит для несистематических исследований и создания сложных погрузочных инфраструктур.
🔹Начните работу за считанные секунды с помощью CLI: Мощный CLI для управления, развертывания и проверки локальных pipelines.
🔹Поэтапная загрузка: загружайте только новые или измененные данные и избегайте повторной загрузки старых записей.
🔹Открытый исходный код: бесплатно и под лицензией Apache 2.0.

https://github.com/dlt-hub/dlt

GitHub - dlt-hub/dlt: data load tool (dlt) is an open source Python library that makes data loading easy 🛠️

data load tool (dlt) is an open source Python library that makes data loading easy 🛠️ - GitHub - dlt-hub/dlt: data load tool (dlt) is an open source Python library that makes data loading easy 🛠️

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Проектирование DWH. Data Modeling. Kimball, Data Vault 2.0, Anchor Modeling

https://ivan-shamaev.ru/data-modeling-dwh-kimball-scd-types-data-vault-2-anchor-modeling/

#DataVault

Персональный блог Data Engineer | Ex-TeamLead BI Developer

Проектирование DWH. Data Modeling. Kimball, Data Vault 2.0, Anchor Modeling

Проектирование DWH. Data Modeling. Kimball Data Vault 2.0 Anchor Modeling

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Data Engineering Handbook

Сайт: https://karlchris.github.io/data-engineering/
GitHub: https://github.com/karlchris/data-engineering/tree/master

Разделы:
▫️Projects
▫️Data Engineering
▫️Data Modeling
▫️Data Ingestion
▫️Data Architecture
▫️Data Orchestration
▫️Data Processing
▫️Data Quality
▫️Python

karlchris.github.io

Data Engineering Works

All you need to know about Data Engineering, Data Warehousing and Data Platform.

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Создание архитектуры Medallion с помощью ClickHouse

https://datatalks.ru/medallion-architecture-with-clickhouse/

#ClickHouse #Medallion

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Создание архитектуры Medallion с помощью ClickHouse

4 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Database Sharding — PlanetScale

Интересный сайт про шардированию, понравились интерактивные схемы.

https://planetscale.com/blog/database-sharding

Database Sharding — PlanetScale

Learn about the database sharding scaling pattern in this interactive blog.

4 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Эволюция архитектур платформы данных- Евгений Ермаков

https://youtu.be/EvefrwYmOn0?si=0IkudCSOSRtMMHyy

Евгений Ермаков — Эволюция архитектур платформы данных

Подробнее о фестивале TechTrain: https://jrg.su/YR8JKw
— —
Во всем мире компании из самых разных отраслей вкладывают средства в анализ своих данных, в создание эффективных стратегий обработки данных и построение платформ данных. По некоторым оценкам к 2030…

3 views16:00

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

How I Built This Data Platform in One Week | by Dorian Teffo | DataDrivenInvestor

Airflow + Cosmos + DBT

https://medium.datadriveninvestor.com/how-i-built-this-data-platform-in-one-week-13b457d7c323

How I Built This Data Platform in One Week

This will certainly be my longest project (and the most expensive, so please like and comment), as well as my longest blog post. But…

3 views16:00