Data Engineering / Инженерия данных / Data Engineer / DWH
2.35K subscribers
50 photos
7 videos
54 files
356 links
Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных.

DWH / SQL
Python / ETL / ELT / dbt / Spark
Apache Airflow

Рекламу не размещаю
Вопросы: @iv_shamaev | datatalks.ru
Download Telegram
Глава 4. Хранение и извлечение

Продолжение перевода книги «Designing Data-Intensive Applications, 2nd Edition»

Глава объясняет ключевые отличия между движками хранения, оптимизированными под OLTP (такими как лог‑структурированные, LSM‑деревья и B‑деревья), и OLAP/аналитическими хранилищами, где используются колоночные форматы сжатия, векторной обработкой и материализованными представлениями, чтобы эффективно работать с большими объёмами и аналитическими запросами

https://datatalks.ru/chapter-4-storage-and-retrieval/


#DesigningDataIntensiveApplications
🔥191👍1
Глава 5. Кодирование и Эволюция (Encoding and Evolution)

Продолжение перевода книги «Designing Data-Intensive Applications, 2nd Edition»

Статья рассматривает, как различные форматы кодирования данных (JSON, XML, Protocol Buffers, Avro и др.) обеспечивают поддержку эволюции — то есть возможности изменять структуры данных (схемы), сохраняя совместимость между старым и новым кодом.

Обсуждаются два вида совместимости: обратная (новый код читает старые данные) и прямая (старый код читает данные, сделанные новым кодом), а также то, как форматы и схемы помогают избежать потери данных при таких изменениях.

Также статья показывает, как схемы и кодирование применяются при передачи данных между компонентами (базы данных, RPC, веб-сервисы, события), и какие практики и форматы (например, Avro, вызовы сервисов) подходят для поддержания эволюции в распределённых системах.


https://datatalks.ru/chapter-5-encoding-and-evolution/

#DesigningDataIntensiveApplications
🔥9👍1