Data Engineering / Инженерия данных / Data Engineer / DWH
2.34K subscribers
50 photos
7 videos
54 files
356 links
Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных.

DWH / SQL
Python / ETL / ELT / dbt / Spark
Apache Airflow

Рекламу не размещаю
Вопросы: @iv_shamaev | datatalks.ru
Download Telegram
What is a Data Platform? And How to Build One

In this post:
- What is a data platform?
- The six must-have layers of a modern data platform
- Data Storage and Processing
- Data Ingestion 
- Data Transformation and Modeling
- Business Intelligence (BI) and Analytics
- Data Observability
- Data Discovery
- Data platform vs. customer data platform
- Build or buy your 6-layer data platform? It depends.

https://www.montecarlodata.com/blog-what-is-a-data-platform-and-how-to-build-one/
Data_Algorithms_with_Spark_Recipes_and_Design_Patterns_for_Scaling.pdf
12.6 MB
Data Algorithms with Spark Recipes and Design Patterns for Scaling Up using PySpark (Mahmoud Parsian).pdf
Потоковая_обработка_данных_с_Apache_Flink_Фабиан_Уэске,_Василики.pdf
10.9 MB
Потоковая обработка данных с Apache Flink (Фабиан Уэске, Василики Калаври).pdf

Начните работу с Apache Flink, фреймворком с открытым исходным кодом, на котором основаны многие крупнейшие в мире системы обработки потоковых данных. В данной книге вы изучите фундаментальные понятия параллельной потоковой обработки и узнаете, чем эта технология отличается от традиционной пакетной обработки данных.

Ф. Уэске и В. Калаври, занятые в проекте Apache Flink с первых дней, покажут вам, как создавать масштабируемые потоковые приложения с помощью API Flink DataStream, а также непрерывно выполнять и поддерживать эти приложения в операционных средах.

Потоковая обработка идеально подходит для многих задач: подготовки данных с малой задержкой, потоковой аналитики и информационных панелей в реальном времени, раннего оповещения и обнаружения мошенничества. Вы можете обрабатывать потоковые данные любого типа, включая взаимодействия с пользователем, финансовые транзакции и данные интернета вещей, немедленно после получения.
Принципы_организации_распределенных_баз_данных_М_Тамер_Ёcy,_Патрик.pdf
9 MB
Принципы организации распределенных баз данных (М. Тамер Ёcy, Патрик Вальдуриес).pdf

В книге представлено подробное описание распределенных и параллельных баз данных с учетом новейших технологий. Авторы затрагивают такие темы, как проектирование распределенных и параллельных БД, контроль распределенных данных, распределенная обработка запросов и транзакций, интеграция баз данных. Отдельная глава посвящена обработке больших данных (в частности, обсуждаются распределенные системы хранения, потоковая обработка данных, платформы MapReduce и Spark, анализ графов и озера данных). Обработка веб-данных рассматривается с акцентом на технологию RDF, получившую широкое распространение.
В конце глав 2–12 приводятся упражнения, позволяющие закрепить теоретический материал. На сопроводительном сайте читатели найдут информацию об основах реляционных баз данных, обработке запросов, управлении транзакциями и компьютерных сетях.
Зачем вам Dagster, если есть AirFlow: сравнение ETL-оркестраторов

https://www.bigdataschool.ru/blog/dagster-vs-airflow-dag-orchestration-in-big-data.html
Forwarded from karpov.courses
Мы уже записывали видео с разбором полезных функций для работы с массивами в ClickHouse, и теперь пришло время практики. В этот раз преподавательница «Симулятора аналитика» Мария Сомова покажет, как применять массивы для решения реальной прикладной задачи.

Представьте, что вы работаете в отделе аналитики онлайн-магазина, и перед вами стоит задача оценить эффект от запуска маркетинговой кампании. Рассказываем, как сворачивать данные в массивы и применять функции из предыдущего видео для их обработки.