Data Engineering / Инженерия данных / Data Engineer / DWH

255 viewsedited 14:37

What is a Data Platform? And How to Build One

In this post:
- What is a data platform?
- The six must-have layers of a modern data platform
- Data Storage and Processing
- Data Ingestion
- Data Transformation and Modeling
- Business Intelligence (BI) and Analytics
- Data Observability
- Data Discovery
- Data platform vs. customer data platform
- Build or buy your 6-layer data platform? It depends.

https://www.montecarlodata.com/blog-what-is-a-data-platform-and-how-to-build-one/

Monte Carlo Data

What Is A Data Platform And How Do You Build One?

A data platform is a central repository and processing house for all of an organization's data. Here's how to build an awesome data platform.

1.11K viewsedited 16:32

Data Engineering / Инженерия данных / Data Engineer / DWH

Data_Algorithms_with_Spark_Recipes_and_Design_Patterns_for_Scaling.pdf

12.6 MB

Data Algorithms with Spark Recipes and Design Patterns for Scaling Up using PySpark (Mahmoud Parsian).pdf

303 views17:30

Data Engineering / Инженерия данных / Data Engineer / DWH

Linux_Книга_рецептов_Карла_Шрёдер_z_lib_org.pdf

9.7 MB

Linux. Книга рецептов (Карла Шрёдер).pdf

242 views08:51

Data Engineering / Инженерия данных / Data Engineer / DWH

What Good Data Product Managers Do – And Why You Probably Need One

https://www.montecarlodata.com/blog-what-good-data-product-managers-do-and-why-you-probably-need-one/

Monte Carlo Data

What Good Data Product Managers Do — And Why You Probably Need One

A data product manager is responsible for data democratization and increasing the time to value for the data itself.

221 viewsedited 12:25

Data Engineering / Инженерия данных / Data Engineer / DWH

Потоковая_обработка_данных_с_Apache_Flink_Фабиан_Уэске,_Василики.pdf

10.9 MB

Потоковая обработка данных с Apache Flink (Фабиан Уэске, Василики Калаври).pdf

Начните работу с Apache Flink, фреймворком с открытым исходным кодом, на котором основаны многие крупнейшие в мире системы обработки потоковых данных. В данной книге вы изучите фундаментальные понятия параллельной потоковой обработки и узнаете, чем эта технология отличается от традиционной пакетной обработки данных.

Ф. Уэске и В. Калаври, занятые в проекте Apache Flink с первых дней, покажут вам, как создавать масштабируемые потоковые приложения с помощью API Flink DataStream, а также непрерывно выполнять и поддерживать эти приложения в операционных средах.

Потоковая обработка идеально подходит для многих задач: подготовки данных с малой задержкой, потоковой аналитики и информационных панелей в реальном времени, раннего оповещения и обнаружения мошенничества. Вы можете обрабатывать потоковые данные любого типа, включая взаимодействия с пользователем, финансовые транзакции и данные интернета вещей, немедленно после получения.

217 views18:37

Data Engineering / Инженерия данных / Data Engineer / DWH

Принципы_организации_распределенных_баз_данных_М_Тамер_Ёcy,_Патрик.pdf

9 MB

Принципы организации распределенных баз данных (М. Тамер Ёcy, Патрик Вальдуриес).pdf

В книге представлено подробное описание распределенных и параллельных баз данных с учетом новейших технологий. Авторы затрагивают такие темы, как проектирование распределенных и параллельных БД, контроль распределенных данных, распределенная обработка запросов и транзакций, интеграция баз данных. Отдельная глава посвящена обработке больших данных (в частности, обсуждаются распределенные системы хранения, потоковая обработка данных, платформы MapReduce и Spark, анализ графов и озера данных). Обработка веб-данных рассматривается с акцентом на технологию RDF, получившую широкое распространение.
В конце глав 2–12 приводятся упражнения, позволяющие закрепить теоретический материал. На сопроводительном сайте читатели найдут информацию об основах реляционных баз данных, обработке запросов, управлении транзакциями и компьютерных сетях.

284 views18:40

Data Engineering / Инженерия данных / Data Engineer / DWH

Про Kafka (основы)

https://youtu.be/-AZOi3kP9Js

YouTube

Про Kafka (основы)

Apache Kafka - популярный распределенный отказоустойчивый брокер сообщений, используемый в высоконагруженных системах и BigData проектах.
На видео мой рассказ про основы Kafka: что, зачем, как и где.

227 views17:22

Data Engineering / Инженерия данных / Data Engineer / DWH

Видео с конференции Airflow 2022

https://youtube.com/playlist?list=PLGudixcDaxY2LxjeHpZRtzq7miykjjFOn

203 views06:22

Data Engineering / Инженерия данных / Data Engineer / DWH

Создание современной платформы для работы с данными с помощью Open-Source-решений

https://habr.com/en/company/vk/blog/671642/

Habr

Создание современной платформы для работы с данными с помощью Open-Source-решений

Команда VK Cloud Solutions перевела краткий конспект с Open Source Data Stack Conference . Конференция была посвящена созданию платформ для работы с данными на базе Open-Source-решений —докладчики...

860 viewsedited 14:47

Data Engineering / Инженерия данных / Data Engineer / DWH

docker-cheat-sheet.pdf

140.4 KB

209 views15:33

Data Engineering / Инженерия данных / Data Engineer / DWH

Зачем вам Dagster, если есть AirFlow: сравнение ETL-оркестраторов

https://www.bigdataschool.ru/blog/dagster-vs-airflow-dag-orchestration-in-big-data.html

217 views05:55

Data Engineering / Инженерия данных / Data Engineer / DWH

Краткое описание Airflow с инструкцией по установке через docker-compose

https://ivan-shamaev.ru/apache-airflow-docker-python-dag-data-pipeline/

Персональный блог Data Engineer | Ex-TeamLead BI Developer

Apache Airflow: docker, python, DAG, конвейер обработки данных

Apache Airflow: docker, python, DAG, конвейер обработки данных. Установка install. Учебник книга book курсы. Примеры

239 views08:03

Data Engineering / Инженерия данных / Data Engineer / DWH

awesome-apache-airflow: Curated list of resources about Apache Airflow

https://github.com/jghoman/awesome-apache-airflow

GitHub

GitHub - jghoman/awesome-apache-airflow: Curated list of resources about Apache Airflow

Curated list of resources about Apache Airflow. Contribute to jghoman/awesome-apache-airflow development by creating an account on GitHub.

207 views12:45

Data Engineering / Инженерия данных / Data Engineer / DWH

10+ Apache Airflow Courses [2022] | Learn Online for Free | Class Central
https://www.classcentral.com/subject/apache-airflow

Class Central

100+ Apache Airflow Online Courses for 2025 | Explore Free Courses & Certifications | Class Central

Master workflow orchestration and data pipeline automation using Apache Airflow's DAGs, operators, and scheduling capabilities. Build production-ready ETL pipelines with hands-on training on Udemy, LinkedIn Learning, and YouTube, integrating with AWS, Google…

216 views13:30

Data Engineering / Инженерия данных / Data Engineer / DWH

Apache Nifi Crash Course
https://www.youtube.com/watch?v=fblkgr1PJ0o

YouTube

Apache Nifi Crash Course

Introduction: This workshop will provide a hands on introduction to simple event data processing and data flow processing using a Sandbox on students’ personal machines.

Format: A short introductory lecture to Apache NiFi and computing used in the lab followed…

205 viewsedited 15:54

Data Engineering / Инженерия данных / Data Engineer / DWH

1.Introduction to Airflow
2.Airflow DAGs
3.Airflow web interface

👍1

201 views07:18

Data Engineering / Инженерия данных / Data Engineer / DWH

Forwarded from karpov.courses

Мы уже записывали видео с разбором полезных функций для работы с массивами в ClickHouse, и теперь пришло время практики. В этот раз преподавательница «Симулятора аналитика» Мария Сомова покажет, как применять массивы для решения реальной прикладной задачи.

Представьте, что вы работаете в отделе аналитики онлайн-магазина, и перед вами стоит задача оценить эффект от запуска маркетинговой кампании. Рассказываем, как сворачивать данные в массивы и применять функции из предыдущего видео для их обработки.

YouTube

Применение массивов для решения прикладной задачи в ClickHouse | Мария Сомова | karpov.courses

Симулятор аналитика: https://bit.ly/3xH64DP

Мы уже записывали видео с разбором полезных функций для работы с массивами в ClickHouse, и теперь пришло время практики. В этот раз преподавательница «Симулятора аналитика» Мария Сомова покажет, как применять массивы…

189 views17:57

About

Blog

Apps

Platform