What is a Data Platform? And How to Build One
In this post:
- What is a data platform?
- The six must-have layers of a modern data platform
- Data Storage and Processing
- Data Ingestion
- Data Transformation and Modeling
- Business Intelligence (BI) and Analytics
- Data Observability
- Data Discovery
- Data platform vs. customer data platform
- Build or buy your 6-layer data platform? It depends.
https://www.montecarlodata.com/blog-what-is-a-data-platform-and-how-to-build-one/
In this post:
- What is a data platform?
- The six must-have layers of a modern data platform
- Data Storage and Processing
- Data Ingestion
- Data Transformation and Modeling
- Business Intelligence (BI) and Analytics
- Data Observability
- Data Discovery
- Data platform vs. customer data platform
- Build or buy your 6-layer data platform? It depends.
https://www.montecarlodata.com/blog-what-is-a-data-platform-and-how-to-build-one/
Monte Carlo Data
What Is A Data Platform And How Do You Build One?
A data platform is a central repository and processing house for all of an organization's data. Here's how to build an awesome data platform.
Data_Algorithms_with_Spark_Recipes_and_Design_Patterns_for_Scaling.pdf
12.6 MB
Data Algorithms with Spark Recipes and Design Patterns for Scaling Up using PySpark (Mahmoud Parsian).pdf
Linux_Книга_рецептов_Карла_Шрёдер_z_lib_org.pdf
9.7 MB
Linux. Книга рецептов (Карла Шрёдер).pdf
What Good Data Product Managers Do – And Why You Probably Need One
https://www.montecarlodata.com/blog-what-good-data-product-managers-do-and-why-you-probably-need-one/
https://www.montecarlodata.com/blog-what-good-data-product-managers-do-and-why-you-probably-need-one/
Monte Carlo Data
What Good Data Product Managers Do — And Why You Probably Need One
A data product manager is responsible for data democratization and increasing the time to value for the data itself.
Потоковая_обработка_данных_с_Apache_Flink_Фабиан_Уэске,_Василики.pdf
10.9 MB
Потоковая обработка данных с Apache Flink (Фабиан Уэске, Василики Калаври).pdf
Начните работу с Apache Flink, фреймворком с открытым исходным кодом, на котором основаны многие крупнейшие в мире системы обработки потоковых данных. В данной книге вы изучите фундаментальные понятия параллельной потоковой обработки и узнаете, чем эта технология отличается от традиционной пакетной обработки данных.
Ф. Уэске и В. Калаври, занятые в проекте Apache Flink с первых дней, покажут вам, как создавать масштабируемые потоковые приложения с помощью API Flink DataStream, а также непрерывно выполнять и поддерживать эти приложения в операционных средах.
Потоковая обработка идеально подходит для многих задач: подготовки данных с малой задержкой, потоковой аналитики и информационных панелей в реальном времени, раннего оповещения и обнаружения мошенничества. Вы можете обрабатывать потоковые данные любого типа, включая взаимодействия с пользователем, финансовые транзакции и данные интернета вещей, немедленно после получения.
Начните работу с Apache Flink, фреймворком с открытым исходным кодом, на котором основаны многие крупнейшие в мире системы обработки потоковых данных. В данной книге вы изучите фундаментальные понятия параллельной потоковой обработки и узнаете, чем эта технология отличается от традиционной пакетной обработки данных.
Ф. Уэске и В. Калаври, занятые в проекте Apache Flink с первых дней, покажут вам, как создавать масштабируемые потоковые приложения с помощью API Flink DataStream, а также непрерывно выполнять и поддерживать эти приложения в операционных средах.
Потоковая обработка идеально подходит для многих задач: подготовки данных с малой задержкой, потоковой аналитики и информационных панелей в реальном времени, раннего оповещения и обнаружения мошенничества. Вы можете обрабатывать потоковые данные любого типа, включая взаимодействия с пользователем, финансовые транзакции и данные интернета вещей, немедленно после получения.
Принципы_организации_распределенных_баз_данных_М_Тамер_Ёcy,_Патрик.pdf
9 MB
Принципы организации распределенных баз данных (М. Тамер Ёcy, Патрик Вальдуриес).pdf
В книге представлено подробное описание распределенных и параллельных баз данных с учетом новейших технологий. Авторы затрагивают такие темы, как проектирование распределенных и параллельных БД, контроль распределенных данных, распределенная обработка запросов и транзакций, интеграция баз данных. Отдельная глава посвящена обработке больших данных (в частности, обсуждаются распределенные системы хранения, потоковая обработка данных, платформы MapReduce и Spark, анализ графов и озера данных). Обработка веб-данных рассматривается с акцентом на технологию RDF, получившую широкое распространение.
В конце глав 2–12 приводятся упражнения, позволяющие закрепить теоретический материал. На сопроводительном сайте читатели найдут информацию об основах реляционных баз данных, обработке запросов, управлении транзакциями и компьютерных сетях.
В книге представлено подробное описание распределенных и параллельных баз данных с учетом новейших технологий. Авторы затрагивают такие темы, как проектирование распределенных и параллельных БД, контроль распределенных данных, распределенная обработка запросов и транзакций, интеграция баз данных. Отдельная глава посвящена обработке больших данных (в частности, обсуждаются распределенные системы хранения, потоковая обработка данных, платформы MapReduce и Spark, анализ графов и озера данных). Обработка веб-данных рассматривается с акцентом на технологию RDF, получившую широкое распространение.
В конце глав 2–12 приводятся упражнения, позволяющие закрепить теоретический материал. На сопроводительном сайте читатели найдут информацию об основах реляционных баз данных, обработке запросов, управлении транзакциями и компьютерных сетях.
Видео с конференции Airflow 2022
https://youtube.com/playlist?list=PLGudixcDaxY2LxjeHpZRtzq7miykjjFOn
https://youtube.com/playlist?list=PLGudixcDaxY2LxjeHpZRtzq7miykjjFOn
Создание современной платформы для работы с данными с помощью Open-Source-решений
https://habr.com/en/company/vk/blog/671642/
https://habr.com/en/company/vk/blog/671642/
Habr
Создание современной платформы для работы с данными с помощью Open-Source-решений
Команда VK Cloud Solutions перевела краткий конспект с Open Source Data Stack Conference . Конференция была посвящена созданию платформ для работы с данными на базе Open-Source-решений —докладчики...
Зачем вам Dagster, если есть AirFlow: сравнение ETL-оркестраторов
https://www.bigdataschool.ru/blog/dagster-vs-airflow-dag-orchestration-in-big-data.html
https://www.bigdataschool.ru/blog/dagster-vs-airflow-dag-orchestration-in-big-data.html
Краткое описание Airflow с инструкцией по установке через docker-compose
https://ivan-shamaev.ru/apache-airflow-docker-python-dag-data-pipeline/
https://ivan-shamaev.ru/apache-airflow-docker-python-dag-data-pipeline/
Персональный блог Data Engineer | Ex-TeamLead BI Developer
Apache Airflow: docker, python, DAG, конвейер обработки данных
Apache Airflow: docker, python, DAG, конвейер обработки данных. Установка install. Учебник книга book курсы. Примеры
awesome-apache-airflow: Curated list of resources about Apache Airflow
https://github.com/jghoman/awesome-apache-airflow
https://github.com/jghoman/awesome-apache-airflow
GitHub
GitHub - jghoman/awesome-apache-airflow: Curated list of resources about Apache Airflow
Curated list of resources about Apache Airflow. Contribute to jghoman/awesome-apache-airflow development by creating an account on GitHub.
10+ Apache Airflow Courses [2022] | Learn Online for Free | Class Central
https://www.classcentral.com/subject/apache-airflow
https://www.classcentral.com/subject/apache-airflow
Class Central
100+ Apache Airflow Online Courses for 2025 | Explore Free Courses & Certifications | Class Central
Master workflow orchestration and data pipeline automation using Apache Airflow's DAGs, operators, and scheduling capabilities. Build production-ready ETL pipelines with hands-on training on Udemy, LinkedIn Learning, and YouTube, integrating with AWS, Google…
Apache Nifi Crash Course
https://www.youtube.com/watch?v=fblkgr1PJ0o
https://www.youtube.com/watch?v=fblkgr1PJ0o
YouTube
Apache Nifi Crash Course
Introduction: This workshop will provide a hands on introduction to simple event data processing and data flow processing using a Sandbox on students’ personal machines.
Format: A short introductory lecture to Apache NiFi and computing used in the lab followed…
Format: A short introductory lecture to Apache NiFi and computing used in the lab followed…
1.Introduction to Airflow
2.Airflow DAGs
3.Airflow web interface
2.Airflow DAGs
3.Airflow web interface
👍1
Forwarded from karpov.courses
Мы уже записывали видео с разбором полезных функций для работы с массивами в ClickHouse, и теперь пришло время практики. В этот раз преподавательница «Симулятора аналитика» Мария Сомова покажет, как применять массивы для решения реальной прикладной задачи.
Представьте, что вы работаете в отделе аналитики онлайн-магазина, и перед вами стоит задача оценить эффект от запуска маркетинговой кампании. Рассказываем, как сворачивать данные в массивы и применять функции из предыдущего видео для их обработки.
Представьте, что вы работаете в отделе аналитики онлайн-магазина, и перед вами стоит задача оценить эффект от запуска маркетинговой кампании. Рассказываем, как сворачивать данные в массивы и применять функции из предыдущего видео для их обработки.
YouTube
Применение массивов для решения прикладной задачи в ClickHouse | Мария Сомова | karpov.courses
Симулятор аналитика: https://bit.ly/3xH64DP
Мы уже записывали видео с разбором полезных функций для работы с массивами в ClickHouse, и теперь пришло время практики. В этот раз преподавательница «Симулятора аналитика» Мария Сомова покажет, как применять массивы…
Мы уже записывали видео с разбором полезных функций для работы с массивами в ClickHouse, и теперь пришло время практики. В этот раз преподавательница «Симулятора аналитика» Мария Сомова покажет, как применять массивы…