Forwarded from Базы данных | Access, SQL, Big Data
Виртуальные таблицы в SQL
В этом материале автор подробно рассмотрел тему представлений в SQL: что они из себя представляют, какие бывают, для чего и как используются.
Базы данных
В этом материале автор подробно рассмотрел тему представлений в SQL: что они из себя представляют, какие бывают, для чего и как используются.
Базы данных
Forwarded from Базы данных | Access, SQL, Big Data
DBT – мессия, блажь или реальность дата-инженера?
8 октября приглашаем вас на бесплатный вебинар от учебного центра Слёрм! Встретимся с опытными специалистами из мира big data, чтобы обсудить:
👉🏻 Как управлять жизненным циклом данных в мире победившего Modern Data Stack?
👉🏻 Могут ли современные инструменты преобразить процесс Data Governance и сделать его простым и быстрым?
👉🏻 Как разные компании и команды применяют dbt для решения задач Data Governance?
Эксперты встречи:
— Евгений Ермаков, руководитель платформы данных Tоlоkа.аi
— Николай Марков, Data Platform Lead в Altenar, спикер курсов Слёрма и ментор проекта «Где дата, Коль?»
📌 Когда: 8 октября в 19:00 мск
📌 Занять место на вебинаре — через бота.
erid: LjN8KZXLd
8 октября приглашаем вас на бесплатный вебинар от учебного центра Слёрм! Встретимся с опытными специалистами из мира big data, чтобы обсудить:
👉🏻 Как управлять жизненным циклом данных в мире победившего Modern Data Stack?
👉🏻 Могут ли современные инструменты преобразить процесс Data Governance и сделать его простым и быстрым?
👉🏻 Как разные компании и команды применяют dbt для решения задач Data Governance?
Эксперты встречи:
— Евгений Ермаков, руководитель платформы данных Tоlоkа.аi
— Николай Марков, Data Platform Lead в Altenar, спикер курсов Слёрма и ментор проекта «Где дата, Коль?»
📌 Когда: 8 октября в 19:00 мск
📌 Занять место на вебинаре — через бота.
erid: LjN8KZXLd
Forwarded from Базы данных | Access, SQL, Big Data
Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями
Эпоха современных хранилищ данных началась с появления реляционных баз данных. С появлением бизнес‑аналитики следствием развития БД стала концепция Data Warehouse. Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных.
Базы данных
Эпоха современных хранилищ данных началась с появления реляционных баз данных. С появлением бизнес‑аналитики следствием развития БД стала концепция Data Warehouse. Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных.
Базы данных
Forwarded from DataEng
Building and scaling Notion’s data lake
В июле этого года в блоге Notion вышла подробная статья об их опыте построении data lake: https://www.notion.so/blog/building-and-scaling-notions-data-lake
В июле этого года в блоге Notion вышла подробная статья об их опыте построении data lake: https://www.notion.so/blog/building-and-scaling-notions-data-lake
Notion
How Notion build and grew our data lake to keep up with rapid growth
Видео Airflow Summit 2024
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines with Apache Airflow
— LLMs for Software Development & Apache Airflow
— The road ahead: What’s coming in Airflow 3 and beyond?
— 10 years of Airflow: history, insights, and looking forward
Остальные доклады можно найти на официальном Ютуб-канале Apache Airflow
https://t.iss.one/dataeng/620
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines with Apache Airflow
— LLMs for Software Development & Apache Airflow
— The road ahead: What’s coming in Airflow 3 and beyond?
— 10 years of Airflow: history, insights, and looking forward
Остальные доклады можно найти на официальном Ютуб-канале Apache Airflow
https://t.iss.one/dataeng/620
Telegram
DataEng
Видео Airflow Summit 2024
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines…
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines…
Forwarded from Ivan Begtin (Ivan Begtin)
Data Pond (Пруд данных) - это как data lake, но поменьше. На последнем DuckCon интересное выступление спикера из Fivetran о том как они делали озеро данных на DuckDB [1] и в блоге проекта dlthub рассуждения его основателя про portable data lake [2], а по сути это и есть data pond о чём автор и пишет. Если не обращать внимание на желание делать его именно на dlthub, в остальном такие задачи потребности реально есть.
Бывает что быстро надо развернуть инфраструктуру для хранения и обработки условно небольших данных, до нескольких десятков гигабайт и применять его в среде разработки.
А вообще термин этот хоть и не устоявшийся, но совсем не новый. А вот хорошего простого технического воплощения мне ещё не попадалось.
Ссылки:
[1] https://www.youtube.com/watch?v=I1JPB36FBOo
[2] https://dlthub.com/blog/portable-data-lake
#datatools #data #opensource
Бывает что быстро надо развернуть инфраструктуру для хранения и обработки условно небольших данных, до нескольких десятков гигабайт и применять его в среде разработки.
А вообще термин этот хоть и не устоявшийся, но совсем не новый. А вот хорошего простого технического воплощения мне ещё не попадалось.
Ссылки:
[1] https://www.youtube.com/watch?v=I1JPB36FBOo
[2] https://dlthub.com/blog/portable-data-lake
#datatools #data #opensource
YouTube
Building Data Lake Using DuckDB (DuckCon #4, Amsterdam, 2024)
Speaker: Subash Roul (Fivetran)
Slides: https://blobs.duckdb.org/events/duckcon4/subash-roul-building-a-data-lake-solution-using-duckdb.pdf
Slides: https://blobs.duckdb.org/events/duckcon4/subash-roul-building-a-data-lake-solution-using-duckdb.pdf
Forwarded from DataEng
Видео Airflow Summit 2024
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines with Apache Airflow
— LLMs for Software Development & Apache Airflow
— The road ahead: What’s coming in Airflow 3 and beyond?
— 10 years of Airflow: history, insights, and looking forward
Остальные доклады можно найти на официальном Ютуб-канале Apache Airflow
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines with Apache Airflow
— LLMs for Software Development & Apache Airflow
— The road ahead: What’s coming in Airflow 3 and beyond?
— 10 years of Airflow: history, insights, and looking forward
Остальные доклады можно найти на официальном Ютуб-канале Apache Airflow
YouTube
Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
Presented by Astronomer at Airflow Summit 2024.
Airflow is widely adopted for its flexibility and scalability. However, as workflows grow in complexity and scale, optimizing Airflow performance becomes crucial for efficient execution and resource utilization.…
Airflow is widely adopted for its flexibility and scalability. However, as workflows grow in complexity and scale, optimizing Airflow performance becomes crucial for efficient execution and resource utilization.…
Forwarded from DE
Работа с большими данными, Hadoop, полезные ссылки:
🔵 DWH + Data Lake или что такое LakeHouse
🔵 Форматы файлов в больших данных: краткий ликбез
🔵 Допинг для аналитики: почему стоит обратить внимание на Apache Zeppelin
🔵 Apache Spark, объяснение ключевых терминов
🔵 Hadoop: что, где и зачем
🔵 Шпаргалка по командам Hadoop HDFS
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DE
Arenadata DB (Greenplum), полезные ссылки:
🟣 Arenadata
🟣 3 главных достоинства и недостатка MPP-СУБД для хранения и аналитики Big Data на примере Greenplum
🟣 Greenplum vs PostgreSQL: 7 сходств и 3 отличия
🟣 Функции на языке запросов (SQL)
🟣 Как хранить большие данных в Greenplum: ТОП-15 рекомендаций
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DE
Бесплатные курсы и туториалы:
🎓 Python for Beginners: Free Course to Learn Python Basics
🔨 Python Projects: 30 Cool, Easy & Fun Python Projects with Source Code [2023]
🚸 DSA with Python: Intro to Data Structures & Algorithms
🌐 Learn Flask: Create fully-featured, interactive web applications with Flask
🔧 Flask Projects: 10+ Unique Flask Projects with Source Code – 2023
🔄 Learn REST API with Flask: Python REST APIs With Flask, Connexion, and SQLAlchemy
🧩 Learn Multithreading & Asyncio: Python Multithreading and Multiprocessing Tutorial
🚦 Gunicorn & Nginx with Flask: How To Serve Flask Applications with Gunicorn and Nginx on Ubuntu 18.04
✅ TDD with Python & Flask: Modern Test-Driven Development in Python
📚 Basic RDBMS: Relational Database Management System
🐘 PostgreSQL with Python
🎁 Flask App with PostgreSQL: Build your first REST API with Flask and PostgreSQL
💻 Basics of Bash: Basics of BASH for Beginners
🐳 Basics of Docker: A Step by Step Guide on Docker for Beginners
🚢 Deploy Flask App with Docker: How To Build and Deploy a Flask Application Using Docker on Ubuntu 20.04
🌟 Learn Git & GitHub
🎓 Python for Beginners: Free Course to Learn Python Basics
🔨 Python Projects: 30 Cool, Easy & Fun Python Projects with Source Code [2023]
🚸 DSA with Python: Intro to Data Structures & Algorithms
🌐 Learn Flask: Create fully-featured, interactive web applications with Flask
🔧 Flask Projects: 10+ Unique Flask Projects with Source Code – 2023
🔄 Learn REST API with Flask: Python REST APIs With Flask, Connexion, and SQLAlchemy
🧩 Learn Multithreading & Asyncio: Python Multithreading and Multiprocessing Tutorial
🚦 Gunicorn & Nginx with Flask: How To Serve Flask Applications with Gunicorn and Nginx on Ubuntu 18.04
✅ TDD with Python & Flask: Modern Test-Driven Development in Python
📚 Basic RDBMS: Relational Database Management System
🐘 PostgreSQL with Python
🎁 Flask App with PostgreSQL: Build your first REST API with Flask and PostgreSQL
💻 Basics of Bash: Basics of BASH for Beginners
🐳 Basics of Docker: A Step by Step Guide on Docker for Beginners
🚢 Deploy Flask App with Docker: How To Build and Deploy a Flask Application Using Docker on Ubuntu 20.04
🌟 Learn Git & GitHub
Forwarded from DataEng
Видео Airflow Summit 2024
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines with Apache Airflow
— LLMs for Software Development & Apache Airflow
— The road ahead: What’s coming in Airflow 3 and beyond?
— 10 years of Airflow: history, insights, and looking forward
Остальные доклады можно найти на официальном Ютуб-канале Apache Airflow
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines with Apache Airflow
— LLMs for Software Development & Apache Airflow
— The road ahead: What’s coming in Airflow 3 and beyond?
— 10 years of Airflow: history, insights, and looking forward
Остальные доклады можно найти на официальном Ютуб-канале Apache Airflow
YouTube
Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
Presented by Astronomer at Airflow Summit 2024.
Airflow is widely adopted for its flexibility and scalability. However, as workflows grow in complexity and scale, optimizing Airflow performance becomes crucial for efficient execution and resource utilization.…
Airflow is widely adopted for its flexibility and scalability. However, as workflows grow in complexity and scale, optimizing Airflow performance becomes crucial for efficient execution and resource utilization.…
Forwarded from Alex. Seconds.
💡А вы знали, что…
AWS #Lambda функции можно запускать прямо из SQL, который выполняется на PostgreSQL в AWS #RDS? И синхронно и асинхронно. И можно даже кусочек лога (до 4KB) выполнения функции вернуть в результаты запроса, если очень хочется :)
Источник: https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/PostgreSQL-Lambda-examples.html#PostgreSQL-Lambda-log-response
AWS #Lambda функции можно запускать прямо из SQL, который выполняется на PostgreSQL в AWS #RDS? И синхронно и асинхронно. И можно даже кусочек лога (до 4KB) выполнения функции вернуть в результаты запроса, если очень хочется :)
SELECT * FROM aws_lambda.invoke('aws_lambda_arn_1', '{"body": "Hello from Postgres!"}'::json);Источник: https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/PostgreSQL-Lambda-examples.html#PostgreSQL-Lambda-log-response
Видео Airflow Summit 2024
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines with Apache Airflow
— LLMs for Software Development & Apache Airflow
— The road ahead: What’s coming in Airflow 3 and beyond?
— 10 years of Airflow: history, insights, and looking forward
Остальные доклады можно найти на официальном Ютуб-канале Apache Airflow
- https://www.youtube.com/@ApacheAirflow/videos
Из интересного:
- Видео про roadmap
- Performance tuning
- Event-driven DAGs
Не шибко густо и много, но в целом норм. Для поддержания актуальных знаний - хватит.
@ohmydataengineer - канал "🕯 Труба Данных" который продолжает следить за Airflow
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines with Apache Airflow
— LLMs for Software Development & Apache Airflow
— The road ahead: What’s coming in Airflow 3 and beyond?
— 10 years of Airflow: history, insights, and looking forward
Остальные доклады можно найти на официальном Ютуб-канале Apache Airflow
- https://www.youtube.com/@ApacheAirflow/videos
Из интересного:
- Видео про roadmap
- Performance tuning
- Event-driven DAGs
Не шибко густо и много, но в целом норм. Для поддержания актуальных знаний - хватит.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Apache Airflow
This channel is a central repository for all talks and videos related to Apache Airflow.
Check out airflow.apache.org for more information.
Apache Airflow, Apache, Airflow, the Airflow logo, and the Apache feather logo are either registered trademarks or…
Check out airflow.apache.org for more information.
Apache Airflow, Apache, Airflow, the Airflow logo, and the Apache feather logo are either registered trademarks or…