Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Виртуальные таблицы в SQL

В этом материале автор подробно рассмотрел тему представлений в SQL: что они из себя представляют, какие бывают, для чего и как используются.

Базы данных
DBT мессия, блажь или реальность дата-инженера?

8 октября приглашаем вас на бесплатный вебинар от учебного центра Слёрм! Встретимся с опытными специалистами из мира big data, чтобы обсудить:

👉🏻 Как управлять жизненным циклом данных в мире победившего Modern Data Stack?
👉🏻 Могут ли современные инструменты преобразить процесс Data Governance и сделать его простым и быстрым?
👉🏻 Как разные компании и команды применяют dbt для решения задач Data Governance?

Эксперты встречи:
— Евгений Ермаков, руководитель платформы данных Tоlоkа.аi
— Николай Марков, Data Platform Lead в Altenar, спикер курсов Слёрма и ментор проекта «Где дата, Коль?»

📌 Когда: 8 октября в 19:00 мск
📌 Занять место на вебинаре — через бота. 

erid: LjN8KZXLd
Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями

Эпоха современных хранилищ данных началась с появления реляционных баз данных. С появлением бизнес‑аналитики следствием развития БД стала концепция Data Warehouse. Дальнейший рост объемов данных, введение термина «большие данные» и разнообразие требований к обработке привели к эволюции архитектур данных.

Базы данных
Forwarded from DataEng
Building and scaling Notion’s data lake

В июле этого года в блоге Notion вышла подробная статья об их опыте построении data lake: https://www.notion.so/blog/building-and-scaling-notions-data-lake
Forwarded from Ivan Begtin (Ivan Begtin)
Data Pond (Пруд данных) - это как data lake, но поменьше. На последнем DuckCon интересное выступление спикера из Fivetran о том как они делали озеро данных на DuckDB [1] и в блоге проекта dlthub рассуждения его основателя про portable data lake [2], а по сути это и есть data pond о чём автор и пишет. Если не обращать внимание на желание делать его именно на dlthub, в остальном такие задачи потребности реально есть.

Бывает что быстро надо развернуть инфраструктуру для хранения и обработки условно небольших данных, до нескольких десятков гигабайт и применять его в среде разработки.

А вообще термин этот хоть и не устоявшийся, но совсем не новый. А вот хорошего простого технического воплощения мне ещё не попадалось.

Ссылки:
[1] https://www.youtube.com/watch?v=I1JPB36FBOo
[2] https://dlthub.com/blog/portable-data-lake

#datatools #data #opensource
Forwarded from DE
Работа с большими данными, Hadoop, полезные ссылки:

🔵 DWH + Data Lake или что такое LakeHouse

🔵 Форматы файлов в больших данных: краткий ликбез

🔵 Допинг для аналитики: почему стоит обратить внимание на Apache Zeppelin

🔵 Apache Spark, объяснение ключевых терминов

🔵 Hadoop: что, где и зачем

🔵 Шпаргалка по командам Hadoop HDFS
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DE
Arenadata DB (Greenplum), полезные ссылки:

🟣 Arenadata

🟣 3 главных достоинства и недостатка MPP-СУБД для хранения и аналитики Big Data на примере Greenplum

🟣 Greenplum vs PostgreSQL: 7 сходств и 3 отличия

🟣 Функции на языке запросов (SQL)

🟣 Как хранить большие данных в Greenplum: ТОП-15 рекомендаций
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DE
Бесплатные курсы и туториалы:

🎓 Python for Beginners: Free Course to Learn Python Basics


🔨 Python Projects: 30 Cool, Easy & Fun Python Projects with Source Code [2023]

🚸 DSA with Python: Intro to Data Structures & Algorithms

🌐 Learn Flask: Create fully-featured, interactive web applications with Flask

🔧 Flask Projects: 10+ Unique Flask Projects with Source Code – 2023

🔄 Learn REST API with Flask: Python REST APIs With Flask, Connexion, and SQLAlchemy

🧩 Learn Multithreading & Asyncio: Python Multithreading and Multiprocessing Tutorial

🚦 Gunicorn & Nginx with Flask: How To Serve Flask Applications with Gunicorn and Nginx on Ubuntu 18.04

TDD with Python & Flask: Modern Test-Driven Development in Python

📚 Basic RDBMS: Relational Database Management System

🐘 PostgreSQL with Python

🎁 Flask App with PostgreSQL: Build your first REST API with Flask and PostgreSQL

💻 Basics of Bash: Basics of BASH for Beginners

🐳 Basics of Docker: A Step by Step Guide on Docker for Beginners

🚢 Deploy Flask App with Docker: How To Build and Deploy a Flask Application Using Docker on Ubuntu 20.04

🌟 Learn Git & GitHub
Forwarded from Alex. Seconds.
💡А вы знали, что…

AWS #Lambda функции можно запускать прямо из SQL, который выполняется на PostgreSQL в AWS #RDS? И синхронно и асинхронно. И можно даже кусочек лога (до 4KB) выполнения функции вернуть в результаты запроса, если очень хочется :)

SELECT * FROM aws_lambda.invoke('aws_lambda_arn_1', '{"body": "Hello from Postgres!"}'::json);

Источник: https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/PostgreSQL-Lambda-examples.html#PostgreSQL-Lambda-log-response
OPEN SOURCE DATA ENGINEERING LANDSCAPE 2024
#OSDEL #OSDEL2024