Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
Data Pond (Пруд данных) - это как data lake, но поменьше. На последнем DuckCon интересное выступление спикера из Fivetran о том как они делали озеро данных на DuckDB [1] и в блоге проекта dlthub рассуждения его основателя про portable data lake [2], а по сути это и есть data pond о чём автор и пишет. Если не обращать внимание на желание делать его именно на dlthub, в остальном такие задачи потребности реально есть.

Бывает что быстро надо развернуть инфраструктуру для хранения и обработки условно небольших данных, до нескольких десятков гигабайт и применять его в среде разработки.

А вообще термин этот хоть и не устоявшийся, но совсем не новый. А вот хорошего простого технического воплощения мне ещё не попадалось.

Ссылки:
[1] https://www.youtube.com/watch?v=I1JPB36FBOo
[2] https://dlthub.com/blog/portable-data-lake

#datatools #data #opensource
Forwarded from DE
Работа с большими данными, Hadoop, полезные ссылки:

🔵 DWH + Data Lake или что такое LakeHouse

🔵 Форматы файлов в больших данных: краткий ликбез

🔵 Допинг для аналитики: почему стоит обратить внимание на Apache Zeppelin

🔵 Apache Spark, объяснение ключевых терминов

🔵 Hadoop: что, где и зачем

🔵 Шпаргалка по командам Hadoop HDFS
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DE
Arenadata DB (Greenplum), полезные ссылки:

🟣 Arenadata

🟣 3 главных достоинства и недостатка MPP-СУБД для хранения и аналитики Big Data на примере Greenplum

🟣 Greenplum vs PostgreSQL: 7 сходств и 3 отличия

🟣 Функции на языке запросов (SQL)

🟣 Как хранить большие данных в Greenplum: ТОП-15 рекомендаций
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DE
Бесплатные курсы и туториалы:

🎓 Python for Beginners: Free Course to Learn Python Basics


🔨 Python Projects: 30 Cool, Easy & Fun Python Projects with Source Code [2023]

🚸 DSA with Python: Intro to Data Structures & Algorithms

🌐 Learn Flask: Create fully-featured, interactive web applications with Flask

🔧 Flask Projects: 10+ Unique Flask Projects with Source Code – 2023

🔄 Learn REST API with Flask: Python REST APIs With Flask, Connexion, and SQLAlchemy

🧩 Learn Multithreading & Asyncio: Python Multithreading and Multiprocessing Tutorial

🚦 Gunicorn & Nginx with Flask: How To Serve Flask Applications with Gunicorn and Nginx on Ubuntu 18.04

TDD with Python & Flask: Modern Test-Driven Development in Python

📚 Basic RDBMS: Relational Database Management System

🐘 PostgreSQL with Python

🎁 Flask App with PostgreSQL: Build your first REST API with Flask and PostgreSQL

💻 Basics of Bash: Basics of BASH for Beginners

🐳 Basics of Docker: A Step by Step Guide on Docker for Beginners

🚢 Deploy Flask App with Docker: How To Build and Deploy a Flask Application Using Docker on Ubuntu 20.04

🌟 Learn Git & GitHub
Forwarded from Alex. Seconds.
💡А вы знали, что…

AWS #Lambda функции можно запускать прямо из SQL, который выполняется на PostgreSQL в AWS #RDS? И синхронно и асинхронно. И можно даже кусочек лога (до 4KB) выполнения функции вернуть в результаты запроса, если очень хочется :)

SELECT * FROM aws_lambda.invoke('aws_lambda_arn_1', '{"body": "Hello from Postgres!"}'::json);

Источник: https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/PostgreSQL-Lambda-examples.html#PostgreSQL-Lambda-log-response
OPEN SOURCE DATA ENGINEERING LANDSCAPE 2024
#OSDEL #OSDEL2024
Forwarded from Женя Янченко
Операции записи и чтения по кворуму

Для n реплик
Операция записи должна быть подтверждена w реплик
Операция чтения должна опросить r реплик

Операции записи и чтения, удовлетворяющие соотношению
w + r > n
называются операциями по кворуму.

Можно рассматривать r и w как минимальные количества «голосов», необходимых для признания операции чтения или записи приемлемой.

Значения n,w и r обычно можно настраивать.
Чаще всего n делают нечетным (обычно 3 или 5),
а w = r = (n + 1) / 2 (с округлением в большую сторону).

Если у нас мало операций записи и много операций чтения, то можно увеличить w и уменьшить r.

Базы данных с кворумом могут выдержать отказы и замедление работы отдельных реплик, поскольку запросам не нужно ждать ответа от всех n реплик — достаточно, чтобы ответили w или r реплик.

Например, при n = 5, w = 3, r = 3 система может позволить себе 2 недоступных узла.

Поэтому БД с репликацией без лидера подходят для приложений:
🟣с высокой доступность
🟣с низкой задержкой
🟣допускающих иногда чтение устаревших данных

На мой взгляд эти характеристики подходят, например, соцсетям.

Нестрогий кворум и направленная передача

В кластере может быть много реплик, из которых мы выделяем n для кворума. Возможна ситуация, когда во время сбоя сети клиент может подключиться к каким-то репликам, но не к тем, которые выделены ему для кворума. Если в этом случае база все равно запишет значения, пусть и не в «родные» n реплик, то мы получим нестрогий кворум (sloppy quorum).

После исправления сбоя сети все операции записи, временно отправленные в какую-либо реплику вместо недоступной, отправляются в соответствующие «родные» реплики. Это называется направленной передачей (hinted handoff).

Нестрогие кворумы полезны для повышения доступности для записи: база может принимать операции записи до тех пор, пока доступны любые w реплик. Однако в случае нестрого кворума нельзя гарантировать чтение актуального значения даже из r реплик, поскольку актуальное значение может быть временно записано на какие-то реплики вне множества n.

Нестрогие кворумы — дополнительная возможность, могут быть по-умолчанию отключены.

#кабанчик #сисдиз #репликация
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Engineer Jobs
Ребята, привет!
Я создаю платформу для дата-инженеров — сайт, который поможет специалистам в карьерном развитии, а компаниям найти нужных профессионалов.

На сайте я планирую раздел, где будет представлен список DE-менторов. Если вы занимаетесь индивидуальным менторством, могу разместить информацию о вас там. Это бесплатно, никаких условий нет.

Также, если у вас есть статьи по теме DE, могу разместить их на сайте с указанием авторства и ссылками на ваши ресурсы.

Если вы заинтересованы, напишите, пожалуйста, в личные сообщения мне, админу этого канала @storm_de. Я отправлю ссылку на сайт и покажу, как это будет выглядеть. Здесь ссылку пока не публикую, так как сайт еще в разработке.
Forwarded from Alex Belozersky
В ВК облаке под елочку будет релиз trino-iceberg-s3 коробки. К этой коробке комплиментарен имеющийся spark-k8s.

Осталось придумать как максимально быстро бесшовно приделать к этом гринпламы и кликхаусы которые пока в моменте правят бал бигдаты в рф.