Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Forwarded from DE
Работа с большими данными, Hadoop, полезные ссылки:

🔵 DWH + Data Lake или что такое LakeHouse

🔵 Форматы файлов в больших данных: краткий ликбез

🔵 Допинг для аналитики: почему стоит обратить внимание на Apache Zeppelin

🔵 Apache Spark, объяснение ключевых терминов

🔵 Hadoop: что, где и зачем

🔵 Шпаргалка по командам Hadoop HDFS
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DE
Arenadata DB (Greenplum), полезные ссылки:

🟣 Arenadata

🟣 3 главных достоинства и недостатка MPP-СУБД для хранения и аналитики Big Data на примере Greenplum

🟣 Greenplum vs PostgreSQL: 7 сходств и 3 отличия

🟣 Функции на языке запросов (SQL)

🟣 Как хранить большие данных в Greenplum: ТОП-15 рекомендаций
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DE
Бесплатные курсы и туториалы:

🎓 Python for Beginners: Free Course to Learn Python Basics


🔨 Python Projects: 30 Cool, Easy & Fun Python Projects with Source Code [2023]

🚸 DSA with Python: Intro to Data Structures & Algorithms

🌐 Learn Flask: Create fully-featured, interactive web applications with Flask

🔧 Flask Projects: 10+ Unique Flask Projects with Source Code – 2023

🔄 Learn REST API with Flask: Python REST APIs With Flask, Connexion, and SQLAlchemy

🧩 Learn Multithreading & Asyncio: Python Multithreading and Multiprocessing Tutorial

🚦 Gunicorn & Nginx with Flask: How To Serve Flask Applications with Gunicorn and Nginx on Ubuntu 18.04

TDD with Python & Flask: Modern Test-Driven Development in Python

📚 Basic RDBMS: Relational Database Management System

🐘 PostgreSQL with Python

🎁 Flask App with PostgreSQL: Build your first REST API with Flask and PostgreSQL

💻 Basics of Bash: Basics of BASH for Beginners

🐳 Basics of Docker: A Step by Step Guide on Docker for Beginners

🚢 Deploy Flask App with Docker: How To Build and Deploy a Flask Application Using Docker on Ubuntu 20.04

🌟 Learn Git & GitHub
Forwarded from Alex. Seconds.
💡А вы знали, что…

AWS #Lambda функции можно запускать прямо из SQL, который выполняется на PostgreSQL в AWS #RDS? И синхронно и асинхронно. И можно даже кусочек лога (до 4KB) выполнения функции вернуть в результаты запроса, если очень хочется :)

SELECT * FROM aws_lambda.invoke('aws_lambda_arn_1', '{"body": "Hello from Postgres!"}'::json);

Источник: https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/PostgreSQL-Lambda-examples.html#PostgreSQL-Lambda-log-response
OPEN SOURCE DATA ENGINEERING LANDSCAPE 2024
#OSDEL #OSDEL2024
Forwarded from Женя Янченко
Операции записи и чтения по кворуму

Для n реплик
Операция записи должна быть подтверждена w реплик
Операция чтения должна опросить r реплик

Операции записи и чтения, удовлетворяющие соотношению
w + r > n
называются операциями по кворуму.

Можно рассматривать r и w как минимальные количества «голосов», необходимых для признания операции чтения или записи приемлемой.

Значения n,w и r обычно можно настраивать.
Чаще всего n делают нечетным (обычно 3 или 5),
а w = r = (n + 1) / 2 (с округлением в большую сторону).

Если у нас мало операций записи и много операций чтения, то можно увеличить w и уменьшить r.

Базы данных с кворумом могут выдержать отказы и замедление работы отдельных реплик, поскольку запросам не нужно ждать ответа от всех n реплик — достаточно, чтобы ответили w или r реплик.

Например, при n = 5, w = 3, r = 3 система может позволить себе 2 недоступных узла.

Поэтому БД с репликацией без лидера подходят для приложений:
🟣с высокой доступность
🟣с низкой задержкой
🟣допускающих иногда чтение устаревших данных

На мой взгляд эти характеристики подходят, например, соцсетям.

Нестрогий кворум и направленная передача

В кластере может быть много реплик, из которых мы выделяем n для кворума. Возможна ситуация, когда во время сбоя сети клиент может подключиться к каким-то репликам, но не к тем, которые выделены ему для кворума. Если в этом случае база все равно запишет значения, пусть и не в «родные» n реплик, то мы получим нестрогий кворум (sloppy quorum).

После исправления сбоя сети все операции записи, временно отправленные в какую-либо реплику вместо недоступной, отправляются в соответствующие «родные» реплики. Это называется направленной передачей (hinted handoff).

Нестрогие кворумы полезны для повышения доступности для записи: база может принимать операции записи до тех пор, пока доступны любые w реплик. Однако в случае нестрого кворума нельзя гарантировать чтение актуального значения даже из r реплик, поскольку актуальное значение может быть временно записано на какие-то реплики вне множества n.

Нестрогие кворумы — дополнительная возможность, могут быть по-умолчанию отключены.

#кабанчик #сисдиз #репликация
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Engineer Jobs
Ребята, привет!
Я создаю платформу для дата-инженеров — сайт, который поможет специалистам в карьерном развитии, а компаниям найти нужных профессионалов.

На сайте я планирую раздел, где будет представлен список DE-менторов. Если вы занимаетесь индивидуальным менторством, могу разместить информацию о вас там. Это бесплатно, никаких условий нет.

Также, если у вас есть статьи по теме DE, могу разместить их на сайте с указанием авторства и ссылками на ваши ресурсы.

Если вы заинтересованы, напишите, пожалуйста, в личные сообщения мне, админу этого канала @storm_de. Я отправлю ссылку на сайт и покажу, как это будет выглядеть. Здесь ссылку пока не публикую, так как сайт еще в разработке.
Forwarded from Alex Belozersky
В ВК облаке под елочку будет релиз trino-iceberg-s3 коробки. К этой коробке комплиментарен имеющийся spark-k8s.

Осталось придумать как максимально быстро бесшовно приделать к этом гринпламы и кликхаусы которые пока в моменте правят бал бигдаты в рф.
https://t.iss.one/DE_events/1183

#запись в YouTube
...
- 1:06:43 | Богдан Глебов «Как мы съели ПУД соли выстраивая data management (и почти не подавились)»
- 1:34:49 | Даниил Понизов «Создание #MLOps-платформы для десятка команд на основе Airflow»
- 2:10:08 | Дмитрий Лахвич «Floppa the #LakeHouse»

Cмотреть в VK

https://t.iss.one/hadoopusers/211544 #watch
Data Engineering / reposts & drafts
https://youtu.be/Riouu4szE5g
Yandex MetaData Hub: как управлять метаданными в облаке
00:04:26 Введение
• Светлана Марченко, руководитель группы управления транспортом и сервисами метаданных.
• Рост количества данных усложняет их организацию и требует специальных инструментов.
• Обсуждение инструментов в Яндекс Клауд, доступных в сервисе Метод Дата Хаб.

00:04:59 План доклада
• Введение в метаданные и их виды.
• Примеры использования метаданных для описания таблиц.
• Важность управления метаданными для аналитики и разработки.

00:07:10 Преимущества управления метаданными
• Управление метаданными помогает ориентироваться в данных и анализировать их.
• Полезно для аналитиков, разработчиков и бизнеса.
• Оптимизация данных и улучшение качества данных.

00:09:35 Инструменты в Метод Дата Хаб
• Коннекшн-менеджер для управления параметрами подключения.
• Схема Регистрари для загрузки и настройки схем.
• Хайф Метастор для хранения структурных метаданных.
• Дата.Дата для сбора и описания данных.

00:10:35 Пример использования Коннекшн-менеджера
• Создание пользователя для доступа к данным.
• Управление доступом к данным без раздачи паролей.
• Автоматическая генерация надежных паролей.

00:12:03 Управление доступом к подключениям
• Создание нового пользователя с автоматической генерацией пароля.
• Управление правами доступа к подключениям.
• Интеграция с управляемыми базами данных и другими сервисами.

00:14:43 Интеграция с другими сервисами
• Интеграция с Вьюзом и Дата Трансфер.
• Удобство использования параметров подключения в разных сервисах.
• Автоматическое обновление паролей при смене пользователей.

00:16:48 Аналитика и исследование данных
• Создание пользователя для аналитиков с ограниченными правами.
• Использование инструмента Дата-каталог для исследования данных.
• Дата-каталог будет доступен в первой половине 2025 года.

00:18:37 Инструмент дата-каталог
• Загружает структурные данные, таблицы, схемы и связи между ними.
• Автоматически обновляет данные и размещает их с терминами, тэгами и бизнес-контекстом.
• Коллеги могут использовать удобный поиск для решения задач.

00:19:34 Настройка поставки данных
• Создает новых пользователей для поставки данных.
• Использует кластер ClickHouse для приема данных.
• Настраивает графики и собирает дашборды.

00:20:58 Использование обжиг-сторож и легковесных кластеров
• Настраивает трансфер данных из исходного хранилища в обжиг-сторож.
• Использует легковесные вычислительные кластеры для аналитики.
• Создает кластер хайф метастор для хранения метаданных.

00:21:57 Инструмент хайф метастор
• Интегрирован с Apache Hive, Apache Spark и ObjectStore.
• Хранит описание данных и их схемы.
• Настраивает резервные копии и автоматическое масштабирование.

00:22:45 Оркестрация вычислительных кластеров
• Использует менеджер эрфлу для оркестрации.
• Все кластеры используют одни и те же метаданные.
• Результаты кластеров сохраняются в общий кластер.

00:24:55 Инструмент схема регистра
• Централизованное хранилище для схем данных.
• Определяет политику эволюции схем и загружает их версии.
• Упрощает процесс дата-дискавери и экономит трафик.

00:27:57 Пример использования схемы регистра
• Производитель данных передает схему через интерфейс схема регистра.
• Потребитель данных получает описание схемы и восстанавливает данные.