Forwarded from DataEng
Видео Airflow Summit 2024
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines with Apache Airflow
— LLMs for Software Development & Apache Airflow
— The road ahead: What’s coming in Airflow 3 and beyond?
— 10 years of Airflow: history, insights, and looking forward
Остальные доклады можно найти на официальном Ютуб-канале Apache Airflow
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines with Apache Airflow
— LLMs for Software Development & Apache Airflow
— The road ahead: What’s coming in Airflow 3 and beyond?
— 10 years of Airflow: history, insights, and looking forward
Остальные доклады можно найти на официальном Ютуб-канале Apache Airflow
YouTube
Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
Presented by Astronomer at Airflow Summit 2024.
Airflow is widely adopted for its flexibility and scalability. However, as workflows grow in complexity and scale, optimizing Airflow performance becomes crucial for efficient execution and resource utilization.…
Airflow is widely adopted for its flexibility and scalability. However, as workflows grow in complexity and scale, optimizing Airflow performance becomes crucial for efficient execution and resource utilization.…
Forwarded from Alex. Seconds.
💡А вы знали, что…
AWS #Lambda функции можно запускать прямо из SQL, который выполняется на PostgreSQL в AWS #RDS? И синхронно и асинхронно. И можно даже кусочек лога (до 4KB) выполнения функции вернуть в результаты запроса, если очень хочется :)
Источник: https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/PostgreSQL-Lambda-examples.html#PostgreSQL-Lambda-log-response
AWS #Lambda функции можно запускать прямо из SQL, который выполняется на PostgreSQL в AWS #RDS? И синхронно и асинхронно. И можно даже кусочек лога (до 4KB) выполнения функции вернуть в результаты запроса, если очень хочется :)
SELECT * FROM aws_lambda.invoke('aws_lambda_arn_1', '{"body": "Hello from Postgres!"}'::json);Источник: https://docs.aws.amazon.com/AmazonRDS/latest/UserGuide/PostgreSQL-Lambda-examples.html#PostgreSQL-Lambda-log-response
Видео Airflow Summit 2024
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines with Apache Airflow
— LLMs for Software Development & Apache Airflow
— The road ahead: What’s coming in Airflow 3 and beyond?
— 10 years of Airflow: history, insights, and looking forward
Остальные доклады можно найти на официальном Ютуб-канале Apache Airflow
- https://www.youtube.com/@ApacheAirflow/videos
Из интересного:
- Видео про roadmap
- Performance tuning
- Event-driven DAGs
Не шибко густо и много, но в целом норм. Для поддержания актуальных знаний - хватит.
@ohmydataengineer - канал "🕯 Труба Данных" который продолжает следить за Airflow
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines with Apache Airflow
— LLMs for Software Development & Apache Airflow
— The road ahead: What’s coming in Airflow 3 and beyond?
— 10 years of Airflow: history, insights, and looking forward
Остальные доклады можно найти на официальном Ютуб-канале Apache Airflow
- https://www.youtube.com/@ApacheAirflow/videos
Из интересного:
- Видео про roadmap
- Performance tuning
- Event-driven DAGs
Не шибко густо и много, но в целом норм. Для поддержания актуальных знаний - хватит.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Apache Airflow
This channel is a central repository for all talks and videos related to Apache Airflow.
Check out airflow.apache.org for more information.
Apache Airflow, Apache, Airflow, the Airflow logo, and the Apache feather logo are either registered trademarks or…
Check out airflow.apache.org for more information.
Apache Airflow, Apache, Airflow, the Airflow logo, and the Apache feather logo are either registered trademarks or…
Forwarded from Женя Янченко
Операции записи и чтения по кворуму
Для
Операция записи должна быть подтверждена
Операция чтения должна опросить
Операции записи и чтения, удовлетворяющие соотношению
называются операциями по кворуму.
Можно рассматривать
Значения
Чаще всего
а
Если у нас мало операций записи и много операций чтения, то можно увеличить
Базы данных с кворумом могут выдержать отказы и замедление работы отдельных реплик, поскольку запросам не нужно ждать ответа от всех
Например, при
Поэтому БД с репликацией без лидера подходят для приложений:
🟣 с высокой доступность
🟣 с низкой задержкой
🟣 допускающих иногда чтение устаревших данных
На мой взгляд эти характеристики подходят, например, соцсетям.
Нестрогий кворум и направленная передача
В кластере может быть много реплик, из которых мы выделяем
После исправления сбоя сети все операции записи, временно отправленные в какую-либо реплику вместо недоступной, отправляются в соответствующие «родные» реплики. Это называется направленной передачей (hinted handoff).
Нестрогие кворумы полезны для повышения доступности для записи: база может принимать операции записи до тех пор, пока доступны любые
Нестрогие кворумы — дополнительная возможность, могут быть по-умолчанию отключены.
#кабанчик #сисдиз #репликация
Для
n репликОперация записи должна быть подтверждена
w репликОперация чтения должна опросить
r репликОперации записи и чтения, удовлетворяющие соотношению
w + r > nназываются операциями по кворуму.
Можно рассматривать
r и w как минимальные количества «голосов», необходимых для признания операции чтения или записи приемлемой.Значения
n,w и r обычно можно настраивать.Чаще всего
n делают нечетным (обычно 3 или 5), а
w = r = (n + 1) / 2 (с округлением в большую сторону).Если у нас мало операций записи и много операций чтения, то можно увеличить
w и уменьшить r.Базы данных с кворумом могут выдержать отказы и замедление работы отдельных реплик, поскольку запросам не нужно ждать ответа от всех
n реплик — достаточно, чтобы ответили w или r реплик.Например, при
n = 5, w = 3, r = 3 система может позволить себе 2 недоступных узла.Поэтому БД с репликацией без лидера подходят для приложений:
На мой взгляд эти характеристики подходят, например, соцсетям.
Нестрогий кворум и направленная передача
В кластере может быть много реплик, из которых мы выделяем
n для кворума. Возможна ситуация, когда во время сбоя сети клиент может подключиться к каким-то репликам, но не к тем, которые выделены ему для кворума. Если в этом случае база все равно запишет значения, пусть и не в «родные» n реплик, то мы получим нестрогий кворум (sloppy quorum).После исправления сбоя сети все операции записи, временно отправленные в какую-либо реплику вместо недоступной, отправляются в соответствующие «родные» реплики. Это называется направленной передачей (hinted handoff).
Нестрогие кворумы полезны для повышения доступности для записи: база может принимать операции записи до тех пор, пока доступны любые
w реплик. Однако в случае нестрого кворума нельзя гарантировать чтение актуального значения даже из r реплик, поскольку актуальное значение может быть временно записано на какие-то реплики вне множества n.Нестрогие кворумы — дополнительная возможность, могут быть по-умолчанию отключены.
#кабанчик #сисдиз #репликация
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Engineer Jobs
Ребята, привет!
Я создаю платформу для дата-инженеров — сайт, который поможет специалистам в карьерном развитии, а компаниям найти нужных профессионалов.
На сайте я планирую раздел, где будет представлен список DE-менторов. Если вы занимаетесь индивидуальным менторством, могу разместить информацию о вас там. Это бесплатно, никаких условий нет.
Также, если у вас есть статьи по теме DE, могу разместить их на сайте с указанием авторства и ссылками на ваши ресурсы.
Если вы заинтересованы, напишите, пожалуйста, в личные сообщения мне, админу этого канала @storm_de. Я отправлю ссылку на сайт и покажу, как это будет выглядеть. Здесь ссылку пока не публикую, так как сайт еще в разработке.
Я создаю платформу для дата-инженеров — сайт, который поможет специалистам в карьерном развитии, а компаниям найти нужных профессионалов.
На сайте я планирую раздел, где будет представлен список DE-менторов. Если вы занимаетесь индивидуальным менторством, могу разместить информацию о вас там. Это бесплатно, никаких условий нет.
Также, если у вас есть статьи по теме DE, могу разместить их на сайте с указанием авторства и ссылками на ваши ресурсы.
Если вы заинтересованы, напишите, пожалуйста, в личные сообщения мне, админу этого канала @storm_de. Я отправлю ссылку на сайт и покажу, как это будет выглядеть. Здесь ссылку пока не публикую, так как сайт еще в разработке.
Forwarded from Alex Belozersky
В ВК облаке под елочку будет релиз trino-iceberg-s3 коробки. К этой коробке комплиментарен имеющийся spark-k8s.
Осталось придумать как максимально быстро бесшовно приделать к этом гринпламы и кликхаусы которые пока в моменте правят бал бигдаты в рф.
Осталось придумать как максимально быстро бесшовно приделать к этом гринпламы и кликхаусы которые пока в моменте правят бал бигдаты в рф.
https://t.iss.one/DE_events/1183
#запись в YouTube
...
- 1:06:43 | Богдан Глебов «Как мы съели ПУД соли выстраивая data management (и почти не подавились)»
- 1:34:49 | Даниил Понизов «Создание #MLOps-платформы для десятка команд на основе Airflow»
- 2:10:08 | Дмитрий Лахвич «Floppa the #LakeHouse»
Cмотреть в VK
https://t.iss.one/hadoopusers/211544 #watch
#запись в YouTube
...
- 1:06:43 | Богдан Глебов «Как мы съели ПУД соли выстраивая data management (и почти не подавились)»
- 1:34:49 | Даниил Понизов «Создание #MLOps-платформы для десятка команд на основе Airflow»
- 2:10:08 | Дмитрий Лахвич «Floppa the #LakeHouse»
Cмотреть в VK
https://t.iss.one/hadoopusers/211544 #watch
Data Engineering / reposts & drafts
https://youtu.be/Riouu4szE5g
Yandex MetaData Hub: как управлять метаданными в облаке
00:04:26 Введение
• Светлана Марченко, руководитель группы управления транспортом и сервисами метаданных.
• Рост количества данных усложняет их организацию и требует специальных инструментов.
• Обсуждение инструментов в Яндекс Клауд, доступных в сервисе Метод Дата Хаб.
00:04:59 План доклада
• Введение в метаданные и их виды.
• Примеры использования метаданных для описания таблиц.
• Важность управления метаданными для аналитики и разработки.
00:07:10 Преимущества управления метаданными
• Управление метаданными помогает ориентироваться в данных и анализировать их.
• Полезно для аналитиков, разработчиков и бизнеса.
• Оптимизация данных и улучшение качества данных.
00:09:35 Инструменты в Метод Дата Хаб
• Коннекшн-менеджер для управления параметрами подключения.
• Схема Регистрари для загрузки и настройки схем.
• Хайф Метастор для хранения структурных метаданных.
• Дата.Дата для сбора и описания данных.
00:10:35 Пример использования Коннекшн-менеджера
• Создание пользователя для доступа к данным.
• Управление доступом к данным без раздачи паролей.
• Автоматическая генерация надежных паролей.
00:12:03 Управление доступом к подключениям
• Создание нового пользователя с автоматической генерацией пароля.
• Управление правами доступа к подключениям.
• Интеграция с управляемыми базами данных и другими сервисами.
00:14:43 Интеграция с другими сервисами
• Интеграция с Вьюзом и Дата Трансфер.
• Удобство использования параметров подключения в разных сервисах.
• Автоматическое обновление паролей при смене пользователей.
00:16:48 Аналитика и исследование данных
• Создание пользователя для аналитиков с ограниченными правами.
• Использование инструмента Дата-каталог для исследования данных.
• Дата-каталог будет доступен в первой половине 2025 года.
00:18:37 Инструмент дата-каталог
• Загружает структурные данные, таблицы, схемы и связи между ними.
• Автоматически обновляет данные и размещает их с терминами, тэгами и бизнес-контекстом.
• Коллеги могут использовать удобный поиск для решения задач.
00:19:34 Настройка поставки данных
• Создает новых пользователей для поставки данных.
• Использует кластер ClickHouse для приема данных.
• Настраивает графики и собирает дашборды.
00:20:58 Использование обжиг-сторож и легковесных кластеров
• Настраивает трансфер данных из исходного хранилища в обжиг-сторож.
• Использует легковесные вычислительные кластеры для аналитики.
• Создает кластер хайф метастор для хранения метаданных.
00:21:57 Инструмент хайф метастор
• Интегрирован с Apache Hive, Apache Spark и ObjectStore.
• Хранит описание данных и их схемы.
• Настраивает резервные копии и автоматическое масштабирование.
00:22:45 Оркестрация вычислительных кластеров
• Использует менеджер эрфлу для оркестрации.
• Все кластеры используют одни и те же метаданные.
• Результаты кластеров сохраняются в общий кластер.
00:24:55 Инструмент схема регистра
• Централизованное хранилище для схем данных.
• Определяет политику эволюции схем и загружает их версии.
• Упрощает процесс дата-дискавери и экономит трафик.
00:27:57 Пример использования схемы регистра
• Производитель данных передает схему через интерфейс схема регистра.
• Потребитель данных получает описание схемы и восстанавливает данные.
00:04:26 Введение
• Светлана Марченко, руководитель группы управления транспортом и сервисами метаданных.
• Рост количества данных усложняет их организацию и требует специальных инструментов.
• Обсуждение инструментов в Яндекс Клауд, доступных в сервисе Метод Дата Хаб.
00:04:59 План доклада
• Введение в метаданные и их виды.
• Примеры использования метаданных для описания таблиц.
• Важность управления метаданными для аналитики и разработки.
00:07:10 Преимущества управления метаданными
• Управление метаданными помогает ориентироваться в данных и анализировать их.
• Полезно для аналитиков, разработчиков и бизнеса.
• Оптимизация данных и улучшение качества данных.
00:09:35 Инструменты в Метод Дата Хаб
• Коннекшн-менеджер для управления параметрами подключения.
• Схема Регистрари для загрузки и настройки схем.
• Хайф Метастор для хранения структурных метаданных.
• Дата.Дата для сбора и описания данных.
00:10:35 Пример использования Коннекшн-менеджера
• Создание пользователя для доступа к данным.
• Управление доступом к данным без раздачи паролей.
• Автоматическая генерация надежных паролей.
00:12:03 Управление доступом к подключениям
• Создание нового пользователя с автоматической генерацией пароля.
• Управление правами доступа к подключениям.
• Интеграция с управляемыми базами данных и другими сервисами.
00:14:43 Интеграция с другими сервисами
• Интеграция с Вьюзом и Дата Трансфер.
• Удобство использования параметров подключения в разных сервисах.
• Автоматическое обновление паролей при смене пользователей.
00:16:48 Аналитика и исследование данных
• Создание пользователя для аналитиков с ограниченными правами.
• Использование инструмента Дата-каталог для исследования данных.
• Дата-каталог будет доступен в первой половине 2025 года.
00:18:37 Инструмент дата-каталог
• Загружает структурные данные, таблицы, схемы и связи между ними.
• Автоматически обновляет данные и размещает их с терминами, тэгами и бизнес-контекстом.
• Коллеги могут использовать удобный поиск для решения задач.
00:19:34 Настройка поставки данных
• Создает новых пользователей для поставки данных.
• Использует кластер ClickHouse для приема данных.
• Настраивает графики и собирает дашборды.
00:20:58 Использование обжиг-сторож и легковесных кластеров
• Настраивает трансфер данных из исходного хранилища в обжиг-сторож.
• Использует легковесные вычислительные кластеры для аналитики.
• Создает кластер хайф метастор для хранения метаданных.
00:21:57 Инструмент хайф метастор
• Интегрирован с Apache Hive, Apache Spark и ObjectStore.
• Хранит описание данных и их схемы.
• Настраивает резервные копии и автоматическое масштабирование.
00:22:45 Оркестрация вычислительных кластеров
• Использует менеджер эрфлу для оркестрации.
• Все кластеры используют одни и те же метаданные.
• Результаты кластеров сохраняются в общий кластер.
00:24:55 Инструмент схема регистра
• Централизованное хранилище для схем данных.
• Определяет политику эволюции схем и загружает их версии.
• Упрощает процесс дата-дискавери и экономит трафик.
00:27:57 Пример использования схемы регистра
• Производитель данных передает схему через интерфейс схема регистра.
• Потребитель данных получает описание схемы и восстанавливает данные.
YouTube
Yandex MetaData Hub: как управлять метаданными в облаке
Когда данных в компании становится больше, появляется необходимость их грамотно организовать. Доступы к базам данных, подключениям, управление ролями, классификация доступных данных — всё это превращается в рутинную работу без инструментов.
Управление метаданными…
Управление метаданными…
Data Engineering / reposts & drafts
https://youtu.be/Riouu4szE5g
• Упрощает процесс создания и использования данных.
00:30:29 Управление полным циклом данных
• Улучшает качество данных и повышает доверие к ним.
• Включает анализ данных, определение метрик качества и стандартов.
• Реализует стандарты и мониторит данные для исправления.
00:34:43 Итог
• Метод дата хаб автоматизирует работу с мета-данными.
• Каждый инструмент решает отдельный пул задач.
• Комплексное использование инструментов обеспечивает качественные и надежные данные.
00:35:25 Управление правами в PostgreSQL
• Вопрос о возможности переноса управления правами в PostgreSQL на коннект-менеджер.
• Коннект-менеджер служит для мапинга пользователей и учеток, но не для управления правами доступа.
• Управление правами доступа остается настройкой в кластере PostgreSQL.
00:36:16 Заключение
• Благодарность за внимание.
• Пожелание хорошего дня.
00:30:29 Управление полным циклом данных
• Улучшает качество данных и повышает доверие к ним.
• Включает анализ данных, определение метрик качества и стандартов.
• Реализует стандарты и мониторит данные для исправления.
00:34:43 Итог
• Метод дата хаб автоматизирует работу с мета-данными.
• Каждый инструмент решает отдельный пул задач.
• Комплексное использование инструментов обеспечивает качественные и надежные данные.
00:35:25 Управление правами в PostgreSQL
• Вопрос о возможности переноса управления правами в PostgreSQL на коннект-менеджер.
• Коннект-менеджер служит для мапинга пользователей и учеток, но не для управления правами доступа.
• Управление правами доступа остается настройкой в кластере PostgreSQL.
00:36:16 Заключение
• Благодарность за внимание.
• Пожелание хорошего дня.
YouTube
Yandex MetaData Hub: как управлять метаданными в облаке
Когда данных в компании становится больше, появляется необходимость их грамотно организовать. Доступы к базам данных, подключениям, управление ролями, классификация доступных данных — всё это превращается в рутинную работу без инструментов.
Управление метаданными…
Управление метаданными…
Forwarded from DATABASE DESIGN
Как мы проверяли качество данных после завершения миграции с Teradata на Greenplum
Привет, Хабр! Мы завершаем серию статей о миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущих статьях мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL‑скриптов с помощью реализованных сервисов миграции кода и переноса архива данных. В этот раз мы расскажем вам о нашем опыте и результатах кросс‑платформенной проверки качества данных во время и после миграции, а также о трудностях и решениях, связанных с этим процессом.
Завершая нашу серию, мы подходим к ключевому аспекту миграции данных — проверке и обеспечению качества данных после переноса. Теперь, когда перед нами стоят два параллельно функционирующих хранилища, возникает вопрос о точности и согласованности данных между ними.
Читать: https://habr.com/ru/companies/sberbank/articles/869294/
#ru
@database_design | Другие наши каналы
Привет, Хабр! Мы завершаем серию статей о миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущих статьях мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL‑скриптов с помощью реализованных сервисов миграции кода и переноса архива данных. В этот раз мы расскажем вам о нашем опыте и результатах кросс‑платформенной проверки качества данных во время и после миграции, а также о трудностях и решениях, связанных с этим процессом.
Завершая нашу серию, мы подходим к ключевому аспекту миграции данных — проверке и обеспечению качества данных после переноса. Теперь, когда перед нами стоят два параллельно функционирующих хранилища, возникает вопрос о точности и согласованности данных между ними.
Читать: https://habr.com/ru/companies/sberbank/articles/869294/
#ru
@database_design | Другие наши каналы