Data Engineering / reposts & drafts – Telegram

Data Engineering / reposts & drafts

@DataEngineering_ru

34 subscribers

227 photos

22 videos

40 files

557 links

#DataEngineering
#data_engineering
#data_engineering_ru

#DE_ru #DE

Download Telegram

About

Blog

Apps

Platform

Data Engineering / reposts & drafts

Data Engineering / reposts & drafts

Forwarded from Школа Больших Данных

#Prometheus #IoT #Flink
Новый Flink-коннектор к Prometheus для IoT

Почему репортеры мониторинга системных метрик Flink, отправляющие данные в Prometheus, не решают проблемы предварительной обработки измерений с IoT-устройств, и как новый коннектор расширяет сферу применения фреймворка потоковой обработки.

Встроенные средства мониторинга системных метрик Flink
В декабре 2024 года вышел новый коннектор Apache Flink к Prometheus – популярной базе данных временных рядов, часто используемой для мониторинга системных метрик.
Статья
Курсы: FLINK
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

14 views07:31

Data Engineering / reposts & drafts

Forwarded from Школа Больших Данных

#AirFlow #примеры #Переменные #советы
Переменные в Apache AirFlow: примеры и советы

Зачем нужны переменные в Apache AirFlow, какие они бывают, как создать переменную и использовать ее: примеры и рекомендации для эффективной дата-инженерии.

Зачем нужны переменные в Apache AirFlow, и какие они бывают
Чтобы хранить информацию, которая редко меняется, например, ключи API, пути к конфигурационным файлам, в Apache Airflow используются переменные. Переменные являются глобальной концепцией конфигурации среды выполнения Airflow и определяются с помощью объекта airflow.model.variable.
Статья
Курсы: AIRF
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

21 views07:31

Data Engineering / reposts & drafts

Forwarded from Школа Больших Данных

#Apache #Beam #Разработка
Разработка унифицированных конвейеров обработки данных с Apache Beam

Что такое Apache Beam, зачем он нужен, чем полезен дата-инженеру и как его использовать: архитектура, принципы работы и примеры построения пакетных и потоковых конвейеров обработки данных.

Что такое Apache Beam и зачем он нужен
Хотя выбор технологического стека – один из важнейших вопросов архитектурного проектирования, иногда требуется универсальное решение построения конвейера обработки данных, которое можно запустить в любой среде исполнения: Flink, Spark, AirFlow и пр. Это можно сделать с помощью Apache Beam — унифицированной модели для определения пакетных и потоковых конвейеров параллельной обработки данных.
Статья
Курсы: MK-K8S
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

11 views07:31

Data Engineering / reposts & drafts

Forwarded from Школа Больших Данных

#Потоковая #обработка #EDA #LLM
Потоковая обработка данных и EDA-архитектура для LLM-систем

Почему генеративный ИИ основан на потоковой обработке данных и EDA-архитектуре, для чего оценивать качество LLM-модели и как построить такую систему мониторинга: подходы и технологии.

О важности потоковой обработки данных и EDA-архитектуры для LLM-систем
Все больше современных бизнес-приложений включают в себя большие языковые модели (LLM, Large Language Model), чтобы автоматизировать поддержку клиентов, анализ пользовательского поведения и работу с документацией.
Статья
Курсы: MLOPS PRUS
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

11 views07:31

Data Engineering / reposts & drafts

Forwarded from Школа Больших Данных

ClickHouse vs Apache Doris: что выбрать для хранилища данных

Что такое Apache Doris, как его использовать для построения хранилища данных и чем это отличается от ClickHouse. Сценарии применения и критерии выбора основы DWH.

Что такое Apache Doris
Недавно мы рассматривали, почему ClickHouse подходит для реализации хранилища данных на основе эталонной архитектуры Medallion благодаря поддержке более 70 форматов файлов, материализованным представлениям и интеграциями со множеством внешних систем и ETL-инструментов.
Статья
Курсы: CLICH ARMG
Наш сайт
Копирование, размножение, распространение, перепечатка (целиком или частично), или иное использование материала допускается только с письменного разрешения правообладателя ООО "УЦ Коммерсант"

9 views07:31

Data Engineering / reposts & drafts

Forwarded from Технологический Болт Генона

1 февраля начинается FOSDEM 2025

Обожаю это мероприятие. Даже не знаю как назвать сие действо, потому что это больше чем просто конфа.

> This edition features 1158 speakers, 1095 events, and 79 tracks.

Семьдесят девять треков!

Полный список
https://fosdem.org/2025/schedule/events/

Этот же список, но сгруппированный по тематике (там чего только нет, начиная от Ada и NixOS и заканчивая LLVM и железными дорогами)
https://fosdem.org/2025/schedule/tracks/

Список на все трансляции доступен тут
https://fosdem.org/2025/schedule/streaming/

12 views22:14

Data Engineering / reposts & drafts

Forwarded from Технологический Болт Генона

Технологический Болт Генона

1 февраля начинается FOSDEM 2025 Обожаю это мероприятие. Даже не знаю как назвать сие действо, потому что это больше чем просто конфа. > This edition features 1158 speakers, 1095 events, and 79 tracks. Семьдесят девять треков! Полный список https://fo…

Начали выкладывать доклады с FOSDEM 2025 (https://video.fosdem.org/2025/)

И вот первый доклад про который хотелось бы рассказать

Называется он
Fuzzing databases is difficult (презентацию скину в комменты)
https://mirrors.dotsrc.org/fosdem/2025/ud6215/fosdem-2025-6478-fuzzing-databases-is-difficult.mp4

Речь идёт про подсистему фаззинга, которую затащили в ClickHouse - BuzzHouse

Сначала идёт рассказ про проблематику нахождения ошибок в базах данных, после этого описывается AST Fuzzer, который был разработан командой ClickHouse.

Основные моменты я прицепил слайдами к посту

Если посмотреть на репу, то там прям активная работа идёт с ним и вокруг него
https://github.com/ClickHouse/ClickHouse/pulls?q=Buzzhouse

Запись в блоге ClickHouse от докладчика (Pedro Ferreira)
BuzzHouse: Bridging the database fuzzing gap for testing ClickHouse
https://clickhouse.com/blog/buzzhouse-bridging-the-database-fuzzing-gap-for-testing-clickhouse

Небольшой пост на русском
Фаззинг-тестирование ClickHouse с BuzzHouse
https://bigdataschool.ru/blog/news/clickhouse/clickhouse-fuzzing-testing-with-buzzhouse.html

14 views22:14

Data Engineering / reposts & drafts

https://t.iss.one/data_study/881

Аналитика данных / Data Study

16 views22:28

Data Engineering / reposts & drafts

Forwarded from Аналитика данных / Data Study

Media is too big

VIEW IN TELEGRAM

17 views22:28

Data Engineering / reposts & drafts

Forwarded from Аналитика данных / Data Study

Доклад_Основы_инжиниринга_данных_29_01_2025.pdf

17 views22:28

Data Engineering / reposts & drafts

https://t.iss.one/datamesh

https://t.iss.one/dataengineerchat/984 #DataMesh #DataMeshBooks

Data mesh enthusiasts

17 views06:47

Data Engineering / reposts & drafts

#dbtVault / #automate_dv tg-"fast start tutorial": https://t.iss.one/dbt_users/22064?thread=22060 #thread
#dbt+#DataVault

Alex. Seconds. in dbt & modern data stack

ух... все-таки тема большая и правильный ответ будет пойти по всему туториалу https://automate-dv.readthedocs.io/en/latest/tutorial/

но если максимально упрощенно, то можно начать с написания следующего минимума.

1. staging модель для генерации ключей и…

14 viewsedited 16:12

Data Engineering / reposts & drafts

https://t.iss.one/cedrusdatachat/4205?thread=4203 #thread #TrinoETL #ETL #trino

18 views16:38

Data Engineering / reposts & drafts

Forwarded from Data Science & Analytics

Interview Questions On Data Modeling Concepts.pdf

18 views19:55

Data Engineering / reposts & drafts

https://t.iss.one/dbt_users/28789?thread=28778
https://t.iss.one/dbt_users/28789

16 viewsedited 14:08

Data Engineering / reposts & drafts

Forwarded from Анастасия Дроздова

#Databook bot
#Airflow #Airfloww

16 viewsАнастасия, 20:31

Data Engineering / reposts & drafts

Forwarded from 5 minutes of data

Apache Airflow® Best Practices: ETL & ELT Pipelines

44 страницы исчерпывающего руководства по одному из самых распространенных сценариев использования в data engineering на ведущем open-source оркестраторе!

Что вы узнаете из руководства:

📊 Сравнение ETL vs. ELT для вашей архитектурной стратегии - какой подход выбрать и почему.

💡 Лучшие практики написания DAG в Airflow - как создавать эффективные и поддерживаемые пайплайны.

⚡️ Ключевые функции для улучшения ваших ETL & ELT пайплайнов - поднимите свои процессы обработки данных на новый уровень.

Станьте экспертом в оркестрации данных с этим подробным руководством!

Скачать можно по ссылке

@data_whisperer

16 viewsАнастасия, 20:31