Data Engineering / reposts & drafts – Telegram

Data Engineering / reposts & drafts

@DataEngineering_ru

34 subscribers

227 photos

22 videos

40 files

557 links

#DataEngineering
#data_engineering
#data_engineering_ru

#DE_ru #DE

Download Telegram

About

Blog

Apps

Platform

Data Engineering / reposts & drafts

Data Engineering / reposts & drafts

Forwarded from Технологический Болт Генона

Технологический Болт Генона

1 февраля начинается FOSDEM 2025 Обожаю это мероприятие. Даже не знаю как назвать сие действо, потому что это больше чем просто конфа. > This edition features 1158 speakers, 1095 events, and 79 tracks. Семьдесят девять треков! Полный список https://fo…

Начали выкладывать доклады с FOSDEM 2025 (https://video.fosdem.org/2025/)

И вот первый доклад про который хотелось бы рассказать

Называется он
Fuzzing databases is difficult (презентацию скину в комменты)
https://mirrors.dotsrc.org/fosdem/2025/ud6215/fosdem-2025-6478-fuzzing-databases-is-difficult.mp4

Речь идёт про подсистему фаззинга, которую затащили в ClickHouse - BuzzHouse

Сначала идёт рассказ про проблематику нахождения ошибок в базах данных, после этого описывается AST Fuzzer, который был разработан командой ClickHouse.

Основные моменты я прицепил слайдами к посту

Если посмотреть на репу, то там прям активная работа идёт с ним и вокруг него
https://github.com/ClickHouse/ClickHouse/pulls?q=Buzzhouse

Запись в блоге ClickHouse от докладчика (Pedro Ferreira)
BuzzHouse: Bridging the database fuzzing gap for testing ClickHouse
https://clickhouse.com/blog/buzzhouse-bridging-the-database-fuzzing-gap-for-testing-clickhouse

Небольшой пост на русском
Фаззинг-тестирование ClickHouse с BuzzHouse
https://bigdataschool.ru/blog/news/clickhouse/clickhouse-fuzzing-testing-with-buzzhouse.html

14 views22:14

Data Engineering / reposts & drafts

https://t.iss.one/data_study/881

Аналитика данных / Data Study

16 views22:28

Data Engineering / reposts & drafts

Forwarded from Аналитика данных / Data Study

Media is too big

VIEW IN TELEGRAM

17 views22:28

Data Engineering / reposts & drafts

Forwarded from Аналитика данных / Data Study

Доклад_Основы_инжиниринга_данных_29_01_2025.pdf

17 views22:28

Data Engineering / reposts & drafts

https://t.iss.one/datamesh

https://t.iss.one/dataengineerchat/984 #DataMesh #DataMeshBooks

Data mesh enthusiasts

17 views06:47

Data Engineering / reposts & drafts

#dbtVault / #automate_dv tg-"fast start tutorial": https://t.iss.one/dbt_users/22064?thread=22060 #thread
#dbt+#DataVault

Alex. Seconds. in dbt & modern data stack

ух... все-таки тема большая и правильный ответ будет пойти по всему туториалу https://automate-dv.readthedocs.io/en/latest/tutorial/

но если максимально упрощенно, то можно начать с написания следующего минимума.

1. staging модель для генерации ключей и…

14 viewsedited 16:12

Data Engineering / reposts & drafts

https://t.iss.one/cedrusdatachat/4205?thread=4203 #thread #TrinoETL #ETL #trino

18 views16:38

Data Engineering / reposts & drafts

Forwarded from Data Science & Analytics

Interview Questions On Data Modeling Concepts.pdf

18 views19:55

Data Engineering / reposts & drafts

https://t.iss.one/dbt_users/28789?thread=28778
https://t.iss.one/dbt_users/28789

16 viewsedited 14:08

Data Engineering / reposts & drafts

Forwarded from Анастасия Дроздова

#Databook bot
#Airflow #Airfloww

16 viewsАнастасия, 20:31

Data Engineering / reposts & drafts

Forwarded from 5 minutes of data

Apache Airflow® Best Practices: ETL & ELT Pipelines

44 страницы исчерпывающего руководства по одному из самых распространенных сценариев использования в data engineering на ведущем open-source оркестраторе!

Что вы узнаете из руководства:

📊 Сравнение ETL vs. ELT для вашей архитектурной стратегии - какой подход выбрать и почему.

💡 Лучшие практики написания DAG в Airflow - как создавать эффективные и поддерживаемые пайплайны.

⚡️ Ключевые функции для улучшения ваших ETL & ELT пайплайнов - поднимите свои процессы обработки данных на новый уровень.

Станьте экспертом в оркестрации данных с этим подробным руководством!

Скачать можно по ссылке

@data_whisperer

16 viewsАнастасия, 20:31

Data Engineering / reposts & drafts

https://t.iss.one/hadoopusers/230133?thread=229353

Data & IT Career in Data Engineers

А я думал, что это и для всяких подобных конкуренстких штук в тч
https://tobikodata.com/column_level_lineage_for_dbt.html

14 views06:27

Data Engineering / reposts & drafts

#great_expectations great_expectations
#GE

GitHub - great-expectations/great_expectations: Always know what to expect from your data.

Always know what to expect from your data. Contribute to great-expectations/great_expectations development by creating an account on GitHub.

13 viewsedited 12:33

Data Engineering / reposts & drafts

Forwarded from GitHub Trends

#python #cleandata #data_engineering #data_profilers #data_profiling #data_quality #data_science #data_unit_tests #datacleaner #datacleaning #dataquality #dataunittest #eda #exploratory_analysis #exploratory_data_analysis #exploratorydataanalysis #mlops #pipeline #pipeline_debt #pipeline_testing #pipeline_tests

GX Core is a powerful tool for ensuring data quality. It allows you to write simple tests, called "Expectations," to check if your data meets certain standards. This helps teams work together more effectively and keeps everyone informed about the data's quality. You can automatically generate reports, making it easy to share results and preserve your organization's knowledge about its data. To get started, you just need to install GX Core in a Python virtual environment and follow some simple steps. This makes managing data quality much simpler and more efficient.

https://github.com/great-expectations/great_expectations

GitHub - great-expectations/great_expectations: Always know what to expect from your data.

Always know what to expect from your data. Contribute to great-expectations/great_expectations development by creating an account on GitHub.

12 views12:33

Data Engineering / reposts & drafts

Forwarded from Данные на стероидах

dbt-дайджест

Привет!

Сегодня расскажем про dbt — open-source фреймворк для выполнения, тестирования и документирования SQL-запросов. dbt работает с данными, загруженными в хранилище, и компилирует SQL-запросы в код. Этот инструмент позволяет привнести элемент программной инженерии в анализ данных.

🔹 Введение в dbt шаг за шагом
Марк Порошин, специалист по Data Science в DV Group, делится опытом создания DataVault на базе dbt, а заодно напоминает, как в dbt работать с проектами, переменными, jinja, циклами, вспомогательными запросами и другими составляющими dbt.

🔹 Управляем моделью с помощью метаданных в dbt
Руководство по созданию продвинутых макросов, использующих метаданные модели для управления инкрементальностью и тестами качества. Параметры модели, заданные в виде метаданных, позволяют наглядно представлять их в каталоге данных и переиспользовать в разных задачах.

🔹 Создаем конвейер машинного обучения с помощью DBT
Сотрудники Otus рассказывают, как использовать dbt для создания конвейера данных, который конструирует признаки, обучает модель, делает прогнозы без необходимости извлечения данных из базы данных. Из статьи вы также узнаете, как работать с BigQuery ML для обучения данных и прогнозирования в базе данных.

🔹 Как построить аналитическую инфраструктуру уровня PRO своими руками или с небольшой командой
Рассказываем на вебинаре о роли dbt в составе аналитической платформы. На практическом примере показываем, как использовать этот инструмент для базовой проверки качества данных, документации и других задач.

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #dbt

13 views16:23

Data Engineering / reposts & drafts

Forwarded from Данные на стероидах

Дайджест Apache Iceberg

Привет!

Сегодня расскажем про Apache Iceberg — высокопроизводительный открытый формат огромных аналитических таблиц. Iceberg привносит надежность и простоту таблиц SQL в работу с большими данными. В этом формате инструменты Spark, Trino, Flink, Presto, Hive и Impala могут работать с одними и теми же таблицами в одно и то же время.

🔹 Блеск и нищета каталогов метаданных для Data Lake: преимущества Apache Iceberg над Hive
Big Data School подобно объясняет, для чего озерам данных нужны каталоги метаданных и чем Apache Iceberg лучше Apache Hive.

🔹 Hudi, Iceberg и Delta Lake: сравнение табличных форматов для озера данных
VK перевели статью про характеристики трех табличных форматов для озера данных: их платформенную совместимость, гарантированное выполнение параллельных процессов, производительность и скорость обновлений.

🔹 Шестая платформа данных: новое слово в хранении и обработке данных
Еще один перевод от нашей команды — подкаст Breaking Analysis с Райаном Блю, одним из создателей и председателем комитета по управлению проектами Apache Iceberg. В лонгриде обсуждают плюсы и минусы разных платформ данных, рассуждают, нужна ли шестая платформа данных и каковы проблемы хранения данных на современном этапе развития ИТ.

🔹 Зачем Apache Iceberg, если уже есть много других форматов
Видео-доклад Бронислава Житникова, на котором он рассматривает эволюцию подходов к хранению данных и особенности Apache Iceberg. Кроме того, в видео вы найдете рекомендации о том, что нужно учитывать при переходе на этот формат хранения.

🔹 Apache Iceberg Schema Evolution Automation with PySpark
Пошаговое руководство с программным кодом, в котором объясняется, как автоматизировать эволюцию схемы для Apache Iceberg с помощью PySpark, чтобы сократить количество ошибок и сэкономить силы и время за счет автоматизации.

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #ApacheIceberg

14 views16:23

Data Engineering / reposts & drafts

Forwarded from Данные на стероидах

Архитектуры хранилищ данных: Data Lakehouse и Data Warehouse

Привет!

Читайте наш традиционный пятничный #дайджест. Собрали статьи при архитектуры хранилищ данных.

🔹 Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями

🔹 Хранилище данных vs. Data Lake. Или почему важно научиться ходить перед тем, как начать бегать

🔹 Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты

🔹 Вредные советы при построении Аналитики (Data Lake / DWH / BI) – чего стоит избегать

🔹 Современные типы архитектуры данных: Погружение в различные подходы к построению хранилищ данных

🔹 Дорожная карта миграции большого хранилища данных

🔹 Как благодаря переезду хранилища данных прокачать стек, архитектуру и скиллы команды

🔹 Хранилище данных пугает бизнес: проблемы DWH для бизнеса

Хорошего чтения и приятных выходных!

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #Data #AI

14 views16:23

Data Engineering / reposts & drafts

Forwarded from Данные на стероидах

Про DLH и Trino. Статьи и вебинар 11.02

Привет!

Собрали пятничный #дайджест про Data Lakehouse и Trino. Читайте статьи и приходите на наш вебинар.

🔹 Нужна ли нам Lakehouse архитектура?

🔹 Быстрая обработка данных в data lake с помощью SQL

🔹 Платформа данных в хранилище Магнит OMNI

🔹 Как устроен massively parallel processing (MPP) в Trino

🔹 Почему Trino такой быстрый: динамические фильтры

🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

Вебинар «Поднимаем Data Lakehouse на основе Trino в облаке»

11 февраля в 17:00 мы разберем, что такое Data Lakehouse. Узнаем, как эта архитектура объединяет преимущества DLH и DWH, чтобы упростить управление, удешевить хранение и ускорить анализ данных из различных источников в одном месте.

На примере в лайв-режиме покажем различия в стоимости и скорости работы DLH и DWH.

Ведущий — Алексей Белозерский, руководитель группы BigData Services VK Cloud.

Подробности и регистрация

Хорошего чтения и приятных выходных!

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #Data #AI

13 views16:23

Data Engineering / reposts & drafts

Forwarded from 5 minutes of data

TableFlow: Новый подход к обработке потоковых данных с Kafka и Iceberg

В мире потоковой обработки данных появляются всё новые инструменты, которые меняют наше представление о том, как работать с большими объёмами информации.
Один из таких инструментов — TableFlow, концепция, которая объединяет мощь Apache Kafka и Apache Iceberg.

Что такое TableFlow?
TableFlow — это подход, который стирает границы между потоковой обработкой и табличными данными. Он позволяет использовать Kafka как потоковый источник, а Iceberg — как табличное хранилище, обеспечивая гибкость и эффективность в обработке данных.

Почему это важно?
• Гибкость: Вы можете работать с данными как в режиме реального времени, так и в пакетном режиме.
• Масштабируемость: Kafka и Iceberg отлично справляются с большими объёмами данных.
• Упрощение архитектуры: TableFlow уменьшает сложность системы, объединяя потоковую и табличную модели.

Как это работает?
1. Данные поступают в Kafka.
2. С помощью TableFlow они преобразуются и записываются в Iceberg-таблицы.
3. Вы можете анализировать данные как в реальном времени, так и в историческом контексте.

Если вы хотите глубже разобраться в теме, рекомендую прочитать оригинальный пост: TableFlow: The Stream-Table Kafka-Iceberg Duality.
Так же запись
Apache Kafka Meets Apache Iceberg: Real-Time Data Streaming • Kasun Indrasiri • GOTO 2024

@data_whisperer

15 views07:25

Data Engineering / reposts & drafts

https://t.iss.one/dataengineerchat/1046

Data Engineer in Data Engineer Chat

Партиции в Clickhouse, нюансы нейминга

Использование обращений напрямую к партициям позволяет выполнять действия с данными с использованием меньшего количества ресурсов. Пользуюсь этим на проекте с Clickhouse, если нужно удалить большой кусок данных. На…

15 views10:42