Data Engineering / reposts & drafts
34 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
1 февраля начинается FOSDEM 2025

Обожаю это мероприятие. Даже не знаю как назвать сие действо, потому что это больше чем просто конфа.

> This edition features 1158 speakers, 1095 events, and 79 tracks.

Семьдесят девять треков!

Полный список
https://fosdem.org/2025/schedule/events/

Этот же список, но сгруппированный по тематике (там чего только нет, начиная от Ada и NixOS и заканчивая LLVM и железными дорогами)
https://fosdem.org/2025/schedule/tracks/

Список на все трансляции доступен тут
https://fosdem.org/2025/schedule/streaming/
Технологический Болт Генона
1 февраля начинается FOSDEM 2025 Обожаю это мероприятие. Даже не знаю как назвать сие действо, потому что это больше чем просто конфа. > This edition features 1158 speakers, 1095 events, and 79 tracks. Семьдесят девять треков! Полный список https://fo…
Начали выкладывать доклады с FOSDEM 2025 (https://video.fosdem.org/2025/)

И вот первый доклад про который хотелось бы рассказать

Называется он
Fuzzing databases is difficult (презентацию скину в комменты)
https://mirrors.dotsrc.org/fosdem/2025/ud6215/fosdem-2025-6478-fuzzing-databases-is-difficult.mp4

Речь идёт про подсистему фаззинга, которую затащили в ClickHouse - BuzzHouse

Сначала идёт рассказ про проблематику нахождения ошибок в базах данных, после этого описывается AST Fuzzer, который был разработан командой ClickHouse.

Основные моменты я прицепил слайдами к посту

Если посмотреть на репу, то там прям активная работа идёт с ним и вокруг него
https://github.com/ClickHouse/ClickHouse/pulls?q=Buzzhouse

Запись в блоге ClickHouse от докладчика (Pedro Ferreira)
BuzzHouse: Bridging the database fuzzing gap for testing ClickHouse
https://clickhouse.com/blog/buzzhouse-bridging-the-database-fuzzing-gap-for-testing-clickhouse

Небольшой пост на русском
Фаззинг-тестирование ClickHouse с BuzzHouse
https://bigdataschool.ru/blog/news/clickhouse/clickhouse-fuzzing-testing-with-buzzhouse.html
Forwarded from 5 minutes of data
Apache Airflow® Best Practices: ETL & ELT Pipelines

44 страницы исчерпывающего руководства по одному из самых распространенных сценариев использования в data engineering на ведущем open-source оркестраторе!

Что вы узнаете из руководства:

📊 Сравнение ETL vs. ELT для вашей архитектурной стратегии - какой подход выбрать и почему.

💡 Лучшие практики написания DAG в Airflow - как создавать эффективные и поддерживаемые пайплайны.

⚡️ Ключевые функции для улучшения ваших ETL & ELT пайплайнов - поднимите свои процессы обработки данных на новый уровень.

Станьте экспертом в оркестрации данных с этим подробным руководством!

Скачать можно по ссылке

@data_whisperer
Forwarded from GitHub Trends
#python #cleandata #data_engineering #data_profilers #data_profiling #data_quality #data_science #data_unit_tests #datacleaner #datacleaning #dataquality #dataunittest #eda #exploratory_analysis #exploratory_data_analysis #exploratorydataanalysis #mlops #pipeline #pipeline_debt #pipeline_testing #pipeline_tests

GX Core is a powerful tool for ensuring data quality. It allows you to write simple tests, called "Expectations," to check if your data meets certain standards. This helps teams work together more effectively and keeps everyone informed about the data's quality. You can automatically generate reports, making it easy to share results and preserve your organization's knowledge about its data. To get started, you just need to install GX Core in a Python virtual environment and follow some simple steps. This makes managing data quality much simpler and more efficient.

https://github.com/great-expectations/great_expectations
dbt-дайджест

Привет!

Сегодня расскажем про dbt — open-source фреймворк для выполнения, тестирования и документирования SQL-запросов. dbt работает с данными, загруженными в хранилище, и компилирует SQL-запросы в код. Этот инструмент позволяет привнести элемент программной инженерии в анализ данных.

🔹 Введение в dbt шаг за шагом
Марк Порошин, специалист по Data Science в DV Group, делится опытом создания DataVault на базе dbt, а заодно напоминает, как в dbt работать с проектами, переменными, jinja, циклами, вспомогательными запросами и другими составляющими dbt.

🔹 Управляем моделью с помощью метаданных в dbt
Руководство по созданию продвинутых макросов, использующих метаданные модели для управления инкрементальностью и тестами качества. Параметры модели, заданные в виде метаданных, позволяют наглядно представлять их в каталоге данных и переиспользовать в разных задачах.

🔹 Создаем конвейер машинного обучения с помощью DBT
Сотрудники Otus рассказывают, как использовать dbt для создания конвейера данных, который конструирует признаки, обучает модель, делает прогнозы без необходимости извлечения данных из базы данных. Из статьи вы также узнаете, как работать с BigQuery ML для обучения данных и прогнозирования в базе данных.

🔹 Как построить аналитическую инфраструктуру уровня PRO своими руками или с небольшой командой
Рассказываем на вебинаре о роли dbt в составе аналитической платформы. На практическом примере показываем, как использовать этот инструмент для базовой проверки качества данных, документации и других задач.

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #dbt
Дайджест Apache Iceberg

Привет!

Сегодня расскажем про Apache Iceberg — высокопроизводительный открытый формат огромных аналитических таблиц. Iceberg привносит надежность и простоту таблиц SQL в работу с большими данными. В этом формате инструменты Spark, Trino, Flink, Presto, Hive и Impala могут работать с одними и теми же таблицами в одно и то же время.

🔹 Блеск и нищета каталогов метаданных для Data Lake: преимущества Apache Iceberg над Hive
Big Data School подобно объясняет, для чего озерам данных нужны каталоги метаданных и чем Apache Iceberg лучше Apache Hive.

🔹 Hudi, Iceberg и Delta Lake: сравнение табличных форматов для озера данных
VK перевели статью про характеристики трех табличных форматов для озера данных: их платформенную совместимость, гарантированное выполнение параллельных процессов, производительность и скорость обновлений.

🔹 Шестая платформа данных: новое слово в хранении и обработке данных
Еще один перевод от нашей команды — подкаст Breaking Analysis с Райаном Блю, одним из создателей и председателем комитета по управлению проектами Apache Iceberg. В лонгриде обсуждают плюсы и минусы разных платформ данных, рассуждают, нужна ли шестая платформа данных и каковы проблемы хранения данных на современном этапе развития ИТ.

🔹 Зачем Apache Iceberg, если уже есть много других форматов
Видео-доклад Бронислава Житникова, на котором он рассматривает эволюцию подходов к хранению данных и особенности Apache Iceberg. Кроме того, в видео вы найдете рекомендации о том, что нужно учитывать при переходе на этот формат хранения.

🔹 Apache Iceberg Schema Evolution Automation with PySpark
Пошаговое руководство с программным кодом, в котором объясняется, как автоматизировать эволюцию схемы для Apache Iceberg с помощью PySpark, чтобы сократить количество ошибок и сэкономить силы и время за счет автоматизации.

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #ApacheIceberg