Forwarded from Технологический Болт Генона
Технологический Болт Генона
1 февраля начинается FOSDEM 2025 Обожаю это мероприятие. Даже не знаю как назвать сие действо, потому что это больше чем просто конфа. > This edition features 1158 speakers, 1095 events, and 79 tracks. Семьдесят девять треков! Полный список https://fo…
Начали выкладывать доклады с FOSDEM 2025 (https://video.fosdem.org/2025/)
И вот первый доклад про который хотелось бы рассказать
Называется он
Fuzzing databases is difficult (презентацию скину в комменты)
https://mirrors.dotsrc.org/fosdem/2025/ud6215/fosdem-2025-6478-fuzzing-databases-is-difficult.mp4
Речь идёт про подсистему фаззинга, которую затащили в ClickHouse - BuzzHouse
Сначала идёт рассказ про проблематику нахождения ошибок в базах данных, после этого описывается AST Fuzzer, который был разработан командой ClickHouse.
Основные моменты я прицепил слайдами к посту
Если посмотреть на репу, то там прям активная работа идёт с ним и вокруг него
https://github.com/ClickHouse/ClickHouse/pulls?q=Buzzhouse
Запись в блоге ClickHouse от докладчика (Pedro Ferreira)
BuzzHouse: Bridging the database fuzzing gap for testing ClickHouse
https://clickhouse.com/blog/buzzhouse-bridging-the-database-fuzzing-gap-for-testing-clickhouse
Небольшой пост на русском
Фаззинг-тестирование ClickHouse с BuzzHouse
https://bigdataschool.ru/blog/news/clickhouse/clickhouse-fuzzing-testing-with-buzzhouse.html
И вот первый доклад про который хотелось бы рассказать
Называется он
Fuzzing databases is difficult (презентацию скину в комменты)
https://mirrors.dotsrc.org/fosdem/2025/ud6215/fosdem-2025-6478-fuzzing-databases-is-difficult.mp4
Речь идёт про подсистему фаззинга, которую затащили в ClickHouse - BuzzHouse
Сначала идёт рассказ про проблематику нахождения ошибок в базах данных, после этого описывается AST Fuzzer, который был разработан командой ClickHouse.
Основные моменты я прицепил слайдами к посту
Если посмотреть на репу, то там прям активная работа идёт с ним и вокруг него
https://github.com/ClickHouse/ClickHouse/pulls?q=Buzzhouse
Запись в блоге ClickHouse от докладчика (Pedro Ferreira)
BuzzHouse: Bridging the database fuzzing gap for testing ClickHouse
https://clickhouse.com/blog/buzzhouse-bridging-the-database-fuzzing-gap-for-testing-clickhouse
Небольшой пост на русском
Фаззинг-тестирование ClickHouse с BuzzHouse
https://bigdataschool.ru/blog/news/clickhouse/clickhouse-fuzzing-testing-with-buzzhouse.html
Forwarded from Аналитика данных / Data Study
Media is too big
VIEW IN TELEGRAM
#dbtVault / #automate_dv tg-"fast start tutorial": https://t.iss.one/dbt_users/22064?thread=22060 #thread
#dbt+#DataVault
#dbt+#DataVault
Telegram
Alex. Seconds. in dbt & modern data stack
ух... все-таки тема большая и правильный ответ будет пойти по всему туториалу https://automate-dv.readthedocs.io/en/latest/tutorial/
но если максимально упрощенно, то можно начать с написания следующего минимума.
1. staging модель для генерации ключей и…
но если максимально упрощенно, то можно начать с написания следующего минимума.
1. staging модель для генерации ключей и…
Forwarded from Анастасия Дроздова
Forwarded from 5 minutes of data
Apache Airflow® Best Practices: ETL & ELT Pipelines
44 страницы исчерпывающего руководства по одному из самых распространенных сценариев использования в data engineering на ведущем open-source оркестраторе!
Что вы узнаете из руководства:
📊 Сравнение ETL vs. ELT для вашей архитектурной стратегии - какой подход выбрать и почему.
💡 Лучшие практики написания DAG в Airflow - как создавать эффективные и поддерживаемые пайплайны.
⚡️ Ключевые функции для улучшения ваших ETL & ELT пайплайнов - поднимите свои процессы обработки данных на новый уровень.
Станьте экспертом в оркестрации данных с этим подробным руководством!
Скачать можно по ссылке
@data_whisperer
44 страницы исчерпывающего руководства по одному из самых распространенных сценариев использования в data engineering на ведущем open-source оркестраторе!
Что вы узнаете из руководства:
📊 Сравнение ETL vs. ELT для вашей архитектурной стратегии - какой подход выбрать и почему.
💡 Лучшие практики написания DAG в Airflow - как создавать эффективные и поддерживаемые пайплайны.
⚡️ Ключевые функции для улучшения ваших ETL & ELT пайплайнов - поднимите свои процессы обработки данных на новый уровень.
Станьте экспертом в оркестрации данных с этим подробным руководством!
Скачать можно по ссылке
@data_whisperer
Forwarded from GitHub Trends
#python #cleandata #data_engineering #data_profilers #data_profiling #data_quality #data_science #data_unit_tests #datacleaner #datacleaning #dataquality #dataunittest #eda #exploratory_analysis #exploratory_data_analysis #exploratorydataanalysis #mlops #pipeline #pipeline_debt #pipeline_testing #pipeline_tests
GX Core is a powerful tool for ensuring data quality. It allows you to write simple tests, called "Expectations," to check if your data meets certain standards. This helps teams work together more effectively and keeps everyone informed about the data's quality. You can automatically generate reports, making it easy to share results and preserve your organization's knowledge about its data. To get started, you just need to install GX Core in a Python virtual environment and follow some simple steps. This makes managing data quality much simpler and more efficient.
https://github.com/great-expectations/great_expectations
GX Core is a powerful tool for ensuring data quality. It allows you to write simple tests, called "Expectations," to check if your data meets certain standards. This helps teams work together more effectively and keeps everyone informed about the data's quality. You can automatically generate reports, making it easy to share results and preserve your organization's knowledge about its data. To get started, you just need to install GX Core in a Python virtual environment and follow some simple steps. This makes managing data quality much simpler and more efficient.
https://github.com/great-expectations/great_expectations
GitHub
GitHub - great-expectations/great_expectations: Always know what to expect from your data.
Always know what to expect from your data. Contribute to great-expectations/great_expectations development by creating an account on GitHub.
Forwarded from Данные на стероидах
dbt-дайджест
Привет!
Сегодня расскажем про dbt — open-source фреймворк для выполнения, тестирования и документирования SQL-запросов. dbt работает с данными, загруженными в хранилище, и компилирует SQL-запросы в код. Этот инструмент позволяет привнести элемент программной инженерии в анализ данных.
🔹 Введение в dbt шаг за шагом
Марк Порошин, специалист по Data Science в DV Group, делится опытом создания DataVault на базе dbt, а заодно напоминает, как в dbt работать с проектами, переменными, jinja, циклами, вспомогательными запросами и другими составляющими dbt.
🔹 Управляем моделью с помощью метаданных в dbt
Руководство по созданию продвинутых макросов, использующих метаданные модели для управления инкрементальностью и тестами качества. Параметры модели, заданные в виде метаданных, позволяют наглядно представлять их в каталоге данных и переиспользовать в разных задачах.
🔹 Создаем конвейер машинного обучения с помощью DBT
Сотрудники Otus рассказывают, как использовать dbt для создания конвейера данных, который конструирует признаки, обучает модель, делает прогнозы без необходимости извлечения данных из базы данных. Из статьи вы также узнаете, как работать с BigQuery ML для обучения данных и прогнозирования в базе данных.
🔹 Как построить аналитическую инфраструктуру уровня PRO своими руками или с небольшой командой
Рассказываем на вебинаре о роли dbt в составе аналитической платформы. На практическом примере показываем, как использовать этот инструмент для базовой проверки качества данных, документации и других задач.
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез #dbt
Привет!
Сегодня расскажем про dbt — open-source фреймворк для выполнения, тестирования и документирования SQL-запросов. dbt работает с данными, загруженными в хранилище, и компилирует SQL-запросы в код. Этот инструмент позволяет привнести элемент программной инженерии в анализ данных.
🔹 Введение в dbt шаг за шагом
Марк Порошин, специалист по Data Science в DV Group, делится опытом создания DataVault на базе dbt, а заодно напоминает, как в dbt работать с проектами, переменными, jinja, циклами, вспомогательными запросами и другими составляющими dbt.
🔹 Управляем моделью с помощью метаданных в dbt
Руководство по созданию продвинутых макросов, использующих метаданные модели для управления инкрементальностью и тестами качества. Параметры модели, заданные в виде метаданных, позволяют наглядно представлять их в каталоге данных и переиспользовать в разных задачах.
🔹 Создаем конвейер машинного обучения с помощью DBT
Сотрудники Otus рассказывают, как использовать dbt для создания конвейера данных, который конструирует признаки, обучает модель, делает прогнозы без необходимости извлечения данных из базы данных. Из статьи вы также узнаете, как работать с BigQuery ML для обучения данных и прогнозирования в базе данных.
🔹 Как построить аналитическую инфраструктуру уровня PRO своими руками или с небольшой командой
Рассказываем на вебинаре о роли dbt в составе аналитической платформы. На практическом примере показываем, как использовать этот инструмент для базовой проверки качества данных, документации и других задач.
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез #dbt
Forwarded from Данные на стероидах
Дайджест Apache Iceberg
Привет!
Сегодня расскажем про Apache Iceberg — высокопроизводительный открытый формат огромных аналитических таблиц. Iceberg привносит надежность и простоту таблиц SQL в работу с большими данными. В этом формате инструменты Spark, Trino, Flink, Presto, Hive и Impala могут работать с одними и теми же таблицами в одно и то же время.
🔹 Блеск и нищета каталогов метаданных для Data Lake: преимущества Apache Iceberg над Hive
Big Data School подобно объясняет, для чего озерам данных нужны каталоги метаданных и чем Apache Iceberg лучше Apache Hive.
🔹 Hudi, Iceberg и Delta Lake: сравнение табличных форматов для озера данных
VK перевели статью про характеристики трех табличных форматов для озера данных: их платформенную совместимость, гарантированное выполнение параллельных процессов, производительность и скорость обновлений.
🔹 Шестая платформа данных: новое слово в хранении и обработке данных
Еще один перевод от нашей команды — подкаст Breaking Analysis с Райаном Блю, одним из создателей и председателем комитета по управлению проектами Apache Iceberg. В лонгриде обсуждают плюсы и минусы разных платформ данных, рассуждают, нужна ли шестая платформа данных и каковы проблемы хранения данных на современном этапе развития ИТ.
🔹 Зачем Apache Iceberg, если уже есть много других форматов
Видео-доклад Бронислава Житникова, на котором он рассматривает эволюцию подходов к хранению данных и особенности Apache Iceberg. Кроме того, в видео вы найдете рекомендации о том, что нужно учитывать при переходе на этот формат хранения.
🔹 Apache Iceberg Schema Evolution Automation with PySpark
Пошаговое руководство с программным кодом, в котором объясняется, как автоматизировать эволюцию схемы для Apache Iceberg с помощью PySpark, чтобы сократить количество ошибок и сэкономить силы и время за счет автоматизации.
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез #ApacheIceberg
Привет!
Сегодня расскажем про Apache Iceberg — высокопроизводительный открытый формат огромных аналитических таблиц. Iceberg привносит надежность и простоту таблиц SQL в работу с большими данными. В этом формате инструменты Spark, Trino, Flink, Presto, Hive и Impala могут работать с одними и теми же таблицами в одно и то же время.
🔹 Блеск и нищета каталогов метаданных для Data Lake: преимущества Apache Iceberg над Hive
Big Data School подобно объясняет, для чего озерам данных нужны каталоги метаданных и чем Apache Iceberg лучше Apache Hive.
🔹 Hudi, Iceberg и Delta Lake: сравнение табличных форматов для озера данных
VK перевели статью про характеристики трех табличных форматов для озера данных: их платформенную совместимость, гарантированное выполнение параллельных процессов, производительность и скорость обновлений.
🔹 Шестая платформа данных: новое слово в хранении и обработке данных
Еще один перевод от нашей команды — подкаст Breaking Analysis с Райаном Блю, одним из создателей и председателем комитета по управлению проектами Apache Iceberg. В лонгриде обсуждают плюсы и минусы разных платформ данных, рассуждают, нужна ли шестая платформа данных и каковы проблемы хранения данных на современном этапе развития ИТ.
🔹 Зачем Apache Iceberg, если уже есть много других форматов
Видео-доклад Бронислава Житникова, на котором он рассматривает эволюцию подходов к хранению данных и особенности Apache Iceberg. Кроме того, в видео вы найдете рекомендации о том, что нужно учитывать при переходе на этот формат хранения.
🔹 Apache Iceberg Schema Evolution Automation with PySpark
Пошаговое руководство с программным кодом, в котором объясняется, как автоматизировать эволюцию схемы для Apache Iceberg с помощью PySpark, чтобы сократить количество ошибок и сэкономить силы и время за счет автоматизации.
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез #ApacheIceberg
Forwarded from Данные на стероидах
Архитектуры хранилищ данных: Data Lakehouse и Data Warehouse
Привет!
Читайте наш традиционный пятничный #дайджест. Собрали статьи при архитектуры хранилищ данных.
🔹 Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями
🔹 Хранилище данных vs. Data Lake. Или почему важно научиться ходить перед тем, как начать бегать
🔹 Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты
🔹 Вредные советы при построении Аналитики (Data Lake / DWH / BI) – чего стоит избегать
🔹 Современные типы архитектуры данных: Погружение в различные подходы к построению хранилищ данных
🔹 Дорожная карта миграции большого хранилища данных
🔹 Как благодаря переезду хранилища данных прокачать стек, архитектуру и скиллы команды
🔹 Хранилище данных пугает бизнес: проблемы DWH для бизнеса
Хорошего чтения и приятных выходных!
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез #Data #AI
Привет!
Читайте наш традиционный пятничный #дайджест. Собрали статьи при архитектуры хранилищ данных.
🔹 Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями
🔹 Хранилище данных vs. Data Lake. Или почему важно научиться ходить перед тем, как начать бегать
🔹 Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты
🔹 Вредные советы при построении Аналитики (Data Lake / DWH / BI) – чего стоит избегать
🔹 Современные типы архитектуры данных: Погружение в различные подходы к построению хранилищ данных
🔹 Дорожная карта миграции большого хранилища данных
🔹 Как благодаря переезду хранилища данных прокачать стек, архитектуру и скиллы команды
🔹 Хранилище данных пугает бизнес: проблемы DWH для бизнеса
Хорошего чтения и приятных выходных!
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез #Data #AI
Forwarded from Данные на стероидах
Про DLH и Trino. Статьи и вебинар 11.02
Привет!
Собрали пятничный #дайджест про Data Lakehouse и Trino. Читайте статьи и приходите на наш вебинар.
🔹 Нужна ли нам Lakehouse архитектура?
🔹 Быстрая обработка данных в data lake с помощью SQL
🔹 Платформа данных в хранилище Магнит OMNI
🔹 Как устроен massively parallel processing (MPP) в Trino
🔹 Почему Trino такой быстрый: динамические фильтры
🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов
Вебинар «Поднимаем Data Lakehouse на основе Trino в облаке»
11 февраля в 17:00 мы разберем, что такое Data Lakehouse. Узнаем, как эта архитектура объединяет преимущества DLH и DWH, чтобы упростить управление, удешевить хранение и ускорить анализ данных из различных источников в одном месте.
На примере в лайв-режиме покажем различия в стоимости и скорости работы DLH и DWH.
Ведущий — Алексей Белозерский, руководитель группы BigData Services VK Cloud.
Подробности и регистрация
Хорошего чтения и приятных выходных!
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез #Data #AI
Привет!
Собрали пятничный #дайджест про Data Lakehouse и Trino. Читайте статьи и приходите на наш вебинар.
🔹 Нужна ли нам Lakehouse архитектура?
🔹 Быстрая обработка данных в data lake с помощью SQL
🔹 Платформа данных в хранилище Магнит OMNI
🔹 Как устроен massively parallel processing (MPP) в Trino
🔹 Почему Trino такой быстрый: динамические фильтры
🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов
Вебинар «Поднимаем Data Lakehouse на основе Trino в облаке»
11 февраля в 17:00 мы разберем, что такое Data Lakehouse. Узнаем, как эта архитектура объединяет преимущества DLH и DWH, чтобы упростить управление, удешевить хранение и ускорить анализ данных из различных источников в одном месте.
На примере в лайв-режиме покажем различия в стоимости и скорости работы DLH и DWH.
Ведущий — Алексей Белозерский, руководитель группы BigData Services VK Cloud.
Подробности и регистрация
Хорошего чтения и приятных выходных!
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез #Data #AI
Forwarded from 5 minutes of data
TableFlow: Новый подход к обработке потоковых данных с Kafka и Iceberg
В мире потоковой обработки данных появляются всё новые инструменты, которые меняют наше представление о том, как работать с большими объёмами информации.
Один из таких инструментов — TableFlow, концепция, которая объединяет мощь Apache Kafka и Apache Iceberg.
Что такое TableFlow?
TableFlow — это подход, который стирает границы между потоковой обработкой и табличными данными. Он позволяет использовать Kafka как потоковый источник, а Iceberg — как табличное хранилище, обеспечивая гибкость и эффективность в обработке данных.
Почему это важно?
• Гибкость: Вы можете работать с данными как в режиме реального времени, так и в пакетном режиме.
• Масштабируемость: Kafka и Iceberg отлично справляются с большими объёмами данных.
• Упрощение архитектуры: TableFlow уменьшает сложность системы, объединяя потоковую и табличную модели.
Как это работает?
1. Данные поступают в Kafka.
2. С помощью TableFlow они преобразуются и записываются в Iceberg-таблицы.
3. Вы можете анализировать данные как в реальном времени, так и в историческом контексте.
Если вы хотите глубже разобраться в теме, рекомендую прочитать оригинальный пост: TableFlow: The Stream-Table Kafka-Iceberg Duality.
Так же запись
Apache Kafka Meets Apache Iceberg: Real-Time Data Streaming • Kasun Indrasiri • GOTO 2024
@data_whisperer
В мире потоковой обработки данных появляются всё новые инструменты, которые меняют наше представление о том, как работать с большими объёмами информации.
Один из таких инструментов — TableFlow, концепция, которая объединяет мощь Apache Kafka и Apache Iceberg.
Что такое TableFlow?
TableFlow — это подход, который стирает границы между потоковой обработкой и табличными данными. Он позволяет использовать Kafka как потоковый источник, а Iceberg — как табличное хранилище, обеспечивая гибкость и эффективность в обработке данных.
Почему это важно?
• Гибкость: Вы можете работать с данными как в режиме реального времени, так и в пакетном режиме.
• Масштабируемость: Kafka и Iceberg отлично справляются с большими объёмами данных.
• Упрощение архитектуры: TableFlow уменьшает сложность системы, объединяя потоковую и табличную модели.
Как это работает?
1. Данные поступают в Kafka.
2. С помощью TableFlow они преобразуются и записываются в Iceberg-таблицы.
3. Вы можете анализировать данные как в реальном времени, так и в историческом контексте.
Если вы хотите глубже разобраться в теме, рекомендую прочитать оригинальный пост: TableFlow: The Stream-Table Kafka-Iceberg Duality.
Так же запись
Apache Kafka Meets Apache Iceberg: Real-Time Data Streaming • Kasun Indrasiri • GOTO 2024
@data_whisperer