Data Engineering / reposts & drafts – Telegram

Data Engineering / reposts & drafts

@DataEngineering_ru

35 subscribers

227 photos

22 videos

40 files

557 links

#DataEngineering
#data_engineering
#data_engineering_ru

#DE_ru #DE

Download Telegram

About

Blog

Apps

Platform

Data Engineering / reposts & drafts

Data Engineering / reposts & drafts

Forwarded from 5 minutes of data

TableFlow: Новый подход к обработке потоковых данных с Kafka и Iceberg

В мире потоковой обработки данных появляются всё новые инструменты, которые меняют наше представление о том, как работать с большими объёмами информации.
Один из таких инструментов — TableFlow, концепция, которая объединяет мощь Apache Kafka и Apache Iceberg.

Что такое TableFlow?
TableFlow — это подход, который стирает границы между потоковой обработкой и табличными данными. Он позволяет использовать Kafka как потоковый источник, а Iceberg — как табличное хранилище, обеспечивая гибкость и эффективность в обработке данных.

Почему это важно?
• Гибкость: Вы можете работать с данными как в режиме реального времени, так и в пакетном режиме.
• Масштабируемость: Kafka и Iceberg отлично справляются с большими объёмами данных.
• Упрощение архитектуры: TableFlow уменьшает сложность системы, объединяя потоковую и табличную модели.

Как это работает?
1. Данные поступают в Kafka.
2. С помощью TableFlow они преобразуются и записываются в Iceberg-таблицы.
3. Вы можете анализировать данные как в реальном времени, так и в историческом контексте.

Если вы хотите глубже разобраться в теме, рекомендую прочитать оригинальный пост: TableFlow: The Stream-Table Kafka-Iceberg Duality.
Так же запись
Apache Kafka Meets Apache Iceberg: Real-Time Data Streaming • Kasun Indrasiri • GOTO 2024

@data_whisperer

15 views07:25

Data Engineering / reposts & drafts

https://t.iss.one/dataengineerchat/1046

Data Engineer in Data Engineer Chat

Партиции в Clickhouse, нюансы нейминга

Использование обращений напрямую к партициям позволяет выполнять действия с данными с использованием меньшего количества ресурсов. Пользуюсь этим на проекте с Clickhouse, если нужно удалить большой кусок данных. На…

15 views10:42

Data Engineering / reposts & drafts

Forwarded from DataJourney

Партиции в Clickhouse, нюансы нейминга

Использование обращений напрямую к партициям позволяет выполнять действия с данными с использованием меньшего количества ресурсов. Пользуюсь этим на проекте с Clickhouse, если нужно удалить большой кусок данных. На неделе столкнулся с ошибкой при работе с партициями по дате и, после поиска причины проблемы, был неприятно удивлен одновременной гибкости и строгости Clickhouse. Вроде бы доке все описано довольно подробно: PARTITION… Но!

Но, от меня укрылась одна особенность, которой хочу поделиться. В общем случае, как оказалось, ключ партиции (системная колонка _partition_id из рассматриваемой таблички) может не совпадать с наименованием партиции (partition из system.parts). При этом, наименование партиции может быть как строкой, так и числом, так и кортежем (tuple).

При этом в различных операциях с партициями поддерживаются различные варианты указания партиции (см. доку выше), но вот в операции ALTER TABLE DELETE IN PARTITION ожидается представление из system.parts. При этом, в зависимости от типа данных там может быть как число, так и строка. Просто рай для автоматизации!

Для себя выбрал решение брать значение из системной колонки _partition_value, приведенное к строке через toString. Пока каких-то проблем не поймали.

P.S. Что была за проблема? Я брал название партиции из системной колонки _partition_id. Во всех интеграциях операция отрабатывала нормально кроме одной. При этом никаких сообщений об ошибках не было. Данные просто не удалялись, так как партиции с именем _partition_id не существовало. Вот так по тихому, без ошибок, плодились задвоения данных.

Управление разделами и частями | ClickHouse Docs

Документация по разделам (Partition)

16 views10:42

Data Engineering / reposts & drafts

Forwarded from дата инженеретта

Вебинар VK Cloud «Поднимаем Data Lakehouse на основе Trino в облаке»

11 февраля на бесплатном вебинаре от VK Cloud расскажут:

· Что такое Data Lakehouse.
· Как эта архитектура объединяет преимущества Data Lake и Data Warehouse.
· Как упрощается управление и ускоряется анализ данных из различных источников в одном месте.
· Насколько удешевляется хранение данных.

Где: онлайн, необходимо зарегистрироваться
Когда: 11 февраля в 17:00

Также Алексей Белозерский, руководитель группы BigData Sevices в VK Cloud, покажет как новый облачный сервис Cloud Trino от VK Cloud обеспечивает быструю обработку больших объемов данных, позволяя получать ценные инсайты в реальном времени.

Регистрация

19 views07:14

Data Engineering / reposts & drafts

Forwarded from дата инженеретта

Посмотрела вчерашний митап, вот еще картиночки архитектур

По сути это классическое двх, data lake и data lakehouse

Но вам не кажется, что кх поверх гринплам - немножко многовато, тем более в lakehouse?

#system_design

19 views07:14

Data Engineering / reposts & drafts

#ClickHouse #joins

https://t.iss.one/data_apps/424?comment=1933

Data & IT Career in Data Apps Design Chat

У меня по 5 джоинов на запрос и Ок (через dbt - в run проблем не обнаружил), но у меня not-very-big data, тч it depends
+ делаю базовую оптимизацию:
- продуманную предварительную материализацию
- партиции / индексы (пока не супер глубоко проникнувшись, правда)…

18 views06:23

Data Engineering / reposts & drafts

Forwarded from Данные на стероидах

Про DLH и Trino. Статьи и вебинар 11.02

Привет!

Собрали пятничный #дайджест про Data Lakehouse и Trino. Читайте статьи и приходите на наш вебинар.

🔹 Нужна ли нам Lakehouse архитектура?

🔹 Быстрая обработка данных в data lake с помощью SQL

🔹 Платформа данных в хранилище Магнит OMNI

🔹 Как устроен massively parallel processing (MPP) в Trino

🔹 Почему Trino такой быстрый: динамические фильтры

🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

Вебинар «Поднимаем Data Lakehouse на основе Trino в облаке»

11 февраля в 17:00 мы разберем, что такое Data Lakehouse. Узнаем, как эта архитектура объединяет преимущества DLH и DWH, чтобы упростить управление, удешевить хранение и ускорить анализ данных из различных источников в одном месте.

На примере в лайв-режиме покажем различия в стоимости и скорости работы DLH и DWH.

Ведущий — Алексей Белозерский, руководитель группы BigData Services VK Cloud.

Подробности и регистрация

Хорошего чтения и приятных выходных!

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #Data #AI

13 views08:26

Data Engineering / reposts & drafts

Forwarded from Архитектор Данных

Спасибо всем кто смотрел вебинар!

Запись тут: https://vkvideo.ru/video-164978780_456239621

Спасибо всем, кто задавал вопросы! Продолжить дискуссию можно в комментариях.

Поднимаем Data Lakehouse на основе Trino в облаке

11 февраля в 17:00 на вебинаре мы разберём, что такое Data Lakehouse и как эта архитектура объединит преимущества Data Lake и Data Warehouse, упрощая управление, хранения и анализ данных из различных источников в одном месте. Покажем, как новый облачный сервис…

16 views08:26

Data Engineering / reposts & drafts

Forwarded from Архитектор Данных

DataLakehouse 11.02.pdf

Всем привет!

Презентация со вчерашнего вебинара.

13 views08:26

Data Engineering / reposts & drafts

Forwarded from Архитектор Данных

Всем ли нужно заниматься данными?

Нередко заказчики спрашивают что-то подобное. Что, прямо в каждой компании должен быть стек обработки [больших] данных?

Сложилась аналогия.

Всем ли нужно заниматься спортом?
Нет, не всем. Можно прожить вообще без этого и быть довольным.

Ведет ли занятие спортом к улучшению жизни?
Разумеется, ведет!

Требует ли занятие спортом дополнительных вложений денег/времени/сил?
Конечно, требует.

Вот вам и уравнение. И с данными точно так же.

15 views08:26

Data Engineering / reposts & drafts

Forwarded from Данные на стероидах

Про Trino — статьи и видео

Привет!

На вебинаре во вторник мы рассказали про Trino.

Смотрите вебинар

Самое время вспомнить наш летний дайджест, посвященный этой теме.

Статьи на русском

🔹 Почему Trino такой быстрый: динамические фильтры

🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

🔹 Как устроен massively parallel processing (MPP) в Trino

🔹 Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора

Статьи на английском

🔹 Trino versus Apache Spark

🔹 Deploy MinIO and Trino with Kubernetes

🔹 The Best Data Transformation Tools for Trino

🔹 Use Trino with Dataproc

🔹 Enabling Highly Available Trino Clusters at Goldman Sachs

🔹 Trino Architecture

Видео

🔹 Как пересесть на Trino после Vertica: реальный кейс Авито

🔹 Роль Trino в Тинькофф: использование встроенных возможностей, собственные доработки и future work

🔹 Как устроено выполнение SQL-запросов в Presto/Trino

🔹 Trino Fest 2024 — 13 докладов

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #trino

10 views08:26

Data Engineering / reposts & drafts

Forwarded from Данные на стероидах

Запустили первый в России облачный Data Lakehouse

VK Cloud стала первой в России облачной платформой с возможностью построить корпоративный Data Lakehouse.

Data Lakehouse работает на управляемых облачных сервисах VK Cloud:

🔹 Cloud Storage — S3-совместимое объектное хранилище собственной разработки,

🔹Cloud Trino — высокопроизводительный SQL-движок на базе Kubernetes.

Cloud Trino позволяет сократить время на ETL-процессы, ускорить обработку сырых данных, легко построить Self-Service-аналитику и получить ценные инсайты в реальном времени.

Преимущества для пользователей VK Cloud:

🔹 современный стек для работы с крупными проектами,

🔹 оплата только за фактически потребленные ресурсы,

🔹 нет необходимости покупать лицензии.

Узнать подробнее

10 views10:42

Data Engineering / reposts & drafts

Forwarded from Данные на стероидах

Три статьи и один вебинар про хранение данных

Привет!

По традиции собрали несколько полезных тематических материалов, которые вышли на Хабре на этой неделе.

🔹 Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse

🔹 Как устроен T-RAID — RAID-массив в СХД TATLIN

🔹 Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов

В продолжение темы хранения данных делимся записью вебинара «Используем S3 на максимум. Как построить эффективное и устойчивое объектное хранилище».

🔹 Смотрите запись в нашем паблике.

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез

11 views10:42

Data Engineering / reposts & drafts

Forwarded from Данные на стероидах

Про Trino — статьи и видео

Привет!

На вебинаре во вторник мы рассказали про Trino.

Смотрите вебинар

Самое время вспомнить наш летний дайджест, посвященный этой теме.

Статьи на русском

🔹 Почему Trino такой быстрый: динамические фильтры

🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

🔹 Как устроен massively parallel processing (MPP) в Trino

🔹 Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора

Статьи на английском

🔹 Trino versus Apache Spark

🔹 Deploy MinIO and Trino with Kubernetes

🔹 The Best Data Transformation Tools for Trino

🔹 Use Trino with Dataproc

🔹 Enabling Highly Available Trino Clusters at Goldman Sachs

🔹 Trino Architecture

Видео

🔹 Как пересесть на Trino после Vertica: реальный кейс Авито

🔹 Роль Trino в Тинькофф: использование встроенных возможностей, собственные доработки и future work

🔹 Как устроено выполнение SQL-запросов в Presto/Trino

🔹 Trino Fest 2024 — 13 докладов

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #trino

14 views10:42

Data Engineering / reposts & drafts

Forwarded from 🔋 Труба данных (Simon Osipov)

https://github.com/databrickslabs/dqx

Databricks выложили в опенсорс DQX - фреймворк для DQ поверх pyspark датафреймов.
Больше фреймворков богу фреймворков.

Даже мотивация для этого фреймворка какая-то хлюпкая
Current data quality frameworks often fall short in providing detailed explanations for specific row or column data quality issues and are primarily designed for complete datasets, making integration into streaming workloads difficult.

@ohmydataengineer - канал "🕯Труба Данных" не верит в очередной фреймворк

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub - databrickslabs/dqx: Databricks framework to validate Data Quality of pySpark DataFrames and Tables

Databricks framework to validate Data Quality of pySpark DataFrames and Tables - databrickslabs/dqx

15 views12:20

Data Engineering / reposts & drafts

Forwarded from 🔋 Труба данных (Simon Osipov)

https://clickhouse.com/blog/json-bench-clickhouse-vs-mongodb-elasticsearch-duckdb-postgresql

Вы будете кидать 💩, но я опять про Clickhouse
Огромная статья с технической мяготкой про 1 Billion JSON Challenge и насколько новый нативный тип JSON в клике работает быстрей и эффективней по памяти и стораджу по сравнению с другими базами данных.

@ohmydataengineer - канал "🕯Труба Данных" в очередной раз про одно и то же!

Please open Telegram to view this post

VIEW IN TELEGRAM

The billion docs JSON Challenge: ClickHouse vs. MongoDB, Elasticsearch, and more

Explore how ClickHouse’s new JSON data type outperforms leading JSON databases with unmatched storage efficiency and lightning-fast query speed—all while storing JSON data in a single field and staying true to the promise of JSON databases

12 views12:20

Data Engineering / reposts & drafts

Forwarded from 🔋 Труба данных (Simon Osipov)

https://www.gable.ai/data-contracts-book

ГигаЧад и O'Reilly выкатывают в открытый доступ (правда надо оставить емейл) первую версию книжки про дата контракты.
Как по мне, хайп на эту штуку прошел и чет даже не сильно зудит это применять. Но, возможно, вы что-то подчерпнете для себя!

@ohmydataengineer - канал "🕯Труба Данных" в сомнения про дата контракты

Please open Telegram to view this post

VIEW IN TELEGRAM

Gable | Data Contracts: Developing Production Grade Pipelines at Scale

Download the Data Contracts: Developing Production Grade Pipelines at Scale Book

13 views12:20

Data Engineering / reposts & drafts

Forwarded from 🔋 Труба данных (Simon Osipov)

https://vutr.substack.com/p/8-minutes-to-understand-presto

Большая пояснительная статья про работу Presto (ну и в целом Trino работает похожим образом). Все еще сильно советую подписаться на этого парня, он хорошие статьи пишет

@ohmydataengineer - канал "🕯Труба Данных", который ничего умного в этот раз не придумал.

Please open Telegram to view this post

VIEW IN TELEGRAM

8 minutes to understand Presto

Uber, Netflix, Airbnb, and LinkedIn uses this query engine.

15 views12:20

Data Engineering / reposts & drafts

Forwarded from 🔋 Труба данных (Simon Osipov)

https://www.pracdata.io/p/open-source-data-engineering-landscape-2025

Все вы помните огромные картинки, на которых 17 миллионов логотипов сервисов для данных. Вот эта статья - одна из таких, но тут главная особенность - здесь ТОЛЬКО open source решения, и причем в адекватном количестве. С понятными пояснениями, почему тот или иной инструмент попал в список.

Как всегда, читать эту картинку нужно следующим образом "А что еще есть на рынке в этой сфере кроме X?"

@ohmydataengineer - канал "🕯Труба Данных" и ставшие уже классическими landscapes картинки!

Please open Telegram to view this post

VIEW IN TELEGRAM

www.pracdata.io

Open Source Data Engineering Landscape 2025

A comprehensive view of active open source tools and emerging trends in data engineering ecosystem in 2024-2025

16 views12:20