Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Дайджест Apache Iceberg

Привет!

Сегодня расскажем про Apache Iceberg — высокопроизводительный открытый формат огромных аналитических таблиц. Iceberg привносит надежность и простоту таблиц SQL в работу с большими данными. В этом формате инструменты Spark, Trino, Flink, Presto, Hive и Impala могут работать с одними и теми же таблицами в одно и то же время.

🔹 Блеск и нищета каталогов метаданных для Data Lake: преимущества Apache Iceberg над Hive
Big Data School подобно объясняет, для чего озерам данных нужны каталоги метаданных и чем Apache Iceberg лучше Apache Hive.

🔹 Hudi, Iceberg и Delta Lake: сравнение табличных форматов для озера данных
VK перевели статью про характеристики трех табличных форматов для озера данных: их платформенную совместимость, гарантированное выполнение параллельных процессов, производительность и скорость обновлений.

🔹 Шестая платформа данных: новое слово в хранении и обработке данных
Еще один перевод от нашей команды — подкаст Breaking Analysis с Райаном Блю, одним из создателей и председателем комитета по управлению проектами Apache Iceberg. В лонгриде обсуждают плюсы и минусы разных платформ данных, рассуждают, нужна ли шестая платформа данных и каковы проблемы хранения данных на современном этапе развития ИТ.

🔹 Зачем Apache Iceberg, если уже есть много других форматов
Видео-доклад Бронислава Житникова, на котором он рассматривает эволюцию подходов к хранению данных и особенности Apache Iceberg. Кроме того, в видео вы найдете рекомендации о том, что нужно учитывать при переходе на этот формат хранения.

🔹 Apache Iceberg Schema Evolution Automation with PySpark
Пошаговое руководство с программным кодом, в котором объясняется, как автоматизировать эволюцию схемы для Apache Iceberg с помощью PySpark, чтобы сократить количество ошибок и сэкономить силы и время за счет автоматизации.

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #ApacheIceberg
Архитектуры хранилищ данных: Data Lakehouse и Data Warehouse

Привет!

Читайте наш традиционный пятничный #дайджест. Собрали статьи при архитектуры хранилищ данных.

🔹 Data Warehouse, Data Lake, Data Lakehouse, Data Fabric, Data Mesh – что это такое, и в чем разница между концепциями

🔹 Хранилище данных vs. Data Lake. Или почему важно научиться ходить перед тем, как начать бегать

🔹 Вредные советы при построении Аналитики (Data Lake / DWH / BI) – целеполагание и результаты

🔹 Вредные советы при построении Аналитики (Data Lake / DWH / BI) – чего стоит избегать

🔹 Современные типы архитектуры данных: Погружение в различные подходы к построению хранилищ данных

🔹 Дорожная карта миграции большого хранилища данных

🔹 Как благодаря переезду хранилища данных прокачать стек, архитектуру и скиллы команды

🔹 Хранилище данных пугает бизнес: проблемы DWH для бизнеса

Хорошего чтения и приятных выходных!

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #Data #AI
Про DLH и Trino. Статьи и вебинар 11.02

Привет!

Собрали пятничный #дайджест про Data Lakehouse и Trino. Читайте статьи и приходите на наш вебинар.

🔹 Нужна ли нам Lakehouse архитектура?

🔹 Быстрая обработка данных в data lake с помощью SQL

🔹 Платформа данных в хранилище Магнит OMNI

🔹 Как устроен massively parallel processing (MPP) в Trino

🔹 Почему Trino такой быстрый: динамические фильтры

🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

Вебинар «Поднимаем Data Lakehouse на основе Trino в облаке»

11 февраля в 17:00 мы разберем, что такое Data Lakehouse. Узнаем, как эта архитектура объединяет преимущества DLH и DWH, чтобы упростить управление, удешевить хранение и ускорить анализ данных из различных источников в одном месте.

На примере в лайв-режиме покажем различия в стоимости и скорости работы DLH и DWH.

Ведущий — Алексей Белозерский, руководитель группы BigData Services VK Cloud.

Подробности и регистрация

Хорошего чтения и приятных выходных!

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #Data #AI
Forwarded from 5 minutes of data
TableFlow: Новый подход к обработке потоковых данных с Kafka и Iceberg

В мире потоковой обработки данных появляются всё новые инструменты, которые меняют наше представление о том, как работать с большими объёмами информации.
Один из таких инструментов — TableFlow, концепция, которая объединяет мощь Apache Kafka и Apache Iceberg.

Что такое TableFlow?
TableFlow — это подход, который стирает границы между потоковой обработкой и табличными данными. Он позволяет использовать Kafka как потоковый источник, а Iceberg — как табличное хранилище, обеспечивая гибкость и эффективность в обработке данных.

Почему это важно?
• Гибкость: Вы можете работать с данными как в режиме реального времени, так и в пакетном режиме.
• Масштабируемость: Kafka и Iceberg отлично справляются с большими объёмами данных.
• Упрощение архитектуры: TableFlow уменьшает сложность системы, объединяя потоковую и табличную модели.

Как это работает?
1. Данные поступают в Kafka.
2. С помощью TableFlow они преобразуются и записываются в Iceberg-таблицы.
3. Вы можете анализировать данные как в реальном времени, так и в историческом контексте.

Если вы хотите глубже разобраться в теме, рекомендую прочитать оригинальный пост: TableFlow: The Stream-Table Kafka-Iceberg Duality.
Так же запись
Apache Kafka Meets Apache Iceberg: Real-Time Data Streaming • Kasun Indrasiri • GOTO 2024

@data_whisperer
Forwarded from DataJourney
Партиции в Clickhouse, нюансы нейминга

Использование обращений напрямую к партициям позволяет выполнять действия с данными с использованием меньшего количества ресурсов. Пользуюсь этим на проекте с Clickhouse, если нужно удалить большой кусок данных. На неделе столкнулся с ошибкой при работе с партициями по дате и, после поиска причины проблемы, был неприятно удивлен одновременной гибкости и строгости Clickhouse. Вроде бы доке все описано довольно подробно: PARTITION… Но!

Но, от меня укрылась одна особенность, которой хочу поделиться. В общем случае, как оказалось, ключ партиции (системная колонка _partition_id из рассматриваемой таблички) может не совпадать с наименованием партиции (partition из system.parts). При этом, наименование партиции может быть как строкой, так и числом, так и кортежем (tuple).

При этом в различных операциях с партициями поддерживаются различные варианты указания партиции (см. доку выше), но вот в операции ALTER TABLE DELETE IN PARTITION ожидается представление из system.parts. При этом, в зависимости от типа данных там может быть как число, так и строка. Просто рай для автоматизации!

Для себя выбрал решение брать значение из системной колонки _partition_value, приведенное к строке через toString. Пока каких-то проблем не поймали.

P.S. Что была за проблема? Я брал название партиции из системной колонки _partition_id. Во всех интеграциях операция отрабатывала нормально кроме одной. При этом никаких сообщений об ошибках не было. Данные просто не удалялись, так как партиции с именем _partition_id не существовало. Вот так по тихому, без ошибок, плодились задвоения данных.
Вебинар VK Cloud «Поднимаем Data Lakehouse на основе Trino в облаке»


11 февраля на бесплатном вебинаре от VK Cloud расскажут:

· Что такое Data Lakehouse.
· Как эта архитектура объединяет преимущества Data Lake и Data Warehouse.
· Как упрощается управление и ускоряется анализ данных из различных источников в одном месте.
· Насколько удешевляется хранение данных.

Где: онлайн, необходимо зарегистрироваться
Когда: 11 февраля в 17:00

Также Алексей Белозерский, руководитель группы BigData Sevices в VK Cloud, покажет как новый облачный сервис Cloud Trino от VK Cloud обеспечивает быструю обработку больших объемов данных, позволяя получать ценные инсайты в реальном времени.

Регистрация
Посмотрела вчерашний митап, вот еще картиночки архитектур

По сути это классическое двх, data lake и data lakehouse

Но вам не кажется, что кх поверх гринплам - немножко многовато, тем более в lakehouse?

#system_design
Про DLH и Trino. Статьи и вебинар 11.02

Привет!

Собрали пятничный #дайджест про Data Lakehouse и Trino. Читайте статьи и приходите на наш вебинар.

🔹 Нужна ли нам Lakehouse архитектура?

🔹 Быстрая обработка данных в data lake с помощью SQL

🔹 Платформа данных в хранилище Магнит OMNI

🔹 Как устроен massively parallel processing (MPP) в Trino

🔹 Почему Trino такой быстрый: динамические фильтры

🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

Вебинар «Поднимаем Data Lakehouse на основе Trino в облаке»

11 февраля в 17:00 мы разберем, что такое Data Lakehouse. Узнаем, как эта архитектура объединяет преимущества DLH и DWH, чтобы упростить управление, удешевить хранение и ускорить анализ данных из различных источников в одном месте.

На примере в лайв-режиме покажем различия в стоимости и скорости работы DLH и DWH.

Ведущий — Алексей Белозерский, руководитель группы BigData Services VK Cloud.

Подробности и регистрация

Хорошего чтения и приятных выходных!

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #Data #AI
DataLakehouse 11.02.pdf
1.8 MB
Всем привет!

Презентация со вчерашнего вебинара.
Всем ли нужно заниматься данными?

Нередко заказчики спрашивают что-то подобное. Что, прямо в каждой компании должен быть стек обработки [больших] данных?

Сложилась аналогия.

Всем ли нужно заниматься спортом?
Нет, не всем. Можно прожить вообще без этого и быть довольным.

Ведет ли занятие спортом к улучшению жизни?
Разумеется, ведет!

Требует ли занятие спортом дополнительных вложений денег/времени/сил?
Конечно, требует.

Вот вам и уравнение. И с данными точно так же.
Про Trino — статьи и видео

Привет!

На вебинаре во вторник мы рассказали про Trino.

Смотрите вебинар

Самое время вспомнить наш летний дайджест, посвященный этой теме.

Статьи на русском

🔹 Почему Trino такой быстрый: динамические фильтры

🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

🔹 Как устроен massively parallel processing (MPP) в Trino

🔹 Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора

Статьи на английском

🔹 Trino versus Apache Spark

🔹 Deploy MinIO and Trino with Kubernetes

🔹 The Best Data Transformation Tools for Trino

🔹 Use Trino with Dataproc

🔹 Enabling Highly Available Trino Clusters at Goldman Sachs

🔹 Trino Architecture

Видео

🔹 Как пересесть на Trino после Vertica: реальный кейс Авито

🔹 Роль Trino в Тинькофф: использование встроенных возможностей, собственные доработки и future work

🔹 Как устроено выполнение SQL-запросов в Presto/Trino

🔹 Trino Fest 2024 — 13 докладов

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #trino
Запустили первый в России облачный Data Lakehouse

VK Cloud стала первой в России облачной платформой с возможностью построить корпоративный Data Lakehouse.

Data Lakehouse работает на управляемых облачных сервисах VK Cloud:

🔹 Cloud Storage — S3-совместимое объектное хранилище собственной разработки,

🔹Cloud Trino — высокопроизводительный SQL-движок на базе Kubernetes.

Cloud Trino позволяет сократить время на ETL-процессы, ускорить обработку сырых данных, легко построить Self-Service-аналитику и получить ценные инсайты в реальном времени.

Преимущества для пользователей VK Cloud:


🔹 современный стек для работы с крупными проектами,

🔹 оплата только за фактически потребленные ресурсы,

🔹 нет необходимости покупать лицензии.

Узнать подробнее
Три статьи и один вебинар про хранение данных

Привет!

По традиции собрали несколько полезных тематических материалов, которые вышли на Хабре на этой неделе.

🔹 Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse

🔹 Как устроен T-RAID — RAID-массив в СХД TATLIN

🔹 Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов

В продолжение темы хранения данных делимся записью вебинара «Используем S3 на максимум. Как построить эффективное и устойчивое объектное хранилище».

🔹 Смотрите запись в нашем паблике.

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез
Про Trino — статьи и видео

Привет!

На вебинаре во вторник мы рассказали про Trino.

Смотрите вебинар

Самое время вспомнить наш летний дайджест, посвященный этой теме.

Статьи на русском

🔹 Почему Trino такой быстрый: динамические фильтры

🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

🔹 Как устроен massively parallel processing (MPP) в Trino

🔹 Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора

Статьи на английском

🔹 Trino versus Apache Spark

🔹 Deploy MinIO and Trino with Kubernetes

🔹 The Best Data Transformation Tools for Trino

🔹 Use Trino with Dataproc

🔹 Enabling Highly Available Trino Clusters at Goldman Sachs

🔹 Trino Architecture

Видео

🔹 Как пересесть на Trino после Vertica: реальный кейс Авито

🔹 Роль Trino в Тинькофф: использование встроенных возможностей, собственные доработки и future work

🔹 Как устроено выполнение SQL-запросов в Presto/Trino

🔹 Trino Fest 2024 — 13 докладов

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #trino
Forwarded from 🔋 Труба данных (Simon Osipov)
https://github.com/databrickslabs/dqx

Databricks выложили в опенсорс DQX - фреймворк для DQ поверх pyspark датафреймов.
Больше фреймворков богу фреймворков.

Даже мотивация для этого фреймворка какая-то хлюпкая
Current data quality frameworks often fall short in providing detailed explanations for specific row or column data quality issues and are primarily designed for complete datasets, making integration into streaming workloads difficult.


@ohmydataengineer - канал "🕯Труба Данных" не верит в очередной фреймворк
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from 🔋 Труба данных (Simon Osipov)
https://clickhouse.com/blog/json-bench-clickhouse-vs-mongodb-elasticsearch-duckdb-postgresql

Вы будете кидать 💩, но я опять про Clickhouse
Огромная статья с технической мяготкой про 1 Billion JSON Challenge и насколько новый нативный тип JSON в клике работает быстрей и эффективней по памяти и стораджу по сравнению с другими базами данных.


@ohmydataengineer - канал "🕯Труба Данных" в очередной раз про одно и то же!
Please open Telegram to view this post
VIEW IN TELEGRAM