Интересное что-то

Знакомимся с Apache Iceberg: что такое каталог данных, табличный формат и как устроен Iceberg?

Представьте, что ваша компания - это огромная библиотека, где вместо книг хранятся терабайты и петабайты данных, разбросанных по разным хранилищам: облачным бакетам (S3, GCS), HDFS, базам данных и т.д.

🔘

Каталог данных - это как индексный каталог этой библиотеки. Он не хранит сами "книги" (данные), но содержит всю метаинформацию о них:

— где лежат данные (путь к файлам, подключение к базе данных).
— что в этих данных (схема таблицы: названия колонок, их типы).
— как они организованы (партиции, форматы файлов).
— кто владеет данными, кто может к ним получить доступ.
— когда данные были обновлены, какая у них история изменений.

🔜

Зачем он нужен?
Без каталога Data Lake быстро превращается в «болото данных» (Data Swamp): невозможно найти нужную информацию, обеспечить качество или управлять доступом.

Раньше данные в озерах хранились как обычные файлы (Parquet, ORC), лишённые функциональности БД.

🔘

Табличный формат (Table Format) - это слой абстракции и управления метаданными, который накладывается поверх этих файлов. Он позволяет "видеть" коллекцию разрозненных файлов как единую, полноценную таблицу, давая ей функциональность, присущую базам данных:
— ACID-транзакции - безопасные обновления/удаления;
— Эволюция схемы - изменение структуры без перезаписи данных;
— Time Travel - доступ к прошлым версиям таблиц;
— Оптимизация - ускорение запросов через статистику.

Табличные форматы (Apache Iceberg, Delta Lake, Hudi) добавляют слой абстракции, превращая набор файлов в «умные» таблицы.

➡️

Apache Iceberg - это один из ведущих открытых табличных форматов для Data Lake, который является развитием концепции Hive Metastore.

Ключевые компоненты архитектуры Iceberg
Чтобы понять, как Iceberg достигает всех этих преимуществ, важно знать его основные компоненты:

*️⃣

Каталог (Catalog): Iceberg нуждается во внешнем Каталоге (да-да, том самом "оглавлении"), чтобы хранить указатель на текущий снапшот таблицы. Это может быть Hive Metastore (да, он еще нужен, но уже для другой, упрощенной роли!), Nessie, AWS Glue, или даже специализированный REST-каталог Iceberg.

*️⃣

Таблица (Table): логическое представление данных через метаданные.

*️⃣

Снапшоты (Snapshots): каждое изменение в таблице создает новый снапшот. Снапшот - неизменяемые версии таблицы (реализуют Time Travel).

*️⃣

Манифест-листы (Manifest Lists): Файлы, содержащие список манифест-файлов. Каждый снапшот указывает на свой манифест-лист.

*️⃣

Манифест-файлы (Manifest Files): Содержат записи о файлах данных (Parquet, ORC, Avro), из которых состоит таблица в данном снапшоте. Эти файлы также хранят статистику по каждому файлу (например, min/max значения колонок), что используется для data skipping (ускорения фильтрации).

*️⃣

Файлы данных (Data Files): Сами файлы с данными, расположенные в облачном хранилище (S3, GCS) или HDFS.

Эта многоуровневая структура метаданных позволяет Iceberg эффективно управлять изменениями, обеспечивать ACID-гарантии и работать с огромными объемами данных.

Что рекомендую изучить по этой теме:
⭐️Apache Iceberg The Definitive Guide | dremio.com
📹 Короткое видео о том, зачем нужен Iceberg и как устроена его архитектура | ENG: YouTube
📹 Доклад с конференции Smart Data: подробное устройство архитектуры, интеграция с Trino | RUS: YouTube
📕 Статья про архитектуру и развертывание Spark+Iceberg в Docker | ENG: Medium

В вашей компании уже используете Iceberg или планируется переход? 👀Делитесь опытом в комментариях!

©️что-то на инженерном

Please open Telegram to view this post

VIEW IN TELEGRAM

48 views14:00