Data Engineering / reposts & drafts

Дайджест Apache Iceberg

Привет!

Сегодня расскажем про Apache Iceberg — высокопроизводительный открытый формат огромных аналитических таблиц. Iceberg привносит надежность и простоту таблиц SQL в работу с большими данными. В этом формате инструменты Spark, Trino, Flink, Presto, Hive и Impala могут работать с одними и теми же таблицами в одно и то же время.

🔹 Блеск и нищета каталогов метаданных для Data Lake: преимущества Apache Iceberg над Hive
Big Data School подобно объясняет, для чего озерам данных нужны каталоги метаданных и чем Apache Iceberg лучше Apache Hive.

🔹 Hudi, Iceberg и Delta Lake: сравнение табличных форматов для озера данных
VK перевели статью про характеристики трех табличных форматов для озера данных: их платформенную совместимость, гарантированное выполнение параллельных процессов, производительность и скорость обновлений.

🔹 Шестая платформа данных: новое слово в хранении и обработке данных
Еще один перевод от нашей команды — подкаст Breaking Analysis с Райаном Блю, одним из создателей и председателем комитета по управлению проектами Apache Iceberg. В лонгриде обсуждают плюсы и минусы разных платформ данных, рассуждают, нужна ли шестая платформа данных и каковы проблемы хранения данных на современном этапе развития ИТ.

🔹 Зачем Apache Iceberg, если уже есть много других форматов
Видео-доклад Бронислава Житникова, на котором он рассматривает эволюцию подходов к хранению данных и особенности Apache Iceberg. Кроме того, в видео вы найдете рекомендации о том, что нужно учитывать при переходе на этот формат хранения.

🔹 Apache Iceberg Schema Evolution Automation with PySpark
Пошаговое руководство с программным кодом, в котором объясняется, как автоматизировать эволюцию схемы для Apache Iceberg с помощью PySpark, чтобы сократить количество ошибок и сэкономить силы и время за счет автоматизации.

👉🏻 Подписаться на телеграм-канал «Данные на стероидах»

#дайджест #ликбез #ApacheIceberg

14 views16:23