Forwarded from 5 minutes of data
TableFlow: Новый подход к обработке потоковых данных с Kafka и Iceberg
В мире потоковой обработки данных появляются всё новые инструменты, которые меняют наше представление о том, как работать с большими объёмами информации.
Один из таких инструментов — TableFlow, концепция, которая объединяет мощь Apache Kafka и Apache Iceberg.
Что такое TableFlow?
TableFlow — это подход, который стирает границы между потоковой обработкой и табличными данными. Он позволяет использовать Kafka как потоковый источник, а Iceberg — как табличное хранилище, обеспечивая гибкость и эффективность в обработке данных.
Почему это важно?
• Гибкость: Вы можете работать с данными как в режиме реального времени, так и в пакетном режиме.
• Масштабируемость: Kafka и Iceberg отлично справляются с большими объёмами данных.
• Упрощение архитектуры: TableFlow уменьшает сложность системы, объединяя потоковую и табличную модели.
Как это работает?
1. Данные поступают в Kafka.
2. С помощью TableFlow они преобразуются и записываются в Iceberg-таблицы.
3. Вы можете анализировать данные как в реальном времени, так и в историческом контексте.
Если вы хотите глубже разобраться в теме, рекомендую прочитать оригинальный пост: TableFlow: The Stream-Table Kafka-Iceberg Duality.
Так же запись
Apache Kafka Meets Apache Iceberg: Real-Time Data Streaming • Kasun Indrasiri • GOTO 2024
@data_whisperer
В мире потоковой обработки данных появляются всё новые инструменты, которые меняют наше представление о том, как работать с большими объёмами информации.
Один из таких инструментов — TableFlow, концепция, которая объединяет мощь Apache Kafka и Apache Iceberg.
Что такое TableFlow?
TableFlow — это подход, который стирает границы между потоковой обработкой и табличными данными. Он позволяет использовать Kafka как потоковый источник, а Iceberg — как табличное хранилище, обеспечивая гибкость и эффективность в обработке данных.
Почему это важно?
• Гибкость: Вы можете работать с данными как в режиме реального времени, так и в пакетном режиме.
• Масштабируемость: Kafka и Iceberg отлично справляются с большими объёмами данных.
• Упрощение архитектуры: TableFlow уменьшает сложность системы, объединяя потоковую и табличную модели.
Как это работает?
1. Данные поступают в Kafka.
2. С помощью TableFlow они преобразуются и записываются в Iceberg-таблицы.
3. Вы можете анализировать данные как в реальном времени, так и в историческом контексте.
Если вы хотите глубже разобраться в теме, рекомендую прочитать оригинальный пост: TableFlow: The Stream-Table Kafka-Iceberg Duality.
Так же запись
Apache Kafka Meets Apache Iceberg: Real-Time Data Streaming • Kasun Indrasiri • GOTO 2024
@data_whisperer
Forwarded from DataJourney
Партиции в Clickhouse, нюансы нейминга
Использование обращений напрямую к партициям позволяет выполнять действия с данными с использованием меньшего количества ресурсов. Пользуюсь этим на проекте с Clickhouse, если нужно удалить большой кусок данных. На неделе столкнулся с ошибкой при работе с партициями по дате и, после поиска причины проблемы, был неприятно удивлен одновременной гибкости и строгости Clickhouse. Вроде бы доке все описано довольно подробно: PARTITION… Но!
Но, от меня укрылась одна особенность, которой хочу поделиться. В общем случае, как оказалось, ключ партиции (системная колонка _partition_id из рассматриваемой таблички) может не совпадать с наименованием партиции (partition из system.parts). При этом, наименование партиции может быть как строкой, так и числом, так и кортежем (tuple).
При этом в различных операциях с партициями поддерживаются различные варианты указания партиции (см. доку выше), но вот в операции ALTER TABLE DELETE IN PARTITION ожидается представление из system.parts. При этом, в зависимости от типа данных там может быть как число, так и строка. Просто рай для автоматизации!
Для себя выбрал решение брать значение из системной колонки _partition_value, приведенное к строке через toString. Пока каких-то проблем не поймали.
P.S. Что была за проблема? Я брал название партиции из системной колонки _partition_id. Во всех интеграциях операция отрабатывала нормально кроме одной. При этом никаких сообщений об ошибках не было. Данные просто не удалялись, так как партиции с именем _partition_id не существовало. Вот так по тихому, без ошибок, плодились задвоения данных.
Использование обращений напрямую к партициям позволяет выполнять действия с данными с использованием меньшего количества ресурсов. Пользуюсь этим на проекте с Clickhouse, если нужно удалить большой кусок данных. На неделе столкнулся с ошибкой при работе с партициями по дате и, после поиска причины проблемы, был неприятно удивлен одновременной гибкости и строгости Clickhouse. Вроде бы доке все описано довольно подробно: PARTITION… Но!
Но, от меня укрылась одна особенность, которой хочу поделиться. В общем случае, как оказалось, ключ партиции (системная колонка _partition_id из рассматриваемой таблички) может не совпадать с наименованием партиции (partition из system.parts). При этом, наименование партиции может быть как строкой, так и числом, так и кортежем (tuple).
При этом в различных операциях с партициями поддерживаются различные варианты указания партиции (см. доку выше), но вот в операции ALTER TABLE DELETE IN PARTITION ожидается представление из system.parts. При этом, в зависимости от типа данных там может быть как число, так и строка. Просто рай для автоматизации!
Для себя выбрал решение брать значение из системной колонки _partition_value, приведенное к строке через toString. Пока каких-то проблем не поймали.
P.S. Что была за проблема? Я брал название партиции из системной колонки _partition_id. Во всех интеграциях операция отрабатывала нормально кроме одной. При этом никаких сообщений об ошибках не было. Данные просто не удалялись, так как партиции с именем _partition_id не существовало. Вот так по тихому, без ошибок, плодились задвоения данных.
Clickhouse
Управление разделами и частями | ClickHouse Docs
Документация по разделам (Partition)
Forwarded from дата инженеретта
Вебинар VK Cloud «Поднимаем Data Lakehouse на основе Trino в облаке»
11 февраля на бесплатном вебинаре от VK Cloud расскажут:
· Что такое Data Lakehouse.
· Как эта архитектура объединяет преимущества Data Lake и Data Warehouse.
· Как упрощается управление и ускоряется анализ данных из различных источников в одном месте.
· Насколько удешевляется хранение данных.
Где: онлайн, необходимо зарегистрироваться
Когда: 11 февраля в 17:00
Также Алексей Белозерский, руководитель группы BigData Sevices в VK Cloud, покажет как новый облачный сервис Cloud Trino от VK Cloud обеспечивает быструю обработку больших объемов данных, позволяя получать ценные инсайты в реальном времени.
Регистрация
11 февраля на бесплатном вебинаре от VK Cloud расскажут:
· Что такое Data Lakehouse.
· Как эта архитектура объединяет преимущества Data Lake и Data Warehouse.
· Как упрощается управление и ускоряется анализ данных из различных источников в одном месте.
· Насколько удешевляется хранение данных.
Где: онлайн, необходимо зарегистрироваться
Когда: 11 февраля в 17:00
Также Алексей Белозерский, руководитель группы BigData Sevices в VK Cloud, покажет как новый облачный сервис Cloud Trino от VK Cloud обеспечивает быструю обработку больших объемов данных, позволяя получать ценные инсайты в реальном времени.
Регистрация
Forwarded from дата инженеретта
Посмотрела вчерашний митап, вот еще картиночки архитектур
По сути это классическое двх, data lake и data lakehouse
Но вам не кажется, что кх поверх гринплам - немножко многовато, тем более в lakehouse?
#system_design
По сути это классическое двх, data lake и data lakehouse
Но вам не кажется, что кх поверх гринплам - немножко многовато, тем более в lakehouse?
#system_design
Forwarded from Данные на стероидах
Про DLH и Trino. Статьи и вебинар 11.02
Привет!
Собрали пятничный #дайджест про Data Lakehouse и Trino. Читайте статьи и приходите на наш вебинар.
🔹 Нужна ли нам Lakehouse архитектура?
🔹 Быстрая обработка данных в data lake с помощью SQL
🔹 Платформа данных в хранилище Магнит OMNI
🔹 Как устроен massively parallel processing (MPP) в Trino
🔹 Почему Trino такой быстрый: динамические фильтры
🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов
Вебинар «Поднимаем Data Lakehouse на основе Trino в облаке»
11 февраля в 17:00 мы разберем, что такое Data Lakehouse. Узнаем, как эта архитектура объединяет преимущества DLH и DWH, чтобы упростить управление, удешевить хранение и ускорить анализ данных из различных источников в одном месте.
На примере в лайв-режиме покажем различия в стоимости и скорости работы DLH и DWH.
Ведущий — Алексей Белозерский, руководитель группы BigData Services VK Cloud.
Подробности и регистрация
Хорошего чтения и приятных выходных!
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез #Data #AI
Привет!
Собрали пятничный #дайджест про Data Lakehouse и Trino. Читайте статьи и приходите на наш вебинар.
🔹 Нужна ли нам Lakehouse архитектура?
🔹 Быстрая обработка данных в data lake с помощью SQL
🔹 Платформа данных в хранилище Магнит OMNI
🔹 Как устроен massively parallel processing (MPP) в Trino
🔹 Почему Trino такой быстрый: динамические фильтры
🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов
Вебинар «Поднимаем Data Lakehouse на основе Trino в облаке»
11 февраля в 17:00 мы разберем, что такое Data Lakehouse. Узнаем, как эта архитектура объединяет преимущества DLH и DWH, чтобы упростить управление, удешевить хранение и ускорить анализ данных из различных источников в одном месте.
На примере в лайв-режиме покажем различия в стоимости и скорости работы DLH и DWH.
Ведущий — Алексей Белозерский, руководитель группы BigData Services VK Cloud.
Подробности и регистрация
Хорошего чтения и приятных выходных!
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез #Data #AI
Forwarded from Архитектор Данных
Спасибо всем кто смотрел вебинар!
Запись тут: https://vkvideo.ru/video-164978780_456239621
Спасибо всем, кто задавал вопросы! Продолжить дискуссию можно в комментариях.
Запись тут: https://vkvideo.ru/video-164978780_456239621
Спасибо всем, кто задавал вопросы! Продолжить дискуссию можно в комментариях.
VK Видео
Поднимаем Data Lakehouse на основе Trino в облаке
11 февраля в 17:00 на вебинаре мы разберём, что такое Data Lakehouse и как эта архитектура объединит преимущества Data Lake и Data Warehouse, упрощая управление, хранения и анализ данных из различных источников в одном месте. Покажем, как новый облачный сервис…
Forwarded from Архитектор Данных
DataLakehouse 11.02.pdf
1.8 MB
Всем привет!
Презентация со вчерашнего вебинара.
Презентация со вчерашнего вебинара.
Forwarded from Архитектор Данных
Всем ли нужно заниматься данными?
Нередко заказчики спрашивают что-то подобное. Что, прямо в каждой компании должен быть стек обработки [больших] данных?
Сложилась аналогия.
Всем ли нужно заниматься спортом?
Нет, не всем. Можно прожить вообще без этого и быть довольным.
Ведет ли занятие спортом к улучшению жизни?
Разумеется, ведет!
Требует ли занятие спортом дополнительных вложений денег/времени/сил?
Конечно, требует.
Вот вам и уравнение. И с данными точно так же.
Нередко заказчики спрашивают что-то подобное. Что, прямо в каждой компании должен быть стек обработки [больших] данных?
Сложилась аналогия.
Всем ли нужно заниматься спортом?
Нет, не всем. Можно прожить вообще без этого и быть довольным.
Ведет ли занятие спортом к улучшению жизни?
Разумеется, ведет!
Требует ли занятие спортом дополнительных вложений денег/времени/сил?
Конечно, требует.
Вот вам и уравнение. И с данными точно так же.
Forwarded from Данные на стероидах
Про Trino — статьи и видео
Привет!
На вебинаре во вторник мы рассказали про Trino.
Смотрите вебинар
Самое время вспомнить наш летний дайджест, посвященный этой теме.
Статьи на русском
🔹 Почему Trino такой быстрый: динамические фильтры
🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов
🔹 Как устроен massively parallel processing (MPP) в Trino
🔹 Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора
Статьи на английском
🔹 Trino versus Apache Spark
🔹 Deploy MinIO and Trino with Kubernetes
🔹 The Best Data Transformation Tools for Trino
🔹 Use Trino with Dataproc
🔹 Enabling Highly Available Trino Clusters at Goldman Sachs
🔹 Trino Architecture
Видео
🔹 Как пересесть на Trino после Vertica: реальный кейс Авито
🔹 Роль Trino в Тинькофф: использование встроенных возможностей, собственные доработки и future work
🔹 Как устроено выполнение SQL-запросов в Presto/Trino
🔹 Trino Fest 2024 — 13 докладов
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез #trino
Привет!
На вебинаре во вторник мы рассказали про Trino.
Смотрите вебинар
Самое время вспомнить наш летний дайджест, посвященный этой теме.
Статьи на русском
🔹 Почему Trino такой быстрый: динамические фильтры
🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов
🔹 Как устроен massively parallel processing (MPP) в Trino
🔹 Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора
Статьи на английском
🔹 Trino versus Apache Spark
🔹 Deploy MinIO and Trino with Kubernetes
🔹 The Best Data Transformation Tools for Trino
🔹 Use Trino with Dataproc
🔹 Enabling Highly Available Trino Clusters at Goldman Sachs
🔹 Trino Architecture
Видео
🔹 Как пересесть на Trino после Vertica: реальный кейс Авито
🔹 Роль Trino в Тинькофф: использование встроенных возможностей, собственные доработки и future work
🔹 Как устроено выполнение SQL-запросов в Presto/Trino
🔹 Trino Fest 2024 — 13 докладов
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез #trino
Forwarded from Данные на стероидах
Запустили первый в России облачный Data Lakehouse
VK Cloud стала первой в России облачной платформой с возможностью построить корпоративный Data Lakehouse.
Data Lakehouse работает на управляемых облачных сервисах VK Cloud:
🔹 Cloud Storage — S3-совместимое объектное хранилище собственной разработки,
🔹Cloud Trino — высокопроизводительный SQL-движок на базе Kubernetes.
Cloud Trino позволяет сократить время на ETL-процессы, ускорить обработку сырых данных, легко построить Self-Service-аналитику и получить ценные инсайты в реальном времени.
Преимущества для пользователей VK Cloud:
🔹 современный стек для работы с крупными проектами,
🔹 оплата только за фактически потребленные ресурсы,
🔹 нет необходимости покупать лицензии.
Узнать подробнее
VK Cloud стала первой в России облачной платформой с возможностью построить корпоративный Data Lakehouse.
Data Lakehouse работает на управляемых облачных сервисах VK Cloud:
🔹 Cloud Storage — S3-совместимое объектное хранилище собственной разработки,
🔹Cloud Trino — высокопроизводительный SQL-движок на базе Kubernetes.
Cloud Trino позволяет сократить время на ETL-процессы, ускорить обработку сырых данных, легко построить Self-Service-аналитику и получить ценные инсайты в реальном времени.
Преимущества для пользователей VK Cloud:
🔹 современный стек для работы с крупными проектами,
🔹 оплата только за фактически потребленные ресурсы,
🔹 нет необходимости покупать лицензии.
Узнать подробнее
Forwarded from Данные на стероидах
Три статьи и один вебинар про хранение данных
Привет!
По традиции собрали несколько полезных тематических материалов, которые вышли на Хабре на этой неделе.
🔹 Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse
🔹 Как устроен T-RAID — RAID-массив в СХД TATLIN
🔹 Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов
В продолжение темы хранения данных делимся записью вебинара «Используем S3 на максимум. Как построить эффективное и устойчивое объектное хранилище».
🔹 Смотрите запись в нашем паблике.
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез
Привет!
По традиции собрали несколько полезных тематических материалов, которые вышли на Хабре на этой неделе.
🔹 Как не утонуть в данных: выбираем между DWH, Data Lake и Lakehouse
🔹 Как устроен T-RAID — RAID-массив в СХД TATLIN
🔹 Трансформация платформы данных: от пары кубов до хранилища > 30 Тб и 1000 ETL-процессов
В продолжение темы хранения данных делимся записью вебинара «Используем S3 на максимум. Как построить эффективное и устойчивое объектное хранилище».
🔹 Смотрите запись в нашем паблике.
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез
Forwarded from Данные на стероидах
Про Trino — статьи и видео
Привет!
На вебинаре во вторник мы рассказали про Trino.
Смотрите вебинар
Самое время вспомнить наш летний дайджест, посвященный этой теме.
Статьи на русском
🔹 Почему Trino такой быстрый: динамические фильтры
🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов
🔹 Как устроен massively parallel processing (MPP) в Trino
🔹 Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора
Статьи на английском
🔹 Trino versus Apache Spark
🔹 Deploy MinIO and Trino with Kubernetes
🔹 The Best Data Transformation Tools for Trino
🔹 Use Trino with Dataproc
🔹 Enabling Highly Available Trino Clusters at Goldman Sachs
🔹 Trino Architecture
Видео
🔹 Как пересесть на Trino после Vertica: реальный кейс Авито
🔹 Роль Trino в Тинькофф: использование встроенных возможностей, собственные доработки и future work
🔹 Как устроено выполнение SQL-запросов в Presto/Trino
🔹 Trino Fest 2024 — 13 докладов
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез #trino
Привет!
На вебинаре во вторник мы рассказали про Trino.
Смотрите вебинар
Самое время вспомнить наш летний дайджест, посвященный этой теме.
Статьи на русском
🔹 Почему Trino такой быстрый: динамические фильтры
🔹 Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов
🔹 Как устроен massively parallel processing (MPP) в Trino
🔹 Обращаемся к Apache Hive через Trino: архитектура движка и принцип действия коннектора
Статьи на английском
🔹 Trino versus Apache Spark
🔹 Deploy MinIO and Trino with Kubernetes
🔹 The Best Data Transformation Tools for Trino
🔹 Use Trino with Dataproc
🔹 Enabling Highly Available Trino Clusters at Goldman Sachs
🔹 Trino Architecture
Видео
🔹 Как пересесть на Trino после Vertica: реальный кейс Авито
🔹 Роль Trino в Тинькофф: использование встроенных возможностей, собственные доработки и future work
🔹 Как устроено выполнение SQL-запросов в Presto/Trino
🔹 Trino Fest 2024 — 13 докладов
👉🏻 Подписаться на телеграм-канал «Данные на стероидах»
#дайджест #ликбез #trino
Forwarded from 🔋 Труба данных (Simon Osipov)
https://github.com/databrickslabs/dqx
Databricks выложили в опенсорс DQX - фреймворк для DQ поверх pyspark датафреймов.
Больше фреймворков богу фреймворков.
Даже мотивация для этого фреймворка какая-то хлюпкая
Current data quality frameworks often fall short in providing detailed explanations for specific row or column data quality issues and are primarily designed for complete datasets, making integration into streaming workloads difficult.
@ohmydataengineer - канал "🕯 Труба Данных" не верит в очередной фреймворк
Databricks выложили в опенсорс DQX - фреймворк для DQ поверх pyspark датафреймов.
Больше фреймворков богу фреймворков.
Даже мотивация для этого фреймворка какая-то хлюпкая
Current data quality frameworks often fall short in providing detailed explanations for specific row or column data quality issues and are primarily designed for complete datasets, making integration into streaming workloads difficult.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - databrickslabs/dqx: Databricks framework to validate Data Quality of pySpark DataFrames and Tables
Databricks framework to validate Data Quality of pySpark DataFrames and Tables - databrickslabs/dqx
Forwarded from 🔋 Труба данных (Simon Osipov)
https://clickhouse.com/blog/json-bench-clickhouse-vs-mongodb-elasticsearch-duckdb-postgresql
Вы будете кидать💩 , но я опять про Clickhouse
Огромная статья с технической мяготкой про 1 Billion JSON Challenge и насколько новый нативный тип JSON в клике работает быстрей и эффективней по памяти и стораджу по сравнению с другими базами данных.
@ohmydataengineer - канал "🕯 Труба Данных" в очередной раз про одно и то же!
Вы будете кидать
Огромная статья с технической мяготкой про 1 Billion JSON Challenge и насколько новый нативный тип JSON в клике работает быстрей и эффективней по памяти и стораджу по сравнению с другими базами данных.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
ClickHouse
The billion docs JSON Challenge: ClickHouse vs. MongoDB, Elasticsearch, and more
Explore how ClickHouse’s new JSON data type outperforms leading JSON databases with unmatched storage efficiency and lightning-fast query speed—all while storing JSON data in a single field and staying true to the promise of JSON databases
Forwarded from 🔋 Труба данных (Simon Osipov)
https://www.gable.ai/data-contracts-book
ГигаЧад и O'Reilly выкатывают в открытый доступ (правда надо оставить емейл) первую версию книжки про дата контракты.
Как по мне, хайп на эту штуку прошел и чет даже не сильно зудит это применять. Но, возможно, вы что-то подчерпнете для себя!
@ohmydataengineer - канал "🕯 Труба Данных" в сомнения про дата контракты
ГигаЧад и O'Reilly выкатывают в открытый доступ (правда надо оставить емейл) первую версию книжки про дата контракты.
Как по мне, хайп на эту штуку прошел и чет даже не сильно зудит это применять. Но, возможно, вы что-то подчерпнете для себя!
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
www.gable.ai
Gable | Data Contracts: Developing Production Grade Pipelines at Scale
Download the Data Contracts: Developing Production Grade Pipelines at Scale Book
Forwarded from 🔋 Труба данных (Simon Osipov)
https://vutr.substack.com/p/8-minutes-to-understand-presto
Большая пояснительная статья про работу Presto (ну и в целом Trino работает похожим образом). Все еще сильно советую подписаться на этого парня, он хорошие статьи пишет
@ohmydataengineer - канал "🕯 Труба Данных", который ничего умного в этот раз не придумал.
Большая пояснительная статья про работу Presto (ну и в целом Trino работает похожим образом). Все еще сильно советую подписаться на этого парня, он хорошие статьи пишет
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
Substack
8 minutes to understand Presto
Uber, Netflix, Airbnb, and LinkedIn uses this query engine.
Forwarded from 🔋 Труба данных (Simon Osipov)
https://www.pracdata.io/p/open-source-data-engineering-landscape-2025
Все вы помните огромные картинки, на которых 17 миллионов логотипов сервисов для данных. Вот эта статья - одна из таких, но тут главная особенность - здесь ТОЛЬКО open source решения, и причем в адекватном количестве. С понятными пояснениями, почему тот или иной инструмент попал в список.
Как всегда, читать эту картинку нужно следующим образом "А что еще есть на рынке в этой сфере кроме X?"
@ohmydataengineer - канал "🕯 Труба Данных" и ставшие уже классическими landscapes картинки!
Все вы помните огромные картинки, на которых 17 миллионов логотипов сервисов для данных. Вот эта статья - одна из таких, но тут главная особенность - здесь ТОЛЬКО open source решения, и причем в адекватном количестве. С понятными пояснениями, почему тот или иной инструмент попал в список.
Как всегда, читать эту картинку нужно следующим образом "А что еще есть на рынке в этой сфере кроме X?"
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
www.pracdata.io
Open Source Data Engineering Landscape 2025
A comprehensive view of active open source tools and emerging trends in data engineering ecosystem in 2024-2025