Всем привет!👋
Делимся записью прошедшего Lakehouse Meetup, где эксперты из Авито и CedrusData обсудили, как Trino и Apache Iceberg масштабируются в российских компаниях.
🔹Рассказываем, как в Авито построили экосистему вокруг Trino, которая обрабатывает до 1 ПБ данных в день и обслуживает 300 пользователей.
🔹Представляем CedrusData Catalog — бесплатное решение для управления метаданными в Apache Iceberg, которое уже сейчас решает ключевые задачи и имеет грандиозные планы на развитие.
📣 Хотите поделиться своим опытом или кейсом? Расскажите о нем, заполнив форму докладчика. Давайте создавать крутые митапы вместе!
Делимся записью прошедшего Lakehouse Meetup, где эксперты из Авито и CedrusData обсудили, как Trino и Apache Iceberg масштабируются в российских компаниях.
🔹Рассказываем, как в Авито построили экосистему вокруг Trino, которая обрабатывает до 1 ПБ данных в день и обслуживает 300 пользователей.
🔹Представляем CedrusData Catalog — бесплатное решение для управления метаданными в Apache Iceberg, которое уже сейчас решает ключевые задачи и имеет грандиозные планы на развитие.
Please open Telegram to view this post
VIEW IN TELEGRAM
CedrusData | Российская lakehouse-платформа
Trino в Авито. Возможности CedrusData Catalog | Lakehouse Meetup
Митап о практическом опыте развития Lakehouse как системы, а также о кейсах внедрения Trino и Iceberg в России
❤4👍1
Новый митап по Lakehouse уже в работе!
Ищем тех, кто готов рассказать про свой опыт использования Trino и Iceberg. Напишите о своем кейсе здесь.
Кстати, поддержать развитие канала и чата могут подписчики с Telegram Premium, отдав свой голос за нас.
Ждем вашей поддержки 🙏
Ищем тех, кто готов рассказать про свой опыт использования Trino и Iceberg. Напишите о своем кейсе здесь.
Кстати, поддержать развитие канала и чата могут подписчики с Telegram Premium, отдав свой голос за нас.
Ждем вашей поддержки 🙏
Google Docs
Lakehouse Meetup: заявка на доклад
Рассматриваемые темы докладов:
Опыт использования и внедрения Apache Iceberg и его каталогов
Опыт использования и внедрения Trino и связанных технологий
Опыт использования и внедрения Apache Iceberg и его каталогов
Опыт использования и внедрения Trino и связанных технологий
🥰2
23 сентября в Москве пройдет Data Internals X 2025 — конференция, где создатели СУБД и движков обработки данных делятся опытом работы с реальными production-системами экстремального масштаба.
🤩 Приглашаем всех участников к нам на стенд!
✅ Обсудим архитектурные решения и поделиться опытом.
✅ Ответим на вопросы, которые не гуглятся.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1🔥1
Будем рады встретиться на конференции Smart Data уже в это воскресенье!
Владимир Озеров расскажет о перспективах развития Apache Iceberg:
🔹Планы развития (v3, безопасность, материализованные представления, scan planning, статистики и т. п.).
🔹Изменение роли REST-каталогов в экосистеме Iceberg.
🔹Вызовы и конкурентный ландшафт (near-real time сценарии, конкуренция с Paimon/Delta/DuckLake и т. п.).
🔹Состояние сообщества и его влияние на скорость развития и долгосрочные перспективы Apache Iceberg.
А пока делимся записью его прошлого выступления
Владимир Озеров расскажет о перспективах развития Apache Iceberg:
🔹Планы развития (v3, безопасность, материализованные представления, scan planning, статистики и т. п.).
🔹Изменение роли REST-каталогов в экосистеме Iceberg.
🔹Вызовы и конкурентный ландшафт (near-real time сценарии, конкуренция с Paimon/Delta/DuckLake и т. п.).
🔹Состояние сообщества и его влияние на скорость развития и долгосрочные перспективы Apache Iceberg.
А пока делимся записью его прошлого выступления
CedrusData | Российская lakehouse-платформа
Обработка данных в Data Lake с помощью Trino | Запись выступления
Как ключевые оптимизации и локальные кэши обеспечивают высокую производительность Trino при работе с озерами данных. Сравнение эффективности с классическими хранилищами
🔥19
Октябрь встречаем на конференции по инженерии данных Smart Data!
Приходите к нам на стенд! Расскажем всё самое интересное о Trino и CedrusData, ответим на любые вопросы.
А еще 5 октября Владимир Озеров, генеральный директор CedrusData, расскажет о перспективах развития Apache Iceberg.
✅ Где? СПб
✅ Когда? 5-6 октября
Приходите к нам на стенд! Расскажем всё самое интересное о Trino и CedrusData, ответим на любые вопросы.
А еще 5 октября Владимир Озеров, генеральный директор CedrusData, расскажет о перспективах развития Apache Iceberg.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5🐳2👾1
Вы нас просили — мы сделали: настоящий бенчмарк lakehouse-движков!
Шесть конкурсантов:
клан Presto (CedrusData, Presto, Trino) против клана Impala (Doris, Impala, StarRocks).
DuckDB в качестве арбитра.
🏆Победит сильнейший, остальные отправятся на свалку истории! Правда, будет только один SQL-запрос, один узел и много database internals.
Шесть конкурсантов:
клан Presto (CedrusData, Presto, Trino) против клана Impala (Doris, Impala, StarRocks).
DuckDB в качестве арбитра.
🏆Победит сильнейший, остальные отправятся на свалку истории! Правда, будет только один SQL-запрос, один узел и много database internals.
Хабр
Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех
Clickbait-картинка В этой статье мы детально рассмотрим поведение аналитических движков при выполнении TPC-DS запроса Q1 на одном узле. Этот ограниченный тест даст нам столько информации к...
🔥31🤡19🤯7❤4⚡1
Обсудили тренд на Native Execution в Data Engineering инструментах и, в частности, потенциал C++ библиотеки Velox для ускорения Presto, Spark и других аналитических систем. Рассмотрели основные и наиболее зрелые на текущий момент интеграции этой библиотеки с существующими популярными OLAP-/ ML-системами.
CedrusData | Российская lakehouse-платформа
Выбрасываем Java и кратно ускоряем Spark/Trino… Или пока нет? | Запись выступления | CedrusData
Velox — высокопроизводительная C++ библиотека для ускорения Presto, Spark, аналитических СУБД. Обсуждаем архитектуру, преимущества и готовность к использованию
🔥7❤3👏2
Каждая компания сегодня живёт в зоопарке технологий: данные хранятся в десятках источников (от PostgreSQL до S3), а запросы приходится собирать из кусочков SQL, Python и R. Между ними — стена несовместимых диалектов, потерянных оптимизаций и бесконечных конекторов. Substrait предлагает элегантное решение — единый универсальный язык описания запросов, понятный и аналитическим DSL, и движкам исполнения.
Substrait превращает SQL-строки в переносимые планы, избавляя от боли диалектов и давая возможность свободно комбинировать системы — от DuckDB и Velox до Spark и DataFusion. Это шаг к экосистеме, где любой frontend может говорить с любым backend без потери смысла и производительности.
Substrait превращает SQL-строки в переносимые планы, избавляя от боли диалектов и давая возможность свободно комбинировать системы — от DuckDB и Velox до Spark и DataFusion. Это шаг к экосистеме, где любой frontend может говорить с любым backend без потери смысла и производительности.
Хабр
Substrait — lingua franca для баз данных
Substrait — это промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного...
👍3🔥3💩3😁2💯2
Всем привет
9 декабря состоится десятый митап сообщества разработчиков СУБД Database Internals
В рамках мероприятия мы представим доклад, посвященный разработке акселератора запросов Trino на основе Rust, Apache Arrow и DataFusion.
Митап пройдет в рамках ежегодной конференции ИСП РАН на площадке кластера «Ломоносов». Также доступен онлайн формат.
Для участия необходимо зарегистрироваться на официальном сайте ИСП РАН до 6 декабря.
9 декабря состоится десятый митап сообщества разработчиков СУБД Database Internals
В рамках мероприятия мы представим доклад, посвященный разработке акселератора запросов Trino на основе Rust, Apache Arrow и DataFusion.
Митап пройдет в рамках ежегодной конференции ИСП РАН на площадке кластера «Ломоносов». Также доступен онлайн формат.
Для участия необходимо зарегистрироваться на официальном сайте ИСП РАН до 6 декабря.
🔥9👍3🥰2
В 16:00 начинаем доклад про переписывание ядра Trino на Rust.
Ссылки на трансляции доступны на странице Database Internals Meetup #10: https://databaseinternals.timepad.ru/event/3698395/
Ссылки на трансляции доступны на странице Database Internals Meetup #10: https://databaseinternals.timepad.ru/event/3698395/
databaseinternals.timepad.ru
Database Internals Meetup #10 (офлайн + онлайн): 5 докладов на конференции ISPRAS Open / События на TimePad.ru
Десятый митап российского сообщества разработчиков СУБД и распределенных систем. Программа в пять докладов про PostgreSQL, Data Fusion, графовые СУБД и применение JIT в компиляции запросов.
🔥12👍2
План на сегодня: гирлянды, мандарины и… миграция DWH 🍾
Пока мир делится итогами, мы нашли идеальный материал для последнего рабочего дня этого года. Статья Дмитрия Реймана из Авито «Есть ли жизнь после Vertica или миграция DWH в Lakehouse»
Пока мир делится итогами, мы нашли идеальный материал для последнего рабочего дня этого года. Статья Дмитрия Реймана из Авито «Есть ли жизнь после Vertica или миграция DWH в Lakehouse»
Хабр
Есть ли жизнь после Vertica или миграция DWH в Lakehouse
Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Авито. Последний раз мы подробно писали о нашей платформе почти четыре года назад – в статье «Эволюция хранилища данных в...
🔥11❤2
Мы переписали ядро Trino с Java на Rust!
В новой статье рассказываем, почему выбрали Rust и DataFusion в качестве основы решения, с какими сложностями столкнулись и какие очевидные (и неочевидные) преимущества получили в результате.
В новой статье рассказываем, почему выбрали Rust и DataFusion в качестве основы решения, с какими сложностями столкнулись и какие очевидные (и неочевидные) преимущества получили в результате.
Хабр
Как мы переписали ядро Trino на Rust
CedrusData Engine — это lakehouse-движок, основанный на Trino . На реальных пользовательских нагрузках наш продукт рутинно превосходит по производительности другие технологии (Trino, Doris, Dremio,...
🔥23❤3👍3😁2