Trino и CedrusData

Всем привет!👋

Делимся записью прошедшего Lakehouse Meetup, где эксперты из Авито и CedrusData обсудили, как Trino и Apache Iceberg масштабируются в российских компаниях.

🔹Рассказываем, как в Авито построили экосистему вокруг Trino, которая обрабатывает до 1 ПБ данных в день и обслуживает 300 пользователей.

🔹Представляем CedrusData Catalog — бесплатное решение для управления метаданными в Apache Iceberg, которое уже сейчас решает ключевые задачи и имеет грандиозные планы на развитие.

📣 Хотите поделиться своим опытом или кейсом? Расскажите о нем, заполнив форму докладчика. Давайте создавать крутые митапы вместе!

Please open Telegram to view this post

VIEW IN TELEGRAM

CedrusData | Российская lakehouse-платформа

Trino в Авито. Возможности CedrusData Catalog | Lakehouse Meetup

Митап о практическом опыте развития Lakehouse как системы, а также о кейсах внедрения Trino и Iceberg в России

❤4👍1

1.49K views09:46

Trino и CedrusData

Новый митап по Lakehouse уже в работе!

Ищем тех, кто готов рассказать про свой опыт использования Trino и Iceberg. Напишите о своем кейсе здесь.

Кстати, поддержать развитие канала и чата могут подписчики с Telegram Premium, отдав свой голос за нас.
Ждем вашей поддержки 🙏

Google Docs

Lakehouse Meetup: заявка на доклад

Рассматриваемые темы докладов:
Опыт использования и внедрения Apache Iceberg и его каталогов
Опыт использования и внедрения Trino и связанных технологий

🥰2

1.76K viewsedited 11:27

Trino и CedrusData

23 сентября в Москве пройдет Data Internals X 2025 — конференция, где создатели СУБД и движков обработки данных делятся опытом работы с реальными production-системами экстремального масштаба.

🤩Приглашаем всех участников к нам на стенд!

✅Обсудим архитектурные решения и поделиться опытом.
✅Ответим на вопросы, которые не гуглятся.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1🔥1

729 views07:00

Trino и CedrusData

Будем рады встретиться на конференции Smart Data уже в это воскресенье!

Владимир Озеров расскажет о перспективах развития Apache Iceberg:

🔹Планы развития (v3, безопасность, материализованные представления, scan planning, статистики и т. п.).
🔹Изменение роли REST-каталогов в экосистеме Iceberg.
🔹Вызовы и конкурентный ландшафт (near-real time сценарии, конкуренция с Paimon/Delta/DuckLake и т. п.).
🔹Состояние сообщества и его влияние на скорость развития и долгосрочные перспективы Apache Iceberg.

А пока делимся записью его прошлого выступления

CedrusData | Российская lakehouse-платформа

Обработка данных в Data Lake с помощью Trino | Запись выступления

Как ключевые оптимизации и локальные кэши обеспечивают высокую производительность Trino при работе с озерами данных. Сравнение эффективности с классическими хранилищами

🔥19

1.12K views08:11

Trino и CedrusData

Октябрь встречаем на конференции по инженерии данных Smart Data!
Приходите к нам на стенд! Расскажем всё самое интересное о Trino и CedrusData, ответим на любые вопросы.

А еще 5 октября Владимир Озеров, генеральный директор CedrusData, расскажет о перспективах развития Apache Iceberg.

✅Где? СПб
✅Когда? 5-6 октября

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5🐳2👾1

1K views13:03

Trino и CedrusData

Вы нас просили — мы сделали: настоящий бенчмарк lakehouse-движков!

Шесть конкурсантов:
клан Presto (CedrusData, Presto, Trino) против клана Impala (Doris, Impala, StarRocks).
DuckDB в качестве арбитра.

🏆Победит сильнейший, остальные отправятся на свалку истории! Правда, будет только один SQL-запрос, один узел и много database internals.

Хабр

Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

Clickbait-картинка В этой статье мы детально рассмотрим поведение аналитических движков при выполнении TPC-DS запроса Q1 на одном узле. Этот ограниченный тест даст нам столько информации к...

🔥31🤡19🤯7❤4⚡1

2.06K views14:36

Trino и CedrusData

Обсудили тренд на Native Execution в Data Engineering инструментах и, в частности, потенциал C++ библиотеки Velox для ускорения Presto, Spark и других аналитических систем. Рассмотрели основные и наиболее зрелые на текущий момент интеграции этой библиотеки с существующими популярными OLAP-/ ML-системами.

CedrusData | Российская lakehouse-платформа

Выбрасываем Java и кратно ускоряем Spark/Trino… Или пока нет? | Запись выступления | CedrusData

Velox — высокопроизводительная C++ библиотека для ускорения Presto, Spark, аналитических СУБД. Обсуждаем архитектуру, преимущества и готовность к использованию

🔥7❤3👏2

928 viewsedited 10:17

Trino и CedrusData

Каждая компания сегодня живёт в зоопарке технологий: данные хранятся в десятках источников (от PostgreSQL до S3), а запросы приходится собирать из кусочков SQL, Python и R. Между ними — стена несовместимых диалектов, потерянных оптимизаций и бесконечных конекторов. Substrait предлагает элегантное решение — единый универсальный язык описания запросов, понятный и аналитическим DSL, и движкам исполнения.
Substrait превращает SQL-строки в переносимые планы, избавляя от боли диалектов и давая возможность свободно комбинировать системы — от DuckDB и Velox до Spark и DataFusion. Это шаг к экосистеме, где любой frontend может говорить с любым backend без потери смысла и производительности.

Хабр

Substrait — lingua franca для баз данных

Substrait — это промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного...

👍3🔥3💩3😁2💯2

981 views09:02

Trino и CedrusData

Всем привет
9 декабря состоится десятый митап сообщества разработчиков СУБД Database Internals

В рамках мероприятия мы представим доклад, посвященный разработке акселератора запросов Trino на основе Rust, Apache Arrow и DataFusion.

Митап пройдет в рамках ежегодной конференции ИСП РАН на площадке кластера «Ломоносов». Также доступен онлайн формат.

Для участия необходимо зарегистрироваться на официальном сайте ИСП РАН до 6 декабря.

🔥9👍3🥰2

1.03K views08:47

Trino и CedrusData

В 16:00 начинаем доклад про переписывание ядра Trino на Rust.

Ссылки на трансляции доступны на странице Database Internals Meetup #10: https://databaseinternals.timepad.ru/event/3698395/

databaseinternals.timepad.ru

Database Internals Meetup #10 (офлайн + онлайн): 5 докладов на конференции ISPRAS Open / События на TimePad.ru

Десятый митап российского сообщества разработчиков СУБД и распределенных систем. Программа в пять докладов про PostgreSQL, Data Fusion, графовые СУБД и применение JIT в компиляции запросов.

🔥12👍2

1.08K views12:33

Trino и CedrusData

План на сегодня: гирлянды, мандарины и… миграция DWH 🍾

Пока мир делится итогами, мы нашли идеальный материал для последнего рабочего дня этого года. Статья Дмитрия Реймана из Авито «Есть ли жизнь после Vertica или миграция DWH в Lakehouse»

Хабр

Есть ли жизнь после Vertica или миграция DWH в Lakehouse

Всем привет! Меня зовут Дмитрий Рейман, я техлид аналитической платформы Авито. Последний раз мы подробно писали о нашей платформе почти четыре года назад – в статье «Эволюция хранилища данных в...

🔥11❤2

1.05K views07:08

Trino и CedrusData

Мы переписали ядро Trino с Java на Rust!

В новой статье рассказываем, почему выбрали Rust и DataFusion в качестве основы решения, с какими сложностями столкнулись и какие очевидные (и неочевидные) преимущества получили в результате.

Хабр

Как мы переписали ядро Trino на Rust

CedrusData Engine — это lakehouse-движок, основанный на Trino . На реальных пользовательских нагрузках наш продукт рутинно превосходит по производительности другие технологии (Trino, Doris, Dremio,...

🔥23❤3👍3😁2

1.14K views10:23

About

Blog

Apps

Platform