Trino и CedrusData
415 subscribers
3 photos
2 files
55 links
Канал о российской lakehouse-платформе CedrusData и сверхбыстром SQL-движке Trino. Здесь команда разработчиков CedrusData делится опытом и новостями из мира современных data lakehouse-решений и распределённых вычислений.

Чат: @cedrusdatachat
Download Telegram
Всем привет!👋

Делимся записью прошедшего Lakehouse Meetup, где эксперты из Авито и CedrusData обсудили, как Trino и Apache Iceberg масштабируются в российских компаниях.

🔹Рассказываем, как в Авито построили экосистему вокруг Trino, которая обрабатывает до 1 ПБ данных в день и обслуживает 300 пользователей.

🔹Представляем CedrusData Catalog — бесплатное решение для управления метаданными в Apache Iceberg, которое уже сейчас решает ключевые задачи и имеет грандиозные планы на развитие.

📣 Хотите поделиться своим опытом или кейсом? Расскажите о нем, заполнив форму докладчика. Давайте создавать крутые митапы вместе!
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1
Новый митап по Lakehouse уже в работе!

Ищем тех, кто готов рассказать про свой опыт использования Trino и Iceberg. Напишите о своем кейсе здесь.

Кстати, поддержать развитие канала и чата могут подписчики с Telegram Premium, отдав свой голос за нас.
Ждем вашей поддержки 🙏
🥰2
23 сентября в Москве пройдет Data Internals X 2025 — конференция, где создатели СУБД и движков обработки данных делятся опытом работы с реальными production-системами экстремального масштаба.

🤩Приглашаем всех участников к нам на стенд!

Обсудим архитектурные решения и поделиться опытом.
Ответим на вопросы, которые не гуглятся.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥1
Будем рады встретиться на конференции Smart Data уже в это воскресенье!

Владимир Озеров расскажет о перспективах развития Apache Iceberg:

🔹Планы развития (v3, безопасность, материализованные представления, scan planning, статистики и т. п.).
🔹Изменение роли REST-каталогов в экосистеме Iceberg.
🔹Вызовы и конкурентный ландшафт (near-real time сценарии, конкуренция с Paimon/Delta/DuckLake и т. п.).
🔹Состояние сообщества и его влияние на скорость развития и долгосрочные перспективы Apache Iceberg.

А пока делимся записью его прошлого выступления
🔥19
Октябрь встречаем на конференции по инженерии данных Smart Data!
Приходите к нам на стенд! Расскажем всё самое интересное о Trino и CedrusData, ответим на любые вопросы.

А еще 5 октября Владимир Озеров, генеральный директор CedrusData, расскажет о перспективах развития Apache Iceberg.

Где? СПб
Когда? 5-6 октября
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5🐳2👾1
Вы нас просили — мы сделали: настоящий бенчмарк lakehouse-движков!

Шесть конкурсантов:
клан Presto (CedrusData, Presto, Trino) против клана Impala (Doris, Impala, StarRocks).
DuckDB в качестве арбитра.

🏆Победит сильнейший, остальные отправятся на свалку истории! Правда, будет только один SQL-запрос, один узел и много database internals.
🔥31🤡19🤯741
Обсудили тренд на Native Execution в Data Engineering инструментах и, в частности, потенциал C++ библиотеки Velox для ускорения Presto, Spark и других аналитических систем. Рассмотрели основные и наиболее зрелые на текущий момент интеграции этой библиотеки с существующими популярными OLAP-/ ML-системами.
🔥73👏2
Каждая компания сегодня живёт в зоопарке технологий: данные хранятся в десятках источников (от PostgreSQL до S3), а запросы приходится собирать из кусочков SQL, Python и R. Между ними — стена несовместимых диалектов, потерянных оптимизаций и бесконечных конекторов. Substrait предлагает элегантное решение — единый универсальный язык описания запросов, понятный и аналитическим DSL, и движкам исполнения.
Substrait превращает SQL-строки в переносимые планы, избавляя от боли диалектов и давая возможность свободно комбинировать системы — от DuckDB и Velox до Spark и DataFusion. Это шаг к экосистеме, где любой frontend может говорить с любым backend без потери смысла и производительности.
👍3🔥3💩3😁2💯2
Всем привет
9 декабря состоится десятый митап сообщества разработчиков СУБД Database Internals

В рамках мероприятия мы представим доклад, посвященный разработке акселератора запросов Trino на основе Rust, Apache Arrow и DataFusion.

Митап пройдет в рамках ежегодной конференции ИСП РАН на площадке кластера «Ломоносов». Также доступен онлайн формат.

Для участия необходимо зарегистрироваться на официальном сайте ИСП РАН до 6 декабря.
🔥9👍3🥰2
Мы переписали ядро Trino с Java на Rust!

В новой статье рассказываем, почему выбрали Rust и DataFusion в качестве основы решения, с какими сложностями столкнулись и какие очевидные (и неочевидные) преимущества получили в результате.
🔥233👍3😁2