Trino и CedrusData

Trino и CedrusData pinned «Всем привет! В следующую пятницу, 24 ноября, в 18:00 пройдет (кажется) первый в российском сегменте онлайн-вебинар по Trino! Поговорим про реальную практику использования Trino в Avito и особенности работы оптимизатора запросов. Зарегистрироваться можно по…»

10:49

Trino и CedrusData

Всем привет. Мы выложили видео с прошедшего митапа по Trino: https://www.youtube.com/@cedrusdata/videos
У нас остался ряд вопросов слушателей, на которые мы не успели ответить на митапе. В ближайшие дни мы предоставим ответы.

👍7

632 views12:44

Trino и CedrusData

Всем привет.

Мы рады представить релиз CedrusData 431-3!
1. Добавили новый Vertica коннектор с поддержкой SELECT, DML и DDL выражений.
2. Значительно ускорили работу локального дискового кэша для коннектора Hive. Аналогичные улучшения появятся в коннекторе Iceberg в следующих версиях.
3. Начали системную работу над дополнительными возможностями мониторинга системы. В данной версии появилась возможность просмотра агрегированных статистик доступа к таблицам в источниках: сколько байт и строк было прочитано.
4. Коннектор Teradata: добавили поддержку новых типов данных и расширили возможности pushdown.
Полную информацию и соответствующую документацию можно найти в release notes: https://docs.cedrusdata.ru/latest/release/release-431-3.html

Ожидаем в ближайших версиях:
1. Поддержка Arrow Flight SQL, которая в том числе позволит работать с CedrusData через сторонние ODBC драйвера
2. Финализация поддержки data cache для формата ORC (формально он уже есть в экспериментальном режиме, но надо поработать над производительностью)
3. Production-ready поддержка динамических каталогов
4. Автоматическая дедупликация повторяющихся фрагментов

🔥10👍8

707 views13:41

Trino и CedrusData

Всем привет! 27 февраля в 18:00 мы проведем очередной онлайн-митап по Trino! Обсудим использование Trino в Тинькофф и вопросы локального кэширования данных на worker-узлах. Регистрация по ссылке: https://cedrusdata.timepad.ru/event/2754553/?utm_refcode=451a37ec7d9c7e17392334bbf146373c0b3f036f

cedrusdata.timepad.ru

Trino Meetup #2: Trino в Тинькофф, и как ускорить чтение из Data Lake с помощью кэширования / События на TimePad.ru

Обсудим, как Тинькофф использует Trino в своей аналитической платформе, и рассмотрим различные способы ускорения работы с озерами данных с помощью кэширования на примере решений Alluxio, Starburst Warp Speed (ex-Varada) и CedrusData.

Митап организован компанией…

❤10👍2

2.84K views10:36

Trino и CedrusData

Всем привет. Мы рады представить релиз CedrusData 431-4!

1. Добавили экспериментальную поддержку протокола Arrow Flight SQL. Теперь вы можете подключаться к CedrusData из любых клиентских приложений, которые реализуют данный протокол, включая сторонние ODBC и JDBC драйвера. Функционал будет окончательно стабилизирован в ближайших версиях. Документация: https://docs.cedrusdata.ru/latest/client/arrow-flight-sql.html
2. Ускорили работу локального дискового кэша в коннекторе Hive для файлов Parquet. Ранее продукт не умел кэшировать ряд структур Parquet (zone maps, bloom filters, dictionary pages), что приводило к лишним запросам в data lake даже при включенном кэше. Начиная с версии 431-4, семантическое кэширование распространяется на все составные части Parquet.

Release notes: https://docs.cedrusdata.ru/latest/release/release-431-4.html

🔥11👍1👏1

615 viewsedited 08:30

Trino и CedrusData

Коллеги, дискуссия интересная, и комментарии увлекательные 🙂
Большая просьба не скатываться в холивары 👍🏼

❤2

514 views19:11

Trino и CedrusData

Всем привет. Мы рады представить большой релиз CedrusData 442-1!

1. Новый UI для запуска SQL запросов. Основан на Monaco. Документация: https://docs.cedrusdata.ru/latest/client/cedrusdata-web-ui.html
2. Полноценная поддержка динамических каталогов. Отличия от реализации Trino: возможность сохранения каталогов в Postgres или локальном RocksDB, возможность установки разных свойств каталога на разные узлы, отсутствие багов (известных нам 🙂). Документация: https://docs.cedrusdata.ru/latest/admin/properties-catalog.html
3. Кэш результатов, который позволяет мгновенно отдавать результаты ранее запущенных запросов без их повторного выполнения. Документация: https://docs.cedrusdata.ru/latest/admin/properties-cedrusdata-result-cache.html
4. Теперь к CedrusData можно подключаться через PowerBI с помощью нашего интерфейса Arrow Flight SQL и ODBC-драйвера Dremio (иронично, да). Гайд по подключению: https://docs.cedrusdata.ru/latest/guide/bi-powerbi.html
5. Автоматический сбор статистик кластера

Ссылка на дистрибутив и инструкции по установке: https://www.cedrusdata.ru/download
Release notes: https://docs.cedrusdata.ru/latest/release/release-442-1.html

В работе и появится в ближайших релизах:
1. Автоматический rewrite запросов к материализованным представлениям. Уменьшает количество повторяющихся вычислений и эффективно разгружает источники данных. Функционал архитектурно схож с Dremio Reflections.
2. Наконец опубликуем автоматическую дедупликацию повторяющихся фрагментов запроса. Результаты тестов показывают отличный прирост производительности, но реализация достаточно сложная.
3. Чтение данных из Greenplum через gpfdist.
4. Добавим в web UI возможность работы с локальными датасетами через DuckDB.
5. В рамках исследования поэкспериментируем с гибридным исполнением запросов между DuckDB и CedrusData.

CedrusData | Российская lakehouse-платформа

Скачать | CedrusData

Попробуйте CedrusData бесплатно: простой доступ к платформе для тестирования и оценки функционала перед покупкой или внедрением.

🔥11👍2❤1

763 viewsedited 06:10

Trino и CedrusData

Всем привет. Выложили на YouTube видео с прошедшего митапа:
- Trino Meetup #2: Trino в Тинькофф, Дмитрий Зуев https://www.youtube.com/watch?v=254f-fyAcWw
- Trino Meetup #2: Как ускорить работу Trino с Data Lake c помощью кэширования, Владимир Озеров https://www.youtube.com/watch?v=luCSPtwPPRw

YouTube

Trino Meetup #2: Trino в Тинькофф, Дмитрий Зуев

Платформа данных Тинькофф содержит более пяти петабайт данных и ежемесячно обслуживает около пятнадцати тысяч пользователей. В своем докладе Дмитрий расскажет об архитектуре платформы и роли Trino в аналитическом стеке компании.

👍6

792 views09:50

Trino и CedrusData

Всем привет. Мы рады представить релиз CedrusData 442-2!

1. Возможность сохранения истории выполненных запросов в персистентное хранилище (файловая система или PostgreSQL). Документация: https://docs.cedrusdata.ru/latest/admin/properties-cedrusdata-query-history.html
2. Iceberg: добавлена возможность использования функций партиционирования отличных от "identity" для выполнения колоцированных операций Join и Aggregate
3. Delta Lake: добавлена поддержка локального дискового кэша CedrusData. Документация: https://docs.cedrusdata.ru/latest/connector/delta-lake.html#delta-lake-data-cache
4. Greenplum: добавлена возможность задания свойств таблиц при выполнении операции CREATE TABLE: distributed by, appendoptimized, orientation и т.д. Документация: https://docs.cedrusdata.ru/latest/connector/greenplum.html#greenplum-table-properties
5. Создана инфраструктура для автоматического переписывания запросов на материализованные представления. Функционал будет включен в следующем релизе для Iceberg каталогов
6. Увеличена точность операций деления DECIMAL значений. Ванильный Trino агрессивно урезает количество симоволов после запятой, например 1.0 / 3 -> 0.3. В CedrusData можно опционально увеличить точность операций деления с помощью параметра JVM. Документация: https://docs.cedrusdata.ru/latest/language/types.html#decimal-division-scale
7. Внесены изменения в Docker-образ CedrusData. Теперь он максимально приближен к Docker-образу Trino, чтобы пользователям было легче менять образы в своем окружении. Документация: https://docs.cedrusdata.ru/latest/installation/containers.html

Ссылка на дистрибутив и инструкции по установке: https://www.cedrusdata.ru/download
Release notes: https://docs.cedrusdata.ru/latest/release/release-442-2.html

Задачи в работе:
1. Поддержка автоматического переписывания запросов на материализованные представления для операторов Scan-Project-Filter-Aggregation в Iceberg каталогах
2. Поддержка чтений из Greenplum через gpfdist
3. Кэширование повторяющихся фрагментов и подзапросов

CedrusData | Российская lakehouse-платформа

Скачать | CedrusData

🔥13

705 viewsedited 07:04

Trino и CedrusData

Всем привет. Мы рады представить релиз CedrusData 442-3!

1. Опубликовали бинарники и исходники наших SPI. Теперь вы можете использовать дополнительные сервисы CedrusData для разработки своих плагинов. Например, вы можете добавить наш дисковый кэш в свой коннектор, или реализовать аудит событий аутентификации через event listener. Документация: https://docs.cedrusdata.ru/latest/develop/spi-overview.html#spi-dependencies
2. Добавили поддержку автоматического переписывания запросов на материализованные представления. Данный функционал может быть использован как для уменьшения количества повторяющихся вычислений (например, агрегаций), так и для снятия нагрузки с медленных источников путем переноса чтения части колонок в Iceberg. В настоящий момент поддерживаются материализованные представления из коннектора Iceberg. Пока не поддерживаем материализованные представления с оператором JOIN, добавим в ближайших релизах. Документация: https://docs.cedrusdata.ru/latest/connector/iceberg.html#iceberg-materialized-views-rewrite
3. Улучшили работу колоцированных вычислений в Iceberg за счет поддержки всех типов данных для всех partition transforms (https://iceberg.apache.org/spec/#partition-transforms), за исключением составных типов в identity transform. Теперь колоцированные Join и Aggregate могут быть использованы в большем количестве случаев.

Ссылка на дистрибутив и инструкции по установке: https://www.cedrusdata.ru/download
Release notes: https://docs.cedrusdata.ru/latest/release/release-442-3.html

Продолжаем работать над материализованными представлениями: нужны поддержка Join и инкрементальный refresh. Финализируем разработку быстрых чтений из Greenplum через gpfdist. Начинаем думать над тем, как удобно загружать файлы в data lake через CedrusData Web UI. Пробуем финализировать первую версию прототипа гибридного выполнения запросов через CedrusData и DuckDB.

CedrusData | Российская lakehouse-платформа

Скачать | CedrusData

🔥10❤1

763 viewsedited 11:55

Trino и CedrusData

🎉 Анонс Trino бар Summit! 🍻✨

Всем привет! В эту пятницу коллеги из S7 спонтанно организуют посиделки в баре для обсуждения итогов Trino Summit и других идей! 🎤💡Приглашаем всех желающих. Будет здорово провести вечер вместе, обменяться впечатлениями и просто хорошо провести время.

📅 Когда: в эту пятницу, 14 июня, вечер после 18:00, точное время согласуем
📍 Где: Москва, точное место будет определено в зависимости от вашей реакции и сообщено отдельно

Пожалуйста, отметьтесь в реакции:
🔥 - если вы готовы присоединиться к коллегам из S7 и придете! (будем ориентироваться на это число при бронировании, но в разумных пределах)
🤷‍♂️ - если собираетесь присоединиться, но не уверены, что у вас получится

По всем вопросам организации можно обращаться к @YuriyGavrilov

Не пропустите отличный вечер с друзьями и коллегами! 🍹🥳

🔥4🤷‍♂3

769 views09:37

Trino и CedrusData

Коллеги, привет. Задача канала - приносить пользу сообществу. Мы против огульной и навязчивой рекламы. Но если есть конкретный запрос и конкретный ответ, нет ничего плохого в том, чтобы это обсудить в канале. Команда Евгения делает ровно то, о чем спросил Андрей. Никаких проблем со стороны канала нет.

👍6

702 views09:13

Trino и CedrusData

Всем привет. Мы рады представить релиз CedrusData 442-4!

Данный релиз значительно улучшает pushdown вычислений для Greenplum коннектора за счет добавления возможности pushdown сложных выражений. Например, с данными изменениями CedrusData теперь может сделать pushdown запроса TPC-DS 07 целиком (https://github.com/gregrahn/tpcds-kit/blob/master/query_templates/query7.tpl#L41-L58), и получить из Greenplum готовый результат агрегации. Для этого же запроса Trino сможет сделать pushdown только фильтров и Join-ов, но финальная агрегация большой таблицы фактов будет проиходить внутри Trino, существенно снижая производительность, так как в плане запроса присутствуют промежуточные вычисления (оператор Projection с функцией CAST), которые Trino не может запушить. Документация: https://docs.cedrusdata.ru/latest/connector/greenplum.html#greenplum-expression-pushdown

Эти и смежные оптимизации направлены на ускорение распространенного сценария выполнения сложных запросов, объединяющих данные между data lake и хранилищем. В ближайших релизах мы добавим поддержку данной оптимизации в ряд других популярных коннекторов, таких как Postgres, ClickHouse и Vertica.

🔥20👍3

1.08K viewsedited 09:34

Trino и CedrusData

Всем привет. Мы рады представить релиз CedrusData 442-5! Release notes: https://docs.cedrusdata.ru/latest/release/release-442-5.html

В новую версию добавлено два важных улучшения: автоматическое удаление из запросов ненужных операторов Join (join pruning) и возможность быстрой работы с Greenplum через протокол GPFDIST.

Автоматическое удаление операторов Join востребовано в сценариях, когда присутствует запрос с большим количеством Join, но реально используются только некоторые колонки. Такое часто возникает при работе с BI или схемами данных с большим количеством виртуальных представлений (например, Anchor или Data Vault). В новой версии мы научили оптимизатор определять операторы Join, которые могут быть безопасно удалены из запроса. Для работы данной оптимизации вам придется вручную указать констрейнты, которые де-факто определены на ваших таблицах. В будущих версиях мы научим движок получать констрейнты из коннекторов (Hive Metastore, Iceberg Catalog, JDBC). Документация: https://docs.cedrusdata.ru/latest/admin/properties-optimizer.html#cedrusdata-optimizer-join-pruning-enabled

Многим пользоватлям CedrusData и Trino важна возможность быстрого чтения и записи данных из/в Greenplum. Ранее мы предложили ряд оптимизаций для быстрого чтения данных из Greenplum, которые тем не менее были применимы только к некоторым ситуациям. В новом релизе мы научили CedrusData общаться с сегментами Greenplum напрямую через протокол GPFDIST, минуя master-узел. Результатом данного улучшения является многократное увеличение скорости чтения и записи данных при работе с Greenplum. Среди прочего, теперь вы сможете еще быстрее мигрировать ваши приложения с Greenplum на современный стек CedrusData/Iceberg/S3 🙂. Документация: https://docs.cedrusdata.ru/latest/connector/greenplum.html#gpfdist

В следующих версиях мы опубликуем первую версию собственного Iceberg REST Catalog, заточенного на быструю работу с CedrusData. Кроме того, мы начали работу над ускорением работы с ClickHouse, и в скором времени в продукте появятся продвинутый pushdown вычислений в ClickHouse по аналогии с тем, как мы уже это сделали для Greenplum в версии 442-4.

🔥12

820 views12:26

Trino и CedrusData

Коллеги, привет. Делаем крайне запоздалый анонс дружественного мероприятия.

Сегодня в 18:00 состоится очередной митап российского сообщества разработчиков СУБД Database Internals. Будет доклад про Sphinx от Авито, и про материализованные представления Greenplum и проекции Vertica от Яндекс. Зарегистрироваться на онлайн участие можно по ссылке: https://databaseinternals.timepad.ru/event/3003674/

Если вы интересуетесь вопросами устройства СУБД и движков, присоединяетесь к сообществу разработчиков СУБД: t.iss.one/databaseinternalschat

databaseinternals.timepad.ru

Database Internals Meetup #4 (офлайн + онлайн): Векторные поиски в Sphinx и материализованные представления в GreenplumDB / События…

Четвертый митап российского сообщества разработчиков СУБД и распределенных систем. Обсудим как разработан векторый поиск в Sphinx и как можно ускорить GreenplumDB через проекции и материализованные представления.

🔥7

1.07K views10:46

Trino и CedrusData

Всем привет! В следующий четверг 24.10.2024 состоится DATA.Meetup 2024 от Сбера, на котором будут доклады про Trino и Iceberg. Обсудим наши любимые технологии в неформальной обстановке. Возможно офлайн и онлайн участие, регистрация обязательна. Для офлайн участия необходимо пройти регистрацию до начала следующей недели. Будем рады вас видеть!

🔥3

624 views07:06

Trino и CedrusData

Forwarded from SberProfi DWH/BigData

Друзья, привет!

⚡️Мы обещали, и мы это сделали! Всем, кому недостаёт зубодробительных технических докладов и свежего data-контента, посвящается

Приходите на очный Data.Meetup от команды DWH/BigData и CedrusData! Мы подготовили насыщенную программу по нескольким направлениям🔥

- Обсудим новые горизонты и практические кейсы работы с Trino — миграция в k8s, особенности работы с Iceberg
- Расскажем, как съели пуд соли с metadata-driven платформой (и почти не подавились)
- Поделимся проверенными сценариями для гарантии поставки и безопасного распространения данных в большой гетерогенной data-платформе
- Поговорим про Flink и расскажем, почему этот движок настолько эффективен

Гостей ждут динамичные доклады, жаркие дискуссии, интерактивы, подарки и, конечно же, вкусное угощение! Переносите тренировки, просмотр сериалов и отложите рабочие задачи — такое нельзя пропустить!

🗓️ 24 октября, четверг
⏰ 16:00–20:00 мск
📍Ждем вас очно по адресу: Москва, Кутузовский, 32, к. 1, 2-й этаж, большой конференц-зал
🌐 Будет онлайн-трансляция

👉 ПРОГРАММА 👈

До встречи на Data.Meetup 2024!

С уважением,
Команда DWH/BigData 💚

🔥11

626 views07:06

Trino и CedrusData

Всем привет!

Выложены записи и презентации докладов митапа DataMeetup! https://developers.sber.ru/kak-v-sbere/events/data_meetup_october
Если у вас остались вопросы по работе Trino, Flink в Сбере, можете обращаться к @Slider_Ivan.

Благодарим вас за участие!

developers.sber.ru

DATA.Meetup 2024

Митап о технологиях, инструментах и нюансах управления данными больших компаний

🔥7👏2❤1

926 views13:28

Trino и CedrusData

Обещанного три года ждут. Мы выпустили первую версию CedrusData Catalog — технического каталога для аналитических платформ. Поддержка Iceberg REST API, файловых систем S3 и HDFS. Безопасность и мониторинг. Начало работы и инуструкции по интеграции с популярными движками: https://docs.cedrusdata.ru/catalog/latest/index.html. Рассказываем подробнее о продукте в нашем блоге: https://www.cedrusdata.ru/blog/cedrusdata-catalog-novyy-tehnicheskiy-katalog-s-podderzhkoy-iceberg-rest-api

www.cedrusdata.ru

CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API | CedrusData

CedrusData Catalog — новый технический каталог с поддержкой спецификации Iceberg REST API

🔥18👍8😍5

1.5K views13:56

Trino и CedrusData

11 декабря с 13:00 до 19:00 в Москве в кластере Ломоносов пройдет пятый митап "Database Internals Meetup". Будем говорить про внутреннее устройство CedrusData, YDB, Picodata, Tarantool и openGauss. По CedrusData будет затронута тема автоматического переписывания запросов на материализованные представления. Подробное описание программы: https://databaseinternals.timepad.ru/event/3132404/

Митап будет частью крупной конференции ИСП РАН, так что кроме баз данных можно будет послушать доклады про механику сплошных сред 🤓, лингвистические системы анализа 🤓, и многое другое. Участие в митапе и конференции бесплатное, но необходимо обязательно пройти регистрацию до 7 декабря на сайте ИСП РАН: https://www.isprasopen.ru/#Registration

Будем рады вас увидеть!

databaseinternals.timepad.ru

Database Internals Meetup #5 (офлайн + онлайн): 5 докладов на конференции ISPRAS Open / События на TimePad.ru

Пятый митап российского сообщества разработчиков СУБД и распределенных систем. Доклады от основателей и ведущих разработчиков YDB, Picodata, Tarantool, openGauss и CedrusData

🔥2

990 viewsedited 08:45

Trino и CedrusData

Всем привет! Начинается большая секция Database Internals. 5 докладов от ведущих российских разработчиков СУБД.

В 17:30 будет доклад от разработчиков CedrusData об интеграции автоматического переписывания запросов на материализованные представления в оптимизатор Trino.

В 16:30 будет круглый стол по модульным оптимизаторам. В том числе будут затронуты некоторые аспекты текущих дискуссий в сообществе Apache Iceberg о реализации cross-engine views (напр., записали из Trino, прочитали в Spark), и проблем современных оптимизаторов (например, почему Cloudera пытается переписать с нуля оптимизатор Impala).

Трансляция доступна по ссылке: https://vk.com/video-226977842_456239020

VK Видео

Database Internals Meetup #5: пять докладов на секции СУБД конференции ISPRAS Open

Приглашаем вас на пятый митап сообщества Database Internals. В программе пять докладов от основателей и разработчиков YDB, Picodata, Tarantool, openGauss и CedrusData. Мероприятие пройдёт в формате секции "Системы Управления Базами Данных" на конференции…

🔥9👍1

1.75K views10:05

About

Blog

Apps

Platform