Trino содержит обширный набор функций, которых обычно достаточно для большинства сценариев использования. При решении сложных задач может возникнуть необходимость написания собственных кастомных функций. Для этого пользователи Trino традиционно использовали плагины, которые позволяют добавить собственную функцию, написанную на языке Java. Недостаток данного подхода - необходимость компиляции функции и перезапуска узла.
Начиная с релиза 431, в Trino появилась возможность создания кастомных функций с помощью SQL! Функции могут быть определены как непосредственно в запросе, так и сохранены в каталоге (например, в Hive Metastore) для дальнейшего переиспользования. Документация: https://trino.io/docs/current/routines/introduction.html
Начиная с релиза 431, в Trino появилась возможность создания кастомных функций с помощью SQL! Функции могут быть определены как непосредственно в запросе, так и сохранены в каталоге (например, в Hive Metastore) для дальнейшего переиспользования. Документация: https://trino.io/docs/current/routines/introduction.html
🔥8
Всем привет! В следующую пятницу, 24 ноября, в 18:00 пройдет (кажется) первый в российском сегменте онлайн-вебинар по Trino! Поговорим про реальную практику использования Trino в Avito и особенности работы оптимизатора запросов. Зарегистрироваться можно по ссылке: https://jugrugroup.timepad.ru/event/2675022/?utm_refcode=775f3a3d5cbd6daaf95e43fbc64e971d25ed5a05
Записи докладов позднее будут выложены на YouTube. До встречи на митапе!
Записи докладов позднее будут выложены на YouTube. До встречи на митапе!
jugrugroup.timepad.ru
Trino Meetup #1: Зачем Авито внедрили Trino, и как устроен оптимизатор запросов? / События на TimePad.ru
Первый онлайн-митап о технологии Trino. Разберем кейс переезда с Vertica на Trino в Авито, после чего обсудим особенности внутреннего устройства оптимизатора Trino. Митап организован компанией Querify Labs, разрабатывающей CedrusData — коммерческий форк Trino…
🔥15
Trino и CedrusData pinned «Всем привет! В следующую пятницу, 24 ноября, в 18:00 пройдет (кажется) первый в российском сегменте онлайн-вебинар по Trino! Поговорим про реальную практику использования Trino в Avito и особенности работы оптимизатора запросов. Зарегистрироваться можно по…»
Всем привет. Мы выложили видео с прошедшего митапа по Trino: https://www.youtube.com/@cedrusdata/videos
У нас остался ряд вопросов слушателей, на которые мы не успели ответить на митапе. В ближайшие дни мы предоставим ответы.
У нас остался ряд вопросов слушателей, на которые мы не успели ответить на митапе. В ближайшие дни мы предоставим ответы.
👍7
Всем привет.
Мы рады представить релиз CedrusData 431-3!
1. Добавили новый Vertica коннектор с поддержкой SELECT, DML и DDL выражений.
2. Значительно ускорили работу локального дискового кэша для коннектора Hive. Аналогичные улучшения появятся в коннекторе Iceberg в следующих версиях.
3. Начали системную работу над дополнительными возможностями мониторинга системы. В данной версии появилась возможность просмотра агрегированных статистик доступа к таблицам в источниках: сколько байт и строк было прочитано.
4. Коннектор Teradata: добавили поддержку новых типов данных и расширили возможности pushdown.
Полную информацию и соответствующую документацию можно найти в release notes: https://docs.cedrusdata.ru/latest/release/release-431-3.html
Ожидаем в ближайших версиях:
1. Поддержка Arrow Flight SQL, которая в том числе позволит работать с CedrusData через сторонние ODBC драйвера
2. Финализация поддержки data cache для формата ORC (формально он уже есть в экспериментальном режиме, но надо поработать над производительностью)
3. Production-ready поддержка динамических каталогов
4. Автоматическая дедупликация повторяющихся фрагментов
Мы рады представить релиз CedrusData 431-3!
1. Добавили новый Vertica коннектор с поддержкой SELECT, DML и DDL выражений.
2. Значительно ускорили работу локального дискового кэша для коннектора Hive. Аналогичные улучшения появятся в коннекторе Iceberg в следующих версиях.
3. Начали системную работу над дополнительными возможностями мониторинга системы. В данной версии появилась возможность просмотра агрегированных статистик доступа к таблицам в источниках: сколько байт и строк было прочитано.
4. Коннектор Teradata: добавили поддержку новых типов данных и расширили возможности pushdown.
Полную информацию и соответствующую документацию можно найти в release notes: https://docs.cedrusdata.ru/latest/release/release-431-3.html
Ожидаем в ближайших версиях:
1. Поддержка Arrow Flight SQL, которая в том числе позволит работать с CedrusData через сторонние ODBC драйвера
2. Финализация поддержки data cache для формата ORC (формально он уже есть в экспериментальном режиме, но надо поработать над производительностью)
3. Production-ready поддержка динамических каталогов
4. Автоматическая дедупликация повторяющихся фрагментов
🔥10👍8
Всем привет! 27 февраля в 18:00 мы проведем очередной онлайн-митап по Trino! Обсудим использование Trino в Тинькофф и вопросы локального кэширования данных на worker-узлах. Регистрация по ссылке: https://cedrusdata.timepad.ru/event/2754553/?utm_refcode=451a37ec7d9c7e17392334bbf146373c0b3f036f
cedrusdata.timepad.ru
Trino Meetup #2: Trino в Тинькофф, и как ускорить чтение из Data Lake с помощью кэширования / События на TimePad.ru
Обсудим, как Тинькофф использует Trino в своей аналитической платформе, и рассмотрим различные способы ускорения работы с озерами данных с помощью кэширования на примере решений Alluxio, Starburst Warp Speed (ex-Varada) и CedrusData.
Митап организован компанией…
Митап организован компанией…
❤10👍2
Всем привет. Мы рады представить релиз CedrusData 431-4!
1. Добавили экспериментальную поддержку протокола Arrow Flight SQL. Теперь вы можете подключаться к CedrusData из любых клиентских приложений, которые реализуют данный протокол, включая сторонние ODBC и JDBC драйвера. Функционал будет окончательно стабилизирован в ближайших версиях. Документация: https://docs.cedrusdata.ru/latest/client/arrow-flight-sql.html
2. Ускорили работу локального дискового кэша в коннекторе Hive для файлов Parquet. Ранее продукт не умел кэшировать ряд структур Parquet (zone maps, bloom filters, dictionary pages), что приводило к лишним запросам в data lake даже при включенном кэше. Начиная с версии 431-4, семантическое кэширование распространяется на все составные части Parquet.
Release notes: https://docs.cedrusdata.ru/latest/release/release-431-4.html
1. Добавили экспериментальную поддержку протокола Arrow Flight SQL. Теперь вы можете подключаться к CedrusData из любых клиентских приложений, которые реализуют данный протокол, включая сторонние ODBC и JDBC драйвера. Функционал будет окончательно стабилизирован в ближайших версиях. Документация: https://docs.cedrusdata.ru/latest/client/arrow-flight-sql.html
2. Ускорили работу локального дискового кэша в коннекторе Hive для файлов Parquet. Ранее продукт не умел кэшировать ряд структур Parquet (zone maps, bloom filters, dictionary pages), что приводило к лишним запросам в data lake даже при включенном кэше. Начиная с версии 431-4, семантическое кэширование распространяется на все составные части Parquet.
Release notes: https://docs.cedrusdata.ru/latest/release/release-431-4.html
🔥11👍1👏1
Коллеги, дискуссия интересная, и комментарии увлекательные 🙂
Большая просьба не скатываться в холивары 👍🏼
Большая просьба не скатываться в холивары 👍🏼
❤2
Всем привет. Мы рады представить большой релиз CedrusData 442-1!
1. Новый UI для запуска SQL запросов. Основан на Monaco. Документация: https://docs.cedrusdata.ru/latest/client/cedrusdata-web-ui.html
2. Полноценная поддержка динамических каталогов. Отличия от реализации Trino: возможность сохранения каталогов в Postgres или локальном RocksDB, возможность установки разных свойств каталога на разные узлы, отсутствие багов (известных нам 🙂). Документация: https://docs.cedrusdata.ru/latest/admin/properties-catalog.html
3. Кэш результатов, который позволяет мгновенно отдавать результаты ранее запущенных запросов без их повторного выполнения. Документация: https://docs.cedrusdata.ru/latest/admin/properties-cedrusdata-result-cache.html
4. Теперь к CedrusData можно подключаться через PowerBI с помощью нашего интерфейса Arrow Flight SQL и ODBC-драйвера Dremio (иронично, да). Гайд по подключению: https://docs.cedrusdata.ru/latest/guide/bi-powerbi.html
5. Автоматический сбор статистик кластера
Ссылка на дистрибутив и инструкции по установке: https://www.cedrusdata.ru/download
Release notes: https://docs.cedrusdata.ru/latest/release/release-442-1.html
В работе и появится в ближайших релизах:
1. Автоматический rewrite запросов к материализованным представлениям. Уменьшает количество повторяющихся вычислений и эффективно разгружает источники данных. Функционал архитектурно схож с Dremio Reflections.
2. Наконец опубликуем автоматическую дедупликацию повторяющихся фрагментов запроса. Результаты тестов показывают отличный прирост производительности, но реализация достаточно сложная.
3. Чтение данных из Greenplum через gpfdist.
4. Добавим в web UI возможность работы с локальными датасетами через DuckDB.
5. В рамках исследования поэкспериментируем с гибридным исполнением запросов между DuckDB и CedrusData.
1. Новый UI для запуска SQL запросов. Основан на Monaco. Документация: https://docs.cedrusdata.ru/latest/client/cedrusdata-web-ui.html
2. Полноценная поддержка динамических каталогов. Отличия от реализации Trino: возможность сохранения каталогов в Postgres или локальном RocksDB, возможность установки разных свойств каталога на разные узлы, отсутствие багов (известных нам 🙂). Документация: https://docs.cedrusdata.ru/latest/admin/properties-catalog.html
3. Кэш результатов, который позволяет мгновенно отдавать результаты ранее запущенных запросов без их повторного выполнения. Документация: https://docs.cedrusdata.ru/latest/admin/properties-cedrusdata-result-cache.html
4. Теперь к CedrusData можно подключаться через PowerBI с помощью нашего интерфейса Arrow Flight SQL и ODBC-драйвера Dremio (иронично, да). Гайд по подключению: https://docs.cedrusdata.ru/latest/guide/bi-powerbi.html
5. Автоматический сбор статистик кластера
Ссылка на дистрибутив и инструкции по установке: https://www.cedrusdata.ru/download
Release notes: https://docs.cedrusdata.ru/latest/release/release-442-1.html
В работе и появится в ближайших релизах:
1. Автоматический rewrite запросов к материализованным представлениям. Уменьшает количество повторяющихся вычислений и эффективно разгружает источники данных. Функционал архитектурно схож с Dremio Reflections.
2. Наконец опубликуем автоматическую дедупликацию повторяющихся фрагментов запроса. Результаты тестов показывают отличный прирост производительности, но реализация достаточно сложная.
3. Чтение данных из Greenplum через gpfdist.
4. Добавим в web UI возможность работы с локальными датасетами через DuckDB.
5. В рамках исследования поэкспериментируем с гибридным исполнением запросов между DuckDB и CedrusData.
CedrusData | Российская lakehouse-платформа
Скачать | CedrusData
Попробуйте CedrusData бесплатно: простой доступ к платформе для тестирования и оценки функционала перед покупкой или внедрением.
🔥11👍2❤1
Всем привет. Выложили на YouTube видео с прошедшего митапа:
- Trino Meetup #2: Trino в Тинькофф, Дмитрий Зуев https://www.youtube.com/watch?v=254f-fyAcWw
- Trino Meetup #2: Как ускорить работу Trino с Data Lake c помощью кэширования, Владимир Озеров https://www.youtube.com/watch?v=luCSPtwPPRw
- Trino Meetup #2: Trino в Тинькофф, Дмитрий Зуев https://www.youtube.com/watch?v=254f-fyAcWw
- Trino Meetup #2: Как ускорить работу Trino с Data Lake c помощью кэширования, Владимир Озеров https://www.youtube.com/watch?v=luCSPtwPPRw
YouTube
Trino Meetup #2: Trino в Тинькофф, Дмитрий Зуев
Платформа данных Тинькофф содержит более пяти петабайт данных и ежемесячно обслуживает около пятнадцати тысяч пользователей. В своем докладе Дмитрий расскажет об архитектуре платформы и роли Trino в аналитическом стеке компании.
👍6
Всем привет. Мы рады представить релиз CedrusData 442-2!
1. Возможность сохранения истории выполненных запросов в персистентное хранилище (файловая система или PostgreSQL). Документация: https://docs.cedrusdata.ru/latest/admin/properties-cedrusdata-query-history.html
2. Iceberg: добавлена возможность использования функций партиционирования отличных от "identity" для выполнения колоцированных операций Join и Aggregate
3. Delta Lake: добавлена поддержка локального дискового кэша CedrusData. Документация: https://docs.cedrusdata.ru/latest/connector/delta-lake.html#delta-lake-data-cache
4. Greenplum: добавлена возможность задания свойств таблиц при выполнении операции
5. Создана инфраструктура для автоматического переписывания запросов на материализованные представления. Функционал будет включен в следующем релизе для Iceberg каталогов
6. Увеличена точность операций деления DECIMAL значений. Ванильный Trino агрессивно урезает количество симоволов после запятой, например
7. Внесены изменения в Docker-образ CedrusData. Теперь он максимально приближен к Docker-образу Trino, чтобы пользователям было легче менять образы в своем окружении. Документация: https://docs.cedrusdata.ru/latest/installation/containers.html
Ссылка на дистрибутив и инструкции по установке: https://www.cedrusdata.ru/download
Release notes: https://docs.cedrusdata.ru/latest/release/release-442-2.html
Задачи в работе:
1. Поддержка автоматического переписывания запросов на материализованные представления для операторов Scan-Project-Filter-Aggregation в Iceberg каталогах
2. Поддержка чтений из Greenplum через gpfdist
3. Кэширование повторяющихся фрагментов и подзапросов
1. Возможность сохранения истории выполненных запросов в персистентное хранилище (файловая система или PostgreSQL). Документация: https://docs.cedrusdata.ru/latest/admin/properties-cedrusdata-query-history.html
2. Iceberg: добавлена возможность использования функций партиционирования отличных от "identity" для выполнения колоцированных операций Join и Aggregate
3. Delta Lake: добавлена поддержка локального дискового кэша CedrusData. Документация: https://docs.cedrusdata.ru/latest/connector/delta-lake.html#delta-lake-data-cache
4. Greenplum: добавлена возможность задания свойств таблиц при выполнении операции
CREATE TABLE: distributed by, appendoptimized, orientation и т.д. Документация: https://docs.cedrusdata.ru/latest/connector/greenplum.html#greenplum-table-properties5. Создана инфраструктура для автоматического переписывания запросов на материализованные представления. Функционал будет включен в следующем релизе для Iceberg каталогов
6. Увеличена точность операций деления DECIMAL значений. Ванильный Trino агрессивно урезает количество симоволов после запятой, например
1.0 / 3 -> 0.3. В CedrusData можно опционально увеличить точность операций деления с помощью параметра JVM. Документация: https://docs.cedrusdata.ru/latest/language/types.html#decimal-division-scale7. Внесены изменения в Docker-образ CedrusData. Теперь он максимально приближен к Docker-образу Trino, чтобы пользователям было легче менять образы в своем окружении. Документация: https://docs.cedrusdata.ru/latest/installation/containers.html
Ссылка на дистрибутив и инструкции по установке: https://www.cedrusdata.ru/download
Release notes: https://docs.cedrusdata.ru/latest/release/release-442-2.html
Задачи в работе:
1. Поддержка автоматического переписывания запросов на материализованные представления для операторов Scan-Project-Filter-Aggregation в Iceberg каталогах
2. Поддержка чтений из Greenplum через gpfdist
3. Кэширование повторяющихся фрагментов и подзапросов
CedrusData | Российская lakehouse-платформа
Скачать | CedrusData
Попробуйте CedrusData бесплатно: простой доступ к платформе для тестирования и оценки функционала перед покупкой или внедрением.
🔥13
Всем привет. Мы рады представить релиз CedrusData 442-3!
1. Опубликовали бинарники и исходники наших SPI. Теперь вы можете использовать дополнительные сервисы CedrusData для разработки своих плагинов. Например, вы можете добавить наш дисковый кэш в свой коннектор, или реализовать аудит событий аутентификации через event listener. Документация: https://docs.cedrusdata.ru/latest/develop/spi-overview.html#spi-dependencies
2. Добавили поддержку автоматического переписывания запросов на материализованные представления. Данный функционал может быть использован как для уменьшения количества повторяющихся вычислений (например, агрегаций), так и для снятия нагрузки с медленных источников путем переноса чтения части колонок в Iceberg. В настоящий момент поддерживаются материализованные представления из коннектора Iceberg. Пока не поддерживаем материализованные представления с оператором
3. Улучшили работу колоцированных вычислений в Iceberg за счет поддержки всех типов данных для всех partition transforms (https://iceberg.apache.org/spec/#partition-transforms), за исключением составных типов в identity transform. Теперь колоцированные Join и Aggregate могут быть использованы в большем количестве случаев.
Ссылка на дистрибутив и инструкции по установке: https://www.cedrusdata.ru/download
Release notes: https://docs.cedrusdata.ru/latest/release/release-442-3.html
Продолжаем работать над материализованными представлениями: нужны поддержка Join и инкрементальный refresh. Финализируем разработку быстрых чтений из Greenplum через gpfdist. Начинаем думать над тем, как удобно загружать файлы в data lake через CedrusData Web UI. Пробуем финализировать первую версию прототипа гибридного выполнения запросов через CedrusData и DuckDB.
1. Опубликовали бинарники и исходники наших SPI. Теперь вы можете использовать дополнительные сервисы CedrusData для разработки своих плагинов. Например, вы можете добавить наш дисковый кэш в свой коннектор, или реализовать аудит событий аутентификации через event listener. Документация: https://docs.cedrusdata.ru/latest/develop/spi-overview.html#spi-dependencies
2. Добавили поддержку автоматического переписывания запросов на материализованные представления. Данный функционал может быть использован как для уменьшения количества повторяющихся вычислений (например, агрегаций), так и для снятия нагрузки с медленных источников путем переноса чтения части колонок в Iceberg. В настоящий момент поддерживаются материализованные представления из коннектора Iceberg. Пока не поддерживаем материализованные представления с оператором
JOIN, добавим в ближайших релизах. Документация: https://docs.cedrusdata.ru/latest/connector/iceberg.html#iceberg-materialized-views-rewrite3. Улучшили работу колоцированных вычислений в Iceberg за счет поддержки всех типов данных для всех partition transforms (https://iceberg.apache.org/spec/#partition-transforms), за исключением составных типов в identity transform. Теперь колоцированные Join и Aggregate могут быть использованы в большем количестве случаев.
Ссылка на дистрибутив и инструкции по установке: https://www.cedrusdata.ru/download
Release notes: https://docs.cedrusdata.ru/latest/release/release-442-3.html
Продолжаем работать над материализованными представлениями: нужны поддержка Join и инкрементальный refresh. Финализируем разработку быстрых чтений из Greenplum через gpfdist. Начинаем думать над тем, как удобно загружать файлы в data lake через CedrusData Web UI. Пробуем финализировать первую версию прототипа гибридного выполнения запросов через CedrusData и DuckDB.
CedrusData | Российская lakehouse-платформа
Скачать | CedrusData
Попробуйте CedrusData бесплатно: простой доступ к платформе для тестирования и оценки функционала перед покупкой или внедрением.
🔥10❤1
🎉 Анонс Trino бар Summit! 🍻✨
Всем привет! В эту пятницу коллеги из S7 спонтанно организуют посиделки в баре для обсуждения итогов Trino Summit и других идей! 🎤💡Приглашаем всех желающих. Будет здорово провести вечер вместе, обменяться впечатлениями и просто хорошо провести время.
📅 Когда: в эту пятницу, 14 июня, вечер после 18:00, точное время согласуем
📍 Где: Москва, точное место будет определено в зависимости от вашей реакции и сообщено отдельно
Пожалуйста, отметьтесь в реакции:
🔥 - если вы готовы присоединиться к коллегам из S7 и придете! (будем ориентироваться на это число при бронировании, но в разумных пределах)
🤷♂️ - если собираетесь присоединиться, но не уверены, что у вас получится
По всем вопросам организации можно обращаться к @YuriyGavrilov
Не пропустите отличный вечер с друзьями и коллегами! 🍹🥳
Всем привет! В эту пятницу коллеги из S7 спонтанно организуют посиделки в баре для обсуждения итогов Trino Summit и других идей! 🎤💡Приглашаем всех желающих. Будет здорово провести вечер вместе, обменяться впечатлениями и просто хорошо провести время.
📅 Когда: в эту пятницу, 14 июня, вечер после 18:00, точное время согласуем
📍 Где: Москва, точное место будет определено в зависимости от вашей реакции и сообщено отдельно
Пожалуйста, отметьтесь в реакции:
🔥 - если вы готовы присоединиться к коллегам из S7 и придете! (будем ориентироваться на это число при бронировании, но в разумных пределах)
🤷♂️ - если собираетесь присоединиться, но не уверены, что у вас получится
По всем вопросам организации можно обращаться к @YuriyGavrilov
Не пропустите отличный вечер с друзьями и коллегами! 🍹🥳
🔥4🤷♂3
Коллеги, привет. Задача канала - приносить пользу сообществу. Мы против огульной и навязчивой рекламы. Но если есть конкретный запрос и конкретный ответ, нет ничего плохого в том, чтобы это обсудить в канале. Команда Евгения делает ровно то, о чем спросил Андрей. Никаких проблем со стороны канала нет.
👍6
Всем привет. Мы рады представить релиз CedrusData 442-4!
Данный релиз значительно улучшает pushdown вычислений для Greenplum коннектора за счет добавления возможности pushdown сложных выражений. Например, с данными изменениями CedrusData теперь может сделать pushdown запроса TPC-DS 07 целиком (https://github.com/gregrahn/tpcds-kit/blob/master/query_templates/query7.tpl#L41-L58), и получить из Greenplum готовый результат агрегации. Для этого же запроса Trino сможет сделать pushdown только фильтров и Join-ов, но финальная агрегация большой таблицы фактов будет проиходить внутри Trino, существенно снижая производительность, так как в плане запроса присутствуют промежуточные вычисления (оператор Projection с функцией CAST), которые Trino не может запушить. Документация: https://docs.cedrusdata.ru/latest/connector/greenplum.html#greenplum-expression-pushdown
Эти и смежные оптимизации направлены на ускорение распространенного сценария выполнения сложных запросов, объединяющих данные между data lake и хранилищем. В ближайших релизах мы добавим поддержку данной оптимизации в ряд других популярных коннекторов, таких как Postgres, ClickHouse и Vertica.
Данный релиз значительно улучшает pushdown вычислений для Greenplum коннектора за счет добавления возможности pushdown сложных выражений. Например, с данными изменениями CedrusData теперь может сделать pushdown запроса TPC-DS 07 целиком (https://github.com/gregrahn/tpcds-kit/blob/master/query_templates/query7.tpl#L41-L58), и получить из Greenplum готовый результат агрегации. Для этого же запроса Trino сможет сделать pushdown только фильтров и Join-ов, но финальная агрегация большой таблицы фактов будет проиходить внутри Trino, существенно снижая производительность, так как в плане запроса присутствуют промежуточные вычисления (оператор Projection с функцией CAST), которые Trino не может запушить. Документация: https://docs.cedrusdata.ru/latest/connector/greenplum.html#greenplum-expression-pushdown
Эти и смежные оптимизации направлены на ускорение распространенного сценария выполнения сложных запросов, объединяющих данные между data lake и хранилищем. В ближайших релизах мы добавим поддержку данной оптимизации в ряд других популярных коннекторов, таких как Postgres, ClickHouse и Vertica.
🔥20👍3
Всем привет. Мы рады представить релиз CedrusData 442-5! Release notes: https://docs.cedrusdata.ru/latest/release/release-442-5.html
В новую версию добавлено два важных улучшения: автоматическое удаление из запросов ненужных операторов Join (join pruning) и возможность быстрой работы с Greenplum через протокол GPFDIST.
Автоматическое удаление операторов Join востребовано в сценариях, когда присутствует запрос с большим количеством Join, но реально используются только некоторые колонки. Такое часто возникает при работе с BI или схемами данных с большим количеством виртуальных представлений (например, Anchor или Data Vault). В новой версии мы научили оптимизатор определять операторы Join, которые могут быть безопасно удалены из запроса. Для работы данной оптимизации вам придется вручную указать констрейнты, которые де-факто определены на ваших таблицах. В будущих версиях мы научим движок получать констрейнты из коннекторов (Hive Metastore, Iceberg Catalog, JDBC). Документация: https://docs.cedrusdata.ru/latest/admin/properties-optimizer.html#cedrusdata-optimizer-join-pruning-enabled
Многим пользоватлям CedrusData и Trino важна возможность быстрого чтения и записи данных из/в Greenplum. Ранее мы предложили ряд оптимизаций для быстрого чтения данных из Greenplum, которые тем не менее были применимы только к некоторым ситуациям. В новом релизе мы научили CedrusData общаться с сегментами Greenplum напрямую через протокол GPFDIST, минуя master-узел. Результатом данного улучшения является многократное увеличение скорости чтения и записи данных при работе с Greenplum. Среди прочего, теперь вы сможете еще быстрее мигрировать ваши приложения с Greenplum на современный стек CedrusData/Iceberg/S3 🙂. Документация: https://docs.cedrusdata.ru/latest/connector/greenplum.html#gpfdist
В следующих версиях мы опубликуем первую версию собственного Iceberg REST Catalog, заточенного на быструю работу с CedrusData. Кроме того, мы начали работу над ускорением работы с ClickHouse, и в скором времени в продукте появятся продвинутый pushdown вычислений в ClickHouse по аналогии с тем, как мы уже это сделали для Greenplum в версии 442-4.
В новую версию добавлено два важных улучшения: автоматическое удаление из запросов ненужных операторов Join (join pruning) и возможность быстрой работы с Greenplum через протокол GPFDIST.
Автоматическое удаление операторов Join востребовано в сценариях, когда присутствует запрос с большим количеством Join, но реально используются только некоторые колонки. Такое часто возникает при работе с BI или схемами данных с большим количеством виртуальных представлений (например, Anchor или Data Vault). В новой версии мы научили оптимизатор определять операторы Join, которые могут быть безопасно удалены из запроса. Для работы данной оптимизации вам придется вручную указать констрейнты, которые де-факто определены на ваших таблицах. В будущих версиях мы научим движок получать констрейнты из коннекторов (Hive Metastore, Iceberg Catalog, JDBC). Документация: https://docs.cedrusdata.ru/latest/admin/properties-optimizer.html#cedrusdata-optimizer-join-pruning-enabled
Многим пользоватлям CedrusData и Trino важна возможность быстрого чтения и записи данных из/в Greenplum. Ранее мы предложили ряд оптимизаций для быстрого чтения данных из Greenplum, которые тем не менее были применимы только к некоторым ситуациям. В новом релизе мы научили CedrusData общаться с сегментами Greenplum напрямую через протокол GPFDIST, минуя master-узел. Результатом данного улучшения является многократное увеличение скорости чтения и записи данных при работе с Greenplum. Среди прочего, теперь вы сможете еще быстрее мигрировать ваши приложения с Greenplum на современный стек CedrusData/Iceberg/S3 🙂. Документация: https://docs.cedrusdata.ru/latest/connector/greenplum.html#gpfdist
В следующих версиях мы опубликуем первую версию собственного Iceberg REST Catalog, заточенного на быструю работу с CedrusData. Кроме того, мы начали работу над ускорением работы с ClickHouse, и в скором времени в продукте появятся продвинутый pushdown вычислений в ClickHouse по аналогии с тем, как мы уже это сделали для Greenplum в версии 442-4.
🔥12
Коллеги, привет. Делаем крайне запоздалый анонс дружественного мероприятия.
Сегодня в 18:00 состоится очередной митап российского сообщества разработчиков СУБД Database Internals. Будет доклад про Sphinx от Авито, и про материализованные представления Greenplum и проекции Vertica от Яндекс. Зарегистрироваться на онлайн участие можно по ссылке: https://databaseinternals.timepad.ru/event/3003674/
Если вы интересуетесь вопросами устройства СУБД и движков, присоединяетесь к сообществу разработчиков СУБД: t.iss.one/databaseinternalschat
Сегодня в 18:00 состоится очередной митап российского сообщества разработчиков СУБД Database Internals. Будет доклад про Sphinx от Авито, и про материализованные представления Greenplum и проекции Vertica от Яндекс. Зарегистрироваться на онлайн участие можно по ссылке: https://databaseinternals.timepad.ru/event/3003674/
Если вы интересуетесь вопросами устройства СУБД и движков, присоединяетесь к сообществу разработчиков СУБД: t.iss.one/databaseinternalschat
databaseinternals.timepad.ru
Database Internals Meetup #4 (офлайн + онлайн): Векторные поиски в Sphinx и материализованные представления в GreenplumDB / События…
Четвертый митап российского сообщества разработчиков СУБД и распределенных систем. Обсудим как разработан векторый поиск в Sphinx и как можно ускорить GreenplumDB через проекции и материализованные представления.
🔥7
Всем привет! В следующий четверг 24.10.2024 состоится DATA.Meetup 2024 от Сбера, на котором будут доклады про Trino и Iceberg. Обсудим наши любимые технологии в неформальной обстановке. Возможно офлайн и онлайн участие, регистрация обязательна. Для офлайн участия необходимо пройти регистрацию до начала следующей недели. Будем рады вас видеть!
🔥3
Forwarded from SberProfi DWH/BigData
Друзья, привет!
⚡️Мы обещали, и мы это сделали! Всем, кому недостаёт зубодробительных технических докладов и свежего data-контента, посвящается
Приходите на очный Data.Meetup от команды DWH/BigData и CedrusData! Мы подготовили насыщенную программу по нескольким направлениям🔥
- Обсудим новые горизонты и практические кейсы работы с Trino — миграция в k8s, особенности работы с Iceberg
- Расскажем, как съели пуд соли с metadata-driven платформой (и почти не подавились)
- Поделимся проверенными сценариями для гарантии поставки и безопасного распространения данных в большой гетерогенной data-платформе
- Поговорим про Flink и расскажем, почему этот движок настолько эффективен
Гостей ждут динамичные доклады, жаркие дискуссии, интерактивы, подарки и, конечно же, вкусное угощение! Переносите тренировки, просмотр сериалов и отложите рабочие задачи — такое нельзя пропустить!
🗓️ 24 октября, четверг
⏰ 16:00–20:00 мск
📍Ждем вас очно по адресу: Москва, Кутузовский, 32, к. 1, 2-й этаж, большой конференц-зал
🌐 Будет онлайн-трансляция
👉 ПРОГРАММА 👈
До встречи на Data.Meetup 2024!
С уважением,
Команда DWH/BigData 💚
⚡️Мы обещали, и мы это сделали! Всем, кому недостаёт зубодробительных технических докладов и свежего data-контента, посвящается
Приходите на очный Data.Meetup от команды DWH/BigData и CedrusData! Мы подготовили насыщенную программу по нескольким направлениям🔥
- Обсудим новые горизонты и практические кейсы работы с Trino — миграция в k8s, особенности работы с Iceberg
- Расскажем, как съели пуд соли с metadata-driven платформой (и почти не подавились)
- Поделимся проверенными сценариями для гарантии поставки и безопасного распространения данных в большой гетерогенной data-платформе
- Поговорим про Flink и расскажем, почему этот движок настолько эффективен
Гостей ждут динамичные доклады, жаркие дискуссии, интерактивы, подарки и, конечно же, вкусное угощение! Переносите тренировки, просмотр сериалов и отложите рабочие задачи — такое нельзя пропустить!
🗓️ 24 октября, четверг
⏰ 16:00–20:00 мск
📍Ждем вас очно по адресу: Москва, Кутузовский, 32, к. 1, 2-й этаж, большой конференц-зал
🌐 Будет онлайн-трансляция
👉 ПРОГРАММА 👈
До встречи на Data.Meetup 2024!
С уважением,
Команда DWH/BigData 💚
🔥11
Всем привет!
Выложены записи и презентации докладов митапа DataMeetup! https://developers.sber.ru/kak-v-sbere/events/data_meetup_october
Если у вас остались вопросы по работе Trino, Flink в Сбере, можете обращаться к @Slider_Ivan.
Благодарим вас за участие!
Выложены записи и презентации докладов митапа DataMeetup! https://developers.sber.ru/kak-v-sbere/events/data_meetup_october
Если у вас остались вопросы по работе Trino, Flink в Сбере, можете обращаться к @Slider_Ivan.
Благодарим вас за участие!
developers.sber.ru
DATA.Meetup 2024
Митап о технологиях, инструментах и нюансах управления данными больших компаний
🔥7👏2❤1
Обещанного три года ждут. Мы выпустили первую версию CedrusData Catalog — технического каталога для аналитических платформ. Поддержка Iceberg REST API, файловых систем S3 и HDFS. Безопасность и мониторинг. Начало работы и инуструкции по интеграции с популярными движками: https://docs.cedrusdata.ru/catalog/latest/index.html. Рассказываем подробнее о продукте в нашем блоге: https://www.cedrusdata.ru/blog/cedrusdata-catalog-novyy-tehnicheskiy-katalog-s-podderzhkoy-iceberg-rest-api
www.cedrusdata.ru
CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API | CedrusData
CedrusData Catalog — новый технический каталог с поддержкой спецификации Iceberg REST API
🔥18👍8😍5