Forwarded from SberProfi DWH/BigData
Друзья, привет!
⚡️Мы обещали, и мы это сделали! Всем, кому недостаёт зубодробительных технических докладов и свежего data-контента, посвящается
Приходите на очный Data.Meetup от команды DWH/BigData и CedrusData! Мы подготовили насыщенную программу по нескольким направлениям🔥
- Обсудим новые горизонты и практические кейсы работы с Trino — миграция в k8s, особенности работы с Iceberg
- Расскажем, как съели пуд соли с metadata-driven платформой (и почти не подавились)
- Поделимся проверенными сценариями для гарантии поставки и безопасного распространения данных в большой гетерогенной data-платформе
- Поговорим про Flink и расскажем, почему этот движок настолько эффективен
Гостей ждут динамичные доклады, жаркие дискуссии, интерактивы, подарки и, конечно же, вкусное угощение! Переносите тренировки, просмотр сериалов и отложите рабочие задачи — такое нельзя пропустить!
🗓️ 24 октября, четверг
⏰ 16:00–20:00 мск
📍Ждем вас очно по адресу: Москва, Кутузовский, 32, к. 1, 2-й этаж, большой конференц-зал
🌐 Будет онлайн-трансляция
👉 ПРОГРАММА 👈
До встречи на Data.Meetup 2024!
С уважением,
Команда DWH/BigData 💚
⚡️Мы обещали, и мы это сделали! Всем, кому недостаёт зубодробительных технических докладов и свежего data-контента, посвящается
Приходите на очный Data.Meetup от команды DWH/BigData и CedrusData! Мы подготовили насыщенную программу по нескольким направлениям🔥
- Обсудим новые горизонты и практические кейсы работы с Trino — миграция в k8s, особенности работы с Iceberg
- Расскажем, как съели пуд соли с metadata-driven платформой (и почти не подавились)
- Поделимся проверенными сценариями для гарантии поставки и безопасного распространения данных в большой гетерогенной data-платформе
- Поговорим про Flink и расскажем, почему этот движок настолько эффективен
Гостей ждут динамичные доклады, жаркие дискуссии, интерактивы, подарки и, конечно же, вкусное угощение! Переносите тренировки, просмотр сериалов и отложите рабочие задачи — такое нельзя пропустить!
🗓️ 24 октября, четверг
⏰ 16:00–20:00 мск
📍Ждем вас очно по адресу: Москва, Кутузовский, 32, к. 1, 2-й этаж, большой конференц-зал
🌐 Будет онлайн-трансляция
👉 ПРОГРАММА 👈
До встречи на Data.Meetup 2024!
С уважением,
Команда DWH/BigData 💚
🔥11
Всем привет!
Выложены записи и презентации докладов митапа DataMeetup! https://developers.sber.ru/kak-v-sbere/events/data_meetup_october
Если у вас остались вопросы по работе Trino, Flink в Сбере, можете обращаться к @Slider_Ivan.
Благодарим вас за участие!
Выложены записи и презентации докладов митапа DataMeetup! https://developers.sber.ru/kak-v-sbere/events/data_meetup_october
Если у вас остались вопросы по работе Trino, Flink в Сбере, можете обращаться к @Slider_Ivan.
Благодарим вас за участие!
developers.sber.ru
DATA.Meetup 2024
Митап о технологиях, инструментах и нюансах управления данными больших компаний
🔥7👏2❤1
Обещанного три года ждут. Мы выпустили первую версию CedrusData Catalog — технического каталога для аналитических платформ. Поддержка Iceberg REST API, файловых систем S3 и HDFS. Безопасность и мониторинг. Начало работы и инуструкции по интеграции с популярными движками: https://docs.cedrusdata.ru/catalog/latest/index.html. Рассказываем подробнее о продукте в нашем блоге: https://www.cedrusdata.ru/blog/cedrusdata-catalog-novyy-tehnicheskiy-katalog-s-podderzhkoy-iceberg-rest-api
www.cedrusdata.ru
CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API | CedrusData
CedrusData Catalog — новый технический каталог с поддержкой спецификации Iceberg REST API
🔥18👍8😍5
11 декабря с 13:00 до 19:00 в Москве в кластере Ломоносов пройдет пятый митап "Database Internals Meetup". Будем говорить про внутреннее устройство CedrusData, YDB, Picodata, Tarantool и openGauss. По CedrusData будет затронута тема автоматического переписывания запросов на материализованные представления. Подробное описание программы: https://databaseinternals.timepad.ru/event/3132404/
Митап будет частью крупной конференции ИСП РАН, так что кроме баз данных можно будет послушать доклады про механику сплошных сред 🤓, лингвистические системы анализа 🤓, и многое другое. Участие в митапе и конференции бесплатное, но необходимо обязательно пройти регистрацию до 7 декабря на сайте ИСП РАН: https://www.isprasopen.ru/#Registration
Будем рады вас увидеть!
Митап будет частью крупной конференции ИСП РАН, так что кроме баз данных можно будет послушать доклады про механику сплошных сред 🤓, лингвистические системы анализа 🤓, и многое другое. Участие в митапе и конференции бесплатное, но необходимо обязательно пройти регистрацию до 7 декабря на сайте ИСП РАН: https://www.isprasopen.ru/#Registration
Будем рады вас увидеть!
databaseinternals.timepad.ru
Database Internals Meetup #5 (офлайн + онлайн): 5 докладов на конференции ISPRAS Open / События на TimePad.ru
Пятый митап российского сообщества разработчиков СУБД и распределенных систем. Доклады от основателей и ведущих разработчиков YDB, Picodata, Tarantool, openGauss и CedrusData
🔥2
Всем привет! Начинается большая секция Database Internals. 5 докладов от ведущих российских разработчиков СУБД.
В 17:30 будет доклад от разработчиков CedrusData об интеграции автоматического переписывания запросов на материализованные представления в оптимизатор Trino.
В 16:30 будет круглый стол по модульным оптимизаторам. В том числе будут затронуты некоторые аспекты текущих дискуссий в сообществе Apache Iceberg о реализации cross-engine views (напр., записали из Trino, прочитали в Spark), и проблем современных оптимизаторов (например, почему Cloudera пытается переписать с нуля оптимизатор Impala).
Трансляция доступна по ссылке: https://vk.com/video-226977842_456239020
В 17:30 будет доклад от разработчиков CedrusData об интеграции автоматического переписывания запросов на материализованные представления в оптимизатор Trino.
В 16:30 будет круглый стол по модульным оптимизаторам. В том числе будут затронуты некоторые аспекты текущих дискуссий в сообществе Apache Iceberg о реализации cross-engine views (напр., записали из Trino, прочитали в Spark), и проблем современных оптимизаторов (например, почему Cloudera пытается переписать с нуля оптимизатор Impala).
Трансляция доступна по ссылке: https://vk.com/video-226977842_456239020
VK Видео
Database Internals Meetup #5: пять докладов на секции СУБД конференции ISPRAS Open
Приглашаем вас на пятый митап сообщества Database Internals. В программе пять докладов от основателей и разработчиков YDB, Picodata, Tarantool, openGauss и CedrusData. Мероприятие пройдёт в формате секции "Системы Управления Базами Данных" на конференции…
🔥9👍1
Всем привет. Мы рады представить релиз CedrusData 458-2! Рассказываем о ключевых изменениях.
Веб-интерфейс:
- Администраторы теперь могут управлять политиками доступа из UI
Оптимизатор:
- Новый современный cost-based алгоритм планирования порядка JOIN, который анализирует больше альтернативных планов и делает это значительно быстрее оригинального алгоритма Trino
- Улучшенный расчет статистик для фильтров, агрегатов, window-функций и JOIN. До этого оптимизатор использовал оригинальную стратегию расчета статистик Trino, в которой выбор оптимального порядка JOIN часто не происходит из-за невозможности расчета статистик данных операторов
- Добавили оптимизацию, которая упрощает OUTER JOIN на INNER JOIN в некоторых случаях. В следующем релизе оптимизация будет доработана, чтобы упрощать OUTER JOIN во всех возможных случаях
Материализованные представления:
- Добавили возможность автоматического переписывания запросов на материализованные представления, содержащие JOIN
- Добавили возможность автоматического переписывания запросов на материализованные представления, содержащие агрегаты с ROLL UP и CUBE. Совместно с поддержкой JOIN, это позволяет материализовать кубы, полученные путем объединения таблицы фактов и нескольких измерений, и использовать эти предрассчитанные агрегации в широком спектре пользовательских запросов
Iceberg:
- Добавили поддержку predicate pushdown / data skipping на уровне страниц Parquet. Пользователи могут ожидать снижение количества зачитываемых из S3/HDFS данных для ряда запросов
- Добавили поддержку материализованных представлений в CedrusData Catalog. На данный момент это единственный промышленный каталог для Iceberg, отличный от Hive Metastore, который поддерживает материализованные представления
ClickHouse:
- Добавлена возможность pushdown сложных вычислений и множества различных скалярных и агрегатных функций. Пользователи могут ожидать существенное ускорение запросов к ClickHouse для широкого набора сценариев
Release notes: https://docs.cedrusdata.ru/latest/release/release-458-2.html, https://docs.cedrusdata.ru/catalog/458-2/release/release-458-2.html
Веб-интерфейс:
- Администраторы теперь могут управлять политиками доступа из UI
Оптимизатор:
- Новый современный cost-based алгоритм планирования порядка JOIN, который анализирует больше альтернативных планов и делает это значительно быстрее оригинального алгоритма Trino
- Улучшенный расчет статистик для фильтров, агрегатов, window-функций и JOIN. До этого оптимизатор использовал оригинальную стратегию расчета статистик Trino, в которой выбор оптимального порядка JOIN часто не происходит из-за невозможности расчета статистик данных операторов
- Добавили оптимизацию, которая упрощает OUTER JOIN на INNER JOIN в некоторых случаях. В следующем релизе оптимизация будет доработана, чтобы упрощать OUTER JOIN во всех возможных случаях
Материализованные представления:
- Добавили возможность автоматического переписывания запросов на материализованные представления, содержащие JOIN
- Добавили возможность автоматического переписывания запросов на материализованные представления, содержащие агрегаты с ROLL UP и CUBE. Совместно с поддержкой JOIN, это позволяет материализовать кубы, полученные путем объединения таблицы фактов и нескольких измерений, и использовать эти предрассчитанные агрегации в широком спектре пользовательских запросов
Iceberg:
- Добавили поддержку predicate pushdown / data skipping на уровне страниц Parquet. Пользователи могут ожидать снижение количества зачитываемых из S3/HDFS данных для ряда запросов
- Добавили поддержку материализованных представлений в CedrusData Catalog. На данный момент это единственный промышленный каталог для Iceberg, отличный от Hive Metastore, который поддерживает материализованные представления
ClickHouse:
- Добавлена возможность pushdown сложных вычислений и множества различных скалярных и агрегатных функций. Пользователи могут ожидать существенное ускорение запросов к ClickHouse для широкого набора сценариев
Release notes: https://docs.cedrusdata.ru/latest/release/release-458-2.html, https://docs.cedrusdata.ru/catalog/458-2/release/release-458-2.html
🔥21❤🔥3👍1
Всем привет! 24 апреля в Москве пройдет Lakehouse Meetup — первое мероприятие, посвященное использованию современных технологий анализа больших данных. Мы откроем регистрацию немного позже, а этим сообщением мы хотим предложить вам стать спикером мероприятия!
Мы приглашаем выступить на митапе инженеров и архитекторов, работающих с технологиями Apache Iceberg и Trino. Наиболее актуальны темы, связанные с реальной эксплуатацией данных продуктов, а также миграцией с классического стека.
Вы можете подать заявку на выступление, заполнив короткую форму: https://docs.google.com/forms/d/e/1FAIpQLSdznG_KYWRemAe9N92pY7eS6t_SFx3NFsbJ6MAMlXD_EFtZAw/viewform?usp=header
Пятиминутка мотивации:
- Если вы хотите выступить, но вам не подходят даты или вы не можете присутствовать в Москве, подавайте заявку 🙂 Мы планируем серию мероприятий, в том числе онлайн, поэтому у вас будет возможность выступить в другой раз
- Если вы хотите выступить, но сомневаетесь в том, что ваш кейс будет интересен ("слишком мало данных", "еще не все отшлифовали" и т.п.), подавайте заявку 🙂 Если вы уже набили шишки или сделали интересные для себя выводы, про это точно будет интересно послушать
Будем рады увидеть вас в качестве спикера митапа!
Мероприятие организуют компании Кверифай Лабс (вендор CedrusData) и Лемана Тех (ex-Леруа Мерлен). Митап пройдет в гибридном формате.
Мы приглашаем выступить на митапе инженеров и архитекторов, работающих с технологиями Apache Iceberg и Trino. Наиболее актуальны темы, связанные с реальной эксплуатацией данных продуктов, а также миграцией с классического стека.
Вы можете подать заявку на выступление, заполнив короткую форму: https://docs.google.com/forms/d/e/1FAIpQLSdznG_KYWRemAe9N92pY7eS6t_SFx3NFsbJ6MAMlXD_EFtZAw/viewform?usp=header
Пятиминутка мотивации:
- Если вы хотите выступить, но вам не подходят даты или вы не можете присутствовать в Москве, подавайте заявку 🙂 Мы планируем серию мероприятий, в том числе онлайн, поэтому у вас будет возможность выступить в другой раз
- Если вы хотите выступить, но сомневаетесь в том, что ваш кейс будет интересен ("слишком мало данных", "еще не все отшлифовали" и т.п.), подавайте заявку 🙂 Если вы уже набили шишки или сделали интересные для себя выводы, про это точно будет интересно послушать
Будем рады увидеть вас в качестве спикера митапа!
Мероприятие организуют компании Кверифай Лабс (вендор CedrusData) и Лемана Тех (ex-Леруа Мерлен). Митап пройдет в гибридном формате.
Google Docs
Lakehouse Meetup: заявка на доклад
Рассматриваемые темы докладов:
Опыт использования и внедрения Apache Iceberg и его каталогов
Опыт использования и внедрения Trino и связанных технологий
Опыт использования и внедрения Apache Iceberg и его каталогов
Опыт использования и внедрения Trino и связанных технологий
❤🔥6👍5🔥3
Всем привет. Мы рады представить минорный релиз CedrusData 458-3! Ключевые изменения:
Коннектор Iceberg:
- Добавлена поддержка запуска CedrusData Catalog в embedded режиме. Теперь вы можете запускать координатор CedrusData и CedrusData Catalog как единый сервис, уменьшая количество компонентов в lakehouse, и повышая производительность запросов к данным Iceberg
- Добавлена поддержка локальной файловой системы. Совместно с поддержкой embedded CedrusData Catalog, вы теперь можете развернуть тестовый лейкхауз с поддержкой Iceberg в буквальном смысле одной командой: https://docs.cedrusdata.ru/458-3/guide/data-lakes-cedrusdata-catalog-embedded.html
Коннектор ClickHouse:
- Добавлена поддержка pushdown дополнительных функций работы с датами и строками. Теперь популярные запросы вида
CedrusData Catalog:
- Добавлена поддержка создания и удаления ролей. Правда, есть нюанс — им нельзя присваивать привилегии 😄. Поддержка привилегий — последний шаг к реализации промышленного RBAC в каталоге, который будет доступен в следующем релизе
Release notes:
- CedrusData: https://docs.cedrusdata.ru/458-3/release/release-458-3.html
- CedrusData Catalog: https://docs.cedrusdata.ru/catalog/458-3/release/release-458-3.html
Коннектор Iceberg:
- Добавлена поддержка запуска CedrusData Catalog в embedded режиме. Теперь вы можете запускать координатор CedrusData и CedrusData Catalog как единый сервис, уменьшая количество компонентов в lakehouse, и повышая производительность запросов к данным Iceberg
- Добавлена поддержка локальной файловой системы. Совместно с поддержкой embedded CedrusData Catalog, вы теперь можете развернуть тестовый лейкхауз с поддержкой Iceberg в буквальном смысле одной командой: https://docs.cedrusdata.ru/458-3/guide/data-lakes-cedrusdata-catalog-embedded.html
Коннектор ClickHouse:
- Добавлена поддержка pushdown дополнительных функций работы с датами и строками. Теперь популярные запросы вида
SELECT year(date), ... FROM sales GROUP BY year(date) будут работать многократно быстрее за счет полного pushdownCedrusData Catalog:
- Добавлена поддержка создания и удаления ролей. Правда, есть нюанс — им нельзя присваивать привилегии 😄. Поддержка привилегий — последний шаг к реализации промышленного RBAC в каталоге, который будет доступен в следующем релизе
Release notes:
- CedrusData: https://docs.cedrusdata.ru/458-3/release/release-458-3.html
- CedrusData Catalog: https://docs.cedrusdata.ru/catalog/458-3/release/release-458-3.html
🔥2❤1
Всем привет. Мы рады представить минорный релиз CedrusData 458-4! Ключевые изменения:
Общее:
- Добавлена поддержка автоматического переписывания запросов на материализованные представления при несовпадении ключей группировки. Данная оптимизация будет особенно полезна для ускорения запросов из BI-инструментов. Например, вы можете материализовать агрегат по колонкам
Коннектор Iceberg:
- Ускорена работа с CedrusData Catalog за счет кэширования метаданных схем и таблиц на время выполнения запроса
Коннектор ClickHouse:
- Добавлена поддержка pushdown типа данных
- CedrusData: https://docs.cedrusdata.ru/458-4/release/release-458-4.html
- CedrusData Catalog: https://docs.cedrusdata.ru/catalog/458-4/release/release-458-4.html
Общее:
- Добавлена поддержка автоматического переписывания запросов на материализованные представления при несовпадении ключей группировки. Данная оптимизация будет особенно полезна для ускорения запросов из BI-инструментов. Например, вы можете материализовать агрегат по колонкам
(a,b,c), и движок сможет его использовать при вычислении более общих агрегатов по любым комбинациям данных колонок: (a), (b), (c), (a,b), (b,c), (a,c). Ранее данный функционал поддерживался только при условии, что вы создали материализованное представление с дополнительными grouping set (например, с помощью ключевых слов ROLLUP, CUBE). Попробовать в действии можно на локальном компьютере с помощью нескольких команд: https://docs.cedrusdata.ru/458-4/cedrusdata-performance/mv-rewrite.htmlКоннектор Iceberg:
- Ускорена работа с CedrusData Catalog за счет кэширования метаданных схем и таблиц на время выполнения запроса
Коннектор ClickHouse:
- Добавлена поддержка pushdown типа данных
TIMESTAMP WITH TIME ZONE
Release notes: - CedrusData: https://docs.cedrusdata.ru/458-4/release/release-458-4.html
- CedrusData Catalog: https://docs.cedrusdata.ru/catalog/458-4/release/release-458-4.html
🔥5😱2🤯1🐳1🦄1
Всем привет. Мы рады представить минорный релиз CedrusData 458-6! Ключевые изменения:
Общее:
- Добавлена поддержка материализованных CTE (common table expressions). Теперь вы можете материализовывать произвольные подзапросы в Iceberg, чтобы избавиться от повторяющихся вычислений, а также для выполнения тяжелых расчетов, которые в противном случае потребляли бы слишком большое количество памяти. Материализацию можно задавать явно с помощью синтаксиса
- Добавлена поддержка aggregation-join pushdown (бэкпорт из Trino)
Коннектор Iceberg:
- Добавлена возможность задавать identifier fieds в качестве свойства таблицы
CedrusData Catalog:
- Добавлена возможность длительного хранения и автоматического удаления материализованных CTE для их переиспользования между запросами. Таким образом CTE, материализованный одним запросом, может быть использован для ускорения последующих. Пользователи связки CedrusData + CedrusData Catalog могут ожидать многократного ускорения тяжелых запросов с повторяющимися CTE. Данный механизм может быть использован как высокопроизводительная альтернатива FTE в ванильном Trino
Материализация CTE в файлах Iceberg обеспечивает масштабируемость решения. Для сравнения, другие продукты (например, Presto, StarRocks, вскоре - ванильный Trino) позволяют переиспользовать только небольшие подпланы и хранят их в памяти, что значительно ограничивает применимость данных оптимизаций.
Пример влияния материализованных CTE для TPC-DS запроса № 47, scale factor 1000, на облачном тестовом стенде:
- Без материализации: 39 сек, прочитано 18 Gb данных
- C материализацией: 14 сек, прочитано 6 Gb данных
- С материализацией и переиспользованием: 1 сек, прочитано 0.05 Gb данных
Release notes:
- CedrusData: https://docs.cedrusdata.ru/458-6/release/release-458-6.html
- CedrusData Catalog: https://docs.cedrusdata.ru/catalog/458-6/release/release-458-6.html
Общее:
- Добавлена поддержка материализованных CTE (common table expressions). Теперь вы можете материализовывать произвольные подзапросы в Iceberg, чтобы избавиться от повторяющихся вычислений, а также для выполнения тяжелых расчетов, которые в противном случае потребляли бы слишком большое количество памяти. Материализацию можно задавать явно с помощью синтаксиса
WITH <имя_cte> MATERIALIZED AS ... или автоматически с помощью эвристического планировщика. Технически функционал схож с аналогичными решениями в Greenplum, Presto и PostgreSQL- Добавлена поддержка aggregation-join pushdown (бэкпорт из Trino)
Коннектор Iceberg:
- Добавлена возможность задавать identifier fieds в качестве свойства таблицы
CedrusData Catalog:
- Добавлена возможность длительного хранения и автоматического удаления материализованных CTE для их переиспользования между запросами. Таким образом CTE, материализованный одним запросом, может быть использован для ускорения последующих. Пользователи связки CedrusData + CedrusData Catalog могут ожидать многократного ускорения тяжелых запросов с повторяющимися CTE. Данный механизм может быть использован как высокопроизводительная альтернатива FTE в ванильном Trino
Материализация CTE в файлах Iceberg обеспечивает масштабируемость решения. Для сравнения, другие продукты (например, Presto, StarRocks, вскоре - ванильный Trino) позволяют переиспользовать только небольшие подпланы и хранят их в памяти, что значительно ограничивает применимость данных оптимизаций.
Пример влияния материализованных CTE для TPC-DS запроса № 47, scale factor 1000, на облачном тестовом стенде:
- Без материализации: 39 сек, прочитано 18 Gb данных
- C материализацией: 14 сек, прочитано 6 Gb данных
- С материализацией и переиспользованием: 1 сек, прочитано 0.05 Gb данных
Release notes:
- CedrusData: https://docs.cedrusdata.ru/458-6/release/release-458-6.html
- CedrusData Catalog: https://docs.cedrusdata.ru/catalog/458-6/release/release-458-6.html
🔥8👍2❤🔥1
Всем привет! 24 апреля в Москве в офисе Лемана Тех пройдет очередной митап по технологиям Trino и Apache Iceberg! Также будет доступна онлайн-трансляция.
В программе:
- Доклад от Лемана Тех про миграцию на Trino
- Доклад от Азбуки Вкуса про использование каталога Nessie
- Круглый стол про проблемы внедрения lakehouse с инженерами T-Банк, S7 Airlines, Лемана Тех и Кверифай Лабс
Регистрация по ссылке: https://cedrusdata.timepad.ru/event/3299844/
В программе:
- Доклад от Лемана Тех про миграцию на Trino
- Доклад от Азбуки Вкуса про использование каталога Nessie
- Круглый стол про проблемы внедрения lakehouse с инженерами T-Банк, S7 Airlines, Лемана Тех и Кверифай Лабс
Регистрация по ссылке: https://cedrusdata.timepad.ru/event/3299844/
cedrusdata.timepad.ru
Lakehouse Meetup #3: внедрение Trino в Лемана Тех, опыт работы с Nessie в Азбуке Вкуса, круглый стол о проблемах lakehouse / События…
Рассмотрим реальный опыт внедрения современных технологий анализа данных: реализация lakehouse на Trino в Лемана Тех, использование Nessie в Азбуке Вкуса. После этого обсудим за круглым столом насущные проблемы lakehouse с инженерами Лемана Тех, S7 Airlines…
🔥13👍1🤯1
Всем привет. Мы рады представить минорный релиз CedrusData 458-8, основной задачей которого было нарастить возможности pushdown некоторых востребованных функций в коннекторах ClickHouse и Greenplum. Изменения (совместно с предыдущей версией 458-7):
Общее:
- Увеличена версия Apache Parquet до 1.15.1 (предотвращение критической уязвимости CVE-2025-30065)
Коннектор ClickHouse:
- Добавлена возможность pushdown строковых функций
- Добавлена возможность pushdown строковых функций
- Добавлена возможность передачи статических ключей S3 в CedrusData Catalog через механизм extra credentials
Коннектор Kafka:
- Добавлена возможность разрешения конфликтов, когда ключ и сообщение топика имеют поля с одинаковыми именами
Release notes:
- CedrusData: https://docs.cedrusdata.ru/458-8/release/release-458-8.html
Общее:
- Увеличена версия Apache Parquet до 1.15.1 (предотвращение критической уязвимости CVE-2025-30065)
Коннектор ClickHouse:
- Добавлена возможность pushdown строковых функций
trim, ltrim, rtrim, strpos, position
Коннектор Greenplum:- Добавлена возможность pushdown строковых функций
trim, ltrim, rtrim, strpos, position, starts_with
- Добавлена возможность pushdown математических функций abs, sign, sqrt, cbrt, degrees, radians, exp, ln, log2, log10
Коннектор Iceberg:- Добавлена возможность передачи статических ключей S3 в CedrusData Catalog через механизм extra credentials
Коннектор Kafka:
- Добавлена возможность разрешения конфликтов, когда ключ и сообщение топика имеют поля с одинаковыми именами
Release notes:
- CedrusData: https://docs.cedrusdata.ru/458-8/release/release-458-8.html
🔥4👍2
Всем привет. Мы рады представить минорный релиз CedrusData 458-9: улучшения алгоритма планирования порядка Join, инфраструктура для table maintenance в Iceberg, авторизация в Apache Ranger через политики Hive, статистики ClickHouse, расширенный pushdown в Greenplum и ClickHouse.
Общее:
- Улучшен алгоритм планирования порядка Join. Теперь CedrusData выбирает предельный размер графа Join для cost-based планирования динамически на основе оценки сложности графа. Пользователи могут ожидать улучшение планов сложных запросов, которые до этого оптимизатору приходилось планировать путем разбиения на независимые подграфы
- Улучшен алгоритм упрощения
Коннекторы Hive и Iceberg:
- Добавлена возможность авторизации через политики Hive в Apache Ranger. Теперь вы можете переиспользовать существующие политики Hive в Apache Ranger для авторизации действий пользователей CedrusData без установки дополнительных плагинов в Apache Ranger
Коннектор ClickHouse:
- Добавлена поддержка статистик. Теперь оптимизатор может выбирать оптимальный порядок Join при выполнении федеративных запросов к ClickHouse
- Добавлена возможность pushdown строковых функций
- Добавлена возможность pushdown математических функций
- Подготовлена инфраструктура для автоматического maintenance таблиц Iceberg. В следующей версии мы опубликуем официальный API для maintenance
Release notes:
- CedrusData: https://docs.cedrusdata.ru/458-9/release/release-458-9.html
- CedrusData Catalog: https://docs.cedrusdata.ru/catalog/458-9/release/release-458-9.html
Общее:
- Улучшен алгоритм планирования порядка Join. Теперь CedrusData выбирает предельный размер графа Join для cost-based планирования динамически на основе оценки сложности графа. Пользователи могут ожидать улучшение планов сложных запросов, которые до этого оптимизатору приходилось планировать путем разбиения на независимые подграфы
- Улучшен алгоритм упрощения
OUTER JOIN. Теперь CedrusData заменяет FULL OUTER JOIN на LEFT/RIGHT OUTER JOIN и далее на INNER JOIN для более широкого спектра запросовКоннекторы Hive и Iceberg:
- Добавлена возможность авторизации через политики Hive в Apache Ranger. Теперь вы можете переиспользовать существующие политики Hive в Apache Ranger для авторизации действий пользователей CedrusData без установки дополнительных плагинов в Apache Ranger
Коннектор ClickHouse:
- Добавлена поддержка статистик. Теперь оптимизатор может выбирать оптимальный порядок Join при выполнении федеративных запросов к ClickHouse
- Добавлена возможность pushdown строковых функций
concat, length, reverse, replace, translate и lpad/rpad
- Добавлена возможность pushdown математических функций abs, sign, sqrt, cbrt, pow, degrees, radians, exp, ln, log2, log10, ceiling, floor, round и truncate
Коннектор Greenplum:- Добавлена возможность pushdown математических функций
ceiling, floor, round и truncate
CedrusData Catalog: - Подготовлена инфраструктура для автоматического maintenance таблиц Iceberg. В следующей версии мы опубликуем официальный API для maintenance
Release notes:
- CedrusData: https://docs.cedrusdata.ru/458-9/release/release-458-9.html
- CedrusData Catalog: https://docs.cedrusdata.ru/catalog/458-9/release/release-458-9.html
🔥12
Трансляция Lakehouse митапа в Лемана Про:
- YouTube: https://www.youtube.com/live/r70FGQWdEvc
- VK: https://vk.com/video-230133731_456239017
- YouTube: https://www.youtube.com/live/r70FGQWdEvc
- VK: https://vk.com/video-230133731_456239017
Youtube
- YouTube
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
🔥16
Всем привет. Мы рады представить релиз CedrusData 458-10: продвинутый time-travel в Iceberg, поддержка maintenance операций и разграничений доступа к объектам в CedrusData Catalog
Коннектор Iceberg:
- ❗️Добавлена поддержка продвинутого time travel при работе с CedrusData Catalog. Теперь вы можете задать единую метку времени в параметре сессии, которая будет использована всеми таблицами в запросе. Таким образом вы получаете возможность работы с предыдущими состояниями таблиц Iceberg без необходимости переписывания запросов и перезапуска продукта
- Добавлена поддержка Kerberos при авторизации через Apache Ranger
Коннектор Hive:
- Добавлена поддержка Kerberos при авторизации через Apache Ranger
CedrusData Catalog:
- ❗️Добавлена поддержка maintenance операций над таблицами Iceberg. Пользователи CedrusData Catalog теперь могут выполнять операции
- ❗️Добавлена поддержка продвинутого time travel. При работе из CedrusData, Apache Spark, Apache Flink и ряда других продуктов вы теперь можете задавать единую метку времени, которая будет использована для выбора целевого состояния таблиц и представлений Iceberg во всех запросах. Пользователи данных движков получают удобный способ работы с предыдущими состояниями объектов без необходимости переписывания запросов и задания меток времени для индивидуальных таблиц. В первой версии поддерживаются только операции
- Добавлена поддержка разграничений доступа к объектам на основе того, кто является их владельцем (aka DAC - Discretionary Access Control). Это финальный шаг перед внедрением промышленного RBAC, появление которого мы ожидаем в конце июня
Release notes:
- CedrusData: https://docs.cedrusdata.ru/458-10/release/release-458-10.html
- CedrusData Catalog: https://docs.cedrusdata.ru/catalog/458-10/release/release-458-10.html
Коннектор Iceberg:
- ❗️Добавлена поддержка продвинутого time travel при работе с CedrusData Catalog. Теперь вы можете задать единую метку времени в параметре сессии, которая будет использована всеми таблицами в запросе. Таким образом вы получаете возможность работы с предыдущими состояниями таблиц Iceberg без необходимости переписывания запросов и перезапуска продукта
- Добавлена поддержка Kerberos при авторизации через Apache Ranger
Коннектор Hive:
- Добавлена поддержка Kerberos при авторизации через Apache Ranger
CedrusData Catalog:
- ❗️Добавлена поддержка maintenance операций над таблицами Iceberg. Пользователи CedrusData Catalog теперь могут выполнять операции
expire-snapshots и remove-orphan-files над индивидуальными объектами или группами объектов. В следующей версии будет добавлена поддержка запуска maintenance операций по расписанию- ❗️Добавлена поддержка продвинутого time travel. При работе из CedrusData, Apache Spark, Apache Flink и ряда других продуктов вы теперь можете задавать единую метку времени, которая будет использована для выбора целевого состояния таблиц и представлений Iceberg во всех запросах. Пользователи данных движков получают удобный способ работы с предыдущими состояниями объектов без необходимости переписывания запросов и задания меток времени для индивидуальных таблиц. В первой версии поддерживаются только операции
SELECT, в июньской версии будет добавлена поддержка DML и DDL операций, что позволит заместить аналогичный функционал Nessie более легковесным и удобным решением- Добавлена поддержка разграничений доступа к объектам на основе того, кто является их владельцем (aka DAC - Discretionary Access Control). Это финальный шаг перед внедрением промышленного RBAC, появление которого мы ожидаем в конце июня
Release notes:
- CedrusData: https://docs.cedrusdata.ru/458-10/release/release-458-10.html
- CedrusData Catalog: https://docs.cedrusdata.ru/catalog/458-10/release/release-458-10.html
🔥7👍6
Всем привет. Коллеги из Лемана Тех опубликовали на Хабре статью по мотивам прошедшего lakehouse-митапа: https://habr.com/ru/companies/lemana_tech/articles/909542/
Хабр
Заметки и материалы по итогам Lakehouse Meetup #3
Lakehouse – это не просто модное слово. Это попытка объединить лучшее из data lake и data warehouse, дешевое хранение S3, гибкость open source и производительность DWH. На третьем митапе,...
👍5🔥4
Всем привет! В следующий четверг 26 июня мы проведем очередной онлайн-митап по lakehouse технологиям. В программе два доклада:
Trino в Авито спустя два года: от движка к аналитической экосистеме, Дмитрий Рейман, Авито
Как Авито построил lakehouse-платформу на основе Trino, которая обрабатывает до 1 ПБ данных в день и обслуживает 300 пользователей
CedrusData Catalog — Современный каталог для lakehouse-платформ, Владимир Озеров, Кверифай Лабс
Архитектура и возможности CedrusData Catalog — бесплатного каталога Iceberg для российского рынка. Ролевая модель доступа, обслуживание таблиц Iceberg, time-travel, ускорение аналитических запросов.
Регистрация: https://cedrusdata.timepad.ru/event/3426242/
Trino в Авито спустя два года: от движка к аналитической экосистеме, Дмитрий Рейман, Авито
Как Авито построил lakehouse-платформу на основе Trino, которая обрабатывает до 1 ПБ данных в день и обслуживает 300 пользователей
CedrusData Catalog — Современный каталог для lakehouse-платформ, Владимир Озеров, Кверифай Лабс
Архитектура и возможности CedrusData Catalog — бесплатного каталога Iceberg для российского рынка. Ролевая модель доступа, обслуживание таблиц Iceberg, time-travel, ускорение аналитических запросов.
Регистрация: https://cedrusdata.timepad.ru/event/3426242/
cedrusdata.timepad.ru
Lakehouse Meetup #4: аналитическая экосистема на основе Trino в Avito, архитектура и возможности CedrusData Catalog / События на…
Обсудим, как за последние два года Avito выстроил аналитическую экосистему вокруг Trino, и рассмотрим внутреннее устройство и возможности CedrusData Catalog — современного бесплатного каталога для lakehouse-платформ.
Митап организован компанией Querify Labs…
Митап организован компанией Querify Labs…
👍16
Всем привет. Мы рады представить релиз CedrusData 458-12. Последние два месяца мы были сосредотоены на новом функционале каталога: ролевая модель доступа к объектам Iceberg, запуск maintenance операций Iceberg по расписанию, web-интерфейс CedrusData Catalog
Iceberg:
- ❗️Добавлена ролевая модель доступа к объектам Iceberg. Пользователи CedrusData Catalog теперь могут задавать права доступа, которые будут универсально применены ко всем движкам, работающим с данными Iceberg. Решение позволяет избавиться от необходимости использования сторонних решений для управления доступом
- ❗️Добавлена поддержка запуска maintenance операций по расписанию. Теперь вы можете задать cron выражение, после чего CedrusData Catalog начнет периодически обслуживать объекты Iceberg без необходимости использования внешних оркестраторов
- ❗️CedrusData Catalog получил новый современный web-интерфейс
SQL Server:
- Добавлена поддержка pushdown типа данных UNIQUEIDENTIFIER
Release notes:
- CedrusData: https://docs.cedrusdata.ru/458-12/release/release-458-12.html
- CedrusData Catalog: https://docs.cedrusdata.ru/catalog/458-12/release/release-458-12.html
Iceberg:
- ❗️Добавлена ролевая модель доступа к объектам Iceberg. Пользователи CedrusData Catalog теперь могут задавать права доступа, которые будут универсально применены ко всем движкам, работающим с данными Iceberg. Решение позволяет избавиться от необходимости использования сторонних решений для управления доступом
- ❗️Добавлена поддержка запуска maintenance операций по расписанию. Теперь вы можете задать cron выражение, после чего CedrusData Catalog начнет периодически обслуживать объекты Iceberg без необходимости использования внешних оркестраторов
- ❗️CedrusData Catalog получил новый современный web-интерфейс
SQL Server:
- Добавлена поддержка pushdown типа данных UNIQUEIDENTIFIER
Release notes:
- CedrusData: https://docs.cedrusdata.ru/458-12/release/release-458-12.html
- CedrusData Catalog: https://docs.cedrusdata.ru/catalog/458-12/release/release-458-12.html
👍13👌1
Всем привет!👋
Делимся записью прошедшего Lakehouse Meetup, где эксперты из Авито и CedrusData обсудили, как Trino и Apache Iceberg масштабируются в российских компаниях.
🔹Рассказываем, как в Авито построили экосистему вокруг Trino, которая обрабатывает до 1 ПБ данных в день и обслуживает 300 пользователей.
🔹Представляем CedrusData Catalog — бесплатное решение для управления метаданными в Apache Iceberg, которое уже сейчас решает ключевые задачи и имеет грандиозные планы на развитие.
📣 Хотите поделиться своим опытом или кейсом? Расскажите о нем, заполнив форму докладчика. Давайте создавать крутые митапы вместе!
Делимся записью прошедшего Lakehouse Meetup, где эксперты из Авито и CedrusData обсудили, как Trino и Apache Iceberg масштабируются в российских компаниях.
🔹Рассказываем, как в Авито построили экосистему вокруг Trino, которая обрабатывает до 1 ПБ данных в день и обслуживает 300 пользователей.
🔹Представляем CedrusData Catalog — бесплатное решение для управления метаданными в Apache Iceberg, которое уже сейчас решает ключевые задачи и имеет грандиозные планы на развитие.
Please open Telegram to view this post
VIEW IN TELEGRAM
CedrusData | Российская lakehouse-платформа
Trino в Авито. Возможности CedrusData Catalog | Lakehouse Meetup
Митап о практическом опыте развития Lakehouse как системы, а также о кейсах внедрения Trino и Iceberg в России
❤4👍1
Новый митап по Lakehouse уже в работе!
Ищем тех, кто готов рассказать про свой опыт использования Trino и Iceberg. Напишите о своем кейсе здесь.
Кстати, поддержать развитие канала и чата могут подписчики с Telegram Premium, отдав свой голос за нас.
Ждем вашей поддержки 🙏
Ищем тех, кто готов рассказать про свой опыт использования Trino и Iceberg. Напишите о своем кейсе здесь.
Кстати, поддержать развитие канала и чата могут подписчики с Telegram Premium, отдав свой голос за нас.
Ждем вашей поддержки 🙏
Google Docs
Lakehouse Meetup: заявка на доклад
Рассматриваемые темы докладов:
Опыт использования и внедрения Apache Iceberg и его каталогов
Опыт использования и внедрения Trino и связанных технологий
Опыт использования и внедрения Apache Iceberg и его каталогов
Опыт использования и внедрения Trino и связанных технологий
🥰2
23 сентября в Москве пройдет Data Internals X 2025 — конференция, где создатели СУБД и движков обработки данных делятся опытом работы с реальными production-системами экстремального масштаба.
🤩 Приглашаем всех участников к нам на стенд!
✅ Обсудим архитектурные решения и поделиться опытом.
✅ Ответим на вопросы, которые не гуглятся.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1🔥1