Forwarded from Dmitry
Ivan Solyakin
Лёша, ты забыл про Trino... А сценарии с ним выглядят очень привлекательно. Охлаждение данных в Greenplum, возможно, весь слой сырых данных - это паркет, а где паркет, там трино...
Трино пушка, но конфигурация это боль
Forwarded from Ivan Solyakin
Data Engineering / reposts & drafts
Трино пушка, но конфигурация это боль
Vk cloud запустили managed сервис. Так что это их боль)))
Forwarded from Dmitry
Ivan Solyakin
Vk cloud запустили managed сервис. Так что это их боль)))
Я думал про kuber + open source Trino)) Managed конечно пушка, вообще считаю это самый лучший вариант сейчас для отечественной аналитики
Forwarded from Инжиниринг Данных (Dmitry)
Классная история про Clickhouse - The Fast and the Furious: How ClickHouse, the World’s Fastest Open-Source Database, is Creating the First Real-Time Data Warehouse
Index Ventures
The Fast and the Furious: How... | Index Ventures
A Company is Born In the spring of 2021, Aaron Katz was thinking about what to do next. He had just spent six years as CRO at Elastic, helping the...
Forwarded from 5 minutes of data
Fundamentals of data engineering
Если ещё не читали эту книгу, то Redpanda выложили ее в открытый доступ.
Если ещё не читали эту книгу, то Redpanda выложили ее в открытый доступ.
Redpanda позиционирует себя, как полная замена Apache Kafka, в 10 раз быстрее и обеспечивает 6-кратную экономию относительно Kafka.
Data Engineering / reposts & drafts
https://t.iss.one/dataexplorers/351 #dbt
Telegram
Data Explorers Hub
Не всем компаниям нужен DBT
Интересное обсуждение на Reddit о том, нужен ли вашей компании DBT или его внедрение - это просто следование трендам.
1. With dbt you will move fast
Если вы не следуюете DBT way в работе, то ваша команда может двигаться медленее.…
Интересное обсуждение на Reddit о том, нужен ли вашей компании DBT или его внедрение - это просто следование трендам.
1. With dbt you will move fast
Если вы не следуюете DBT way в работе, то ваша команда может двигаться медленее.…
Forwarded from 5 minutes of data
StarRocks
Наверное уже многие слышали про StarRocks.
После закрытия репозитория Greenplum и проблем с оплатой Vertica с территории РФ, StarRocks может занять их место.
StarRocks — это платформа данных нового поколения, предназначенная для быстрого и простого анализа данных в реальном времени. Он предлагает такие функции, как собственный векторизованный механизм SQL, интеллектуальную оптимизацию запросов, обновления в реальном времени и прямой запрос данных в озерах данных.
Так же StarRocks поддерживает работу с Iceberg.
Наверное уже многие слышали про StarRocks.
После закрытия репозитория Greenplum и проблем с оплатой Vertica с территории РФ, StarRocks может занять их место.
StarRocks — это платформа данных нового поколения, предназначенная для быстрого и простого анализа данных в реальном времени. Он предлагает такие функции, как собственный векторизованный механизм SQL, интеллектуальную оптимизацию запросов, обновления в реальном времени и прямой запрос данных в озерах данных.
Так же StarRocks поддерживает работу с Iceberg.
www.starrocks.io
StarRocks | A High-Performance Analytical Database
StarRocks offers the next generation of real-time SQL engines for enterprise-scale analytics. Learn how we make it easy to deliver real-time analytics.
Data Engineering / reposts & drafts
https://t.iss.one/dataexplolerschat/555 #StarRocks
Telegram
DE
⭐️ StarRocks — БД для аналитики
StarRocks, проект Linux Foundation, — высокопроизводительная MPP OLAP БД нового поколения с быстрой обработкой данных для сложных аналитических кейсов, включая многомерную аналитику, аналитику в реальном времени и многое другое.…
StarRocks, проект Linux Foundation, — высокопроизводительная MPP OLAP БД нового поколения с быстрой обработкой данных для сложных аналитических кейсов, включая многомерную аналитику, аналитику в реальном времени и многое другое.…
Forwarded from 5 minutes of data
The Gitlab Handbook/Data Team Platform
У Gitlab очень качественные гайды, рекомендовано к ознакомлению для всех, кто работает с данными.
Handbook включает в себя следующие гайды:
- Data Infrastructure
- Data pipelines
- Data CI job
- Dbt guide
- Python guide
- SQL guide
- Tableau
У Gitlab очень качественные гайды, рекомендовано к ознакомлению для всех, кто работает с данными.
Handbook включает в себя следующие гайды:
- Data Infrastructure
- Data pipelines
- Data CI job
- Dbt guide
- Python guide
- SQL guide
- Tableau
5 minutes of data
The Gitlab Handbook/Data Team Platform У Gitlab очень качественные гайды, рекомендовано к ознакомлению для всех, кто работает с данными. Handbook включает в себя следующие гайды: - Data Infrastructure - Data pipelines - Data CI job - Dbt guide - Python…
dbt Community Forum
Is Kimball dimensional modeling still relevant in a modern data warehouse?
Is Kimball dimensional modeling still relevant in a modern data warehouse? We see this discussion a lot on dbt Slack, so I’d love to move it to a Discourse post! Comment below with your thoughts!
Forwarded from 5 minutes of data
Fundamentals of data engineering
Если ещё не читали эту книгу, то Redpanda выложили ее в открытый доступ.
Если ещё не читали эту книгу, то Redpanda выложили ее в открытый доступ.
Redpanda позиционирует себя, как полная замена Apache Kafka, в 10 раз быстрее и обеспечивает 6-кратную экономию относительно Kafka.
Forwarded from data будни (Sasha Mikhailov)
⚾ Andy Pavlo
меня покусал библиотекарь, поэтому перед тем как ввести новое действующее лицо, дам ссылку на общеизвестный факт.
имя Andy Pavlo у меня прочно ассоциируется с базами данных: Andy = databases, databases = Andy
у него есть открытый каталог всех баз данных, где уже есть ссылки на 998 (!) штук
https://dbdb.io/
ещё у негоесть был стартап, который помогает тюнить клиентские базы данных с помощью мл: моделька на основе метаданных подкручивает настройки вашего постгреса в цикле с обратной связью. сами данные она не видит.
https://ottertune.com/
и, видимо, для души (и будущих клиентов и сотрудников), он ведёт курс по базам данных в университете CMU
несмотря на то, что курс офлайн в обычном кирпичном университете, все лекции записываются и доступны на ютубе (а ещё иногда в начале играет настоящий диджей!)
вот записи с последнего потока — 2024 год
меня покусал библиотекарь, поэтому перед тем как ввести новое действующее лицо, дам ссылку на общеизвестный факт.
имя Andy Pavlo у меня прочно ассоциируется с базами данных: Andy = databases, databases = Andy
у него есть открытый каталог всех баз данных, где уже есть ссылки на 998 (!) штук
https://dbdb.io/
ещё у него
https://ottertune.com/
и, видимо, для души (и будущих клиентов и сотрудников), он ведёт курс по базам данных в университете CMU
несмотря на то, что курс офлайн в обычном кирпичном университете, все лекции записываются и доступны на ютубе (а ещё иногда в начале играет настоящий диджей!)
вот записи с последнего потока — 2024 год
Forwarded from Yandex DataLens
– В конце июня у нас появилась аутентификация
– В июле добавили базовую авторизацию: вертикальные роли
datalens.viewer и datalens.editor на пользователя, которые распространяются сразу на все объекты экземпляра DataLens.Эти возможности уже включены в стандартные образы, доступные для самостоятельного разворачивания.
Полноценную авторизацию (с разграничением прав на воркбуки, RLS, группами пользователей) и многие другие корпоративные возможности мы планируем предоставлять в рамках коммерческого on-premise продукта, превью-версию которого ожидаем в августе. Эта версия уже не будет распространяться открыто, т.к. включает закрытые расширения. При этом открытое ядро продукта мы продолжим развивать для всех.
Если вам интересен пилотный проект коммерческой on-premise версии DataLens – оставляйте заявку
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Nikolay Markov
а кто-нибудь в реальной жизни использовал https://www.hydra.so/ ? Как альтернатива гринпламу оно вряд ли катит, наверное?
www.hydra.so
Hydra - Serverless Analytics on Postgres
Forwarded from Алексей Пятов (Data&AI)
Спасибо за напоминание!
Скачал PDF почитать и в коллекцию с сайта Dremio (там бесплатно раздают и оно даже гуглится, чтобы формы для спама не заполнять).
В этих схемах технологических компонентов, которые объясняют, из чего состоит analytical workload, все всегда забывают про очень важную вещь, которая в старых немодных DWH есть, а в новых модных lakehouse-ах еще пока не очень - это блок Security. Чтобы кто надо брал данные оттуда, откуда надо, а кто не надо - не брал. Я 4 конечностями «за» лейкхаус и инновации вообще, но важно не терять старые наработки в этом движении вперед. Особенно если говорить про промышленное применение за пределами простых MVP, где секьюрностью зачастую можно пренебречь (и пренебрегают).
Скачал PDF почитать и в коллекцию с сайта Dremio (там бесплатно раздают и оно даже гуглится, чтобы формы для спама не заполнять).
В этих схемах технологических компонентов, которые объясняют, из чего состоит analytical workload, все всегда забывают про очень важную вещь, которая в старых немодных DWH есть, а в новых модных lakehouse-ах еще пока не очень - это блок Security. Чтобы кто надо брал данные оттуда, откуда надо, а кто не надо - не брал. Я 4 конечностями «за» лейкхаус и инновации вообще, но важно не терять старые наработки в этом движении вперед. Особенно если говорить про промышленное применение за пределами простых MVP, где секьюрностью зачастую можно пренебречь (и пренебрегают).
Forwarded from Алексей Пятов (Data&AI)
Apache Iceberg: The Definitive Guide
Forwarded from Dmitry
Алексей Пятов (Data&AI)
Спасибо за напоминание! Скачал PDF почитать и в коллекцию с сайта Dremio (там бесплатно раздают и оно даже гуглится, чтобы формы для спама не заполнять). В этих схемах технологических компонентов, которые объясняют, из чего состоит analytical workload…
Databricks и unity catalog нормально все делают для security, но для snowflake Lakehouse им далеко, но там закрытый формат