Data Engineering / reposts & drafts
https://t.iss.one/dataexplorers/351 #dbt
Telegram
Data Explorers Hub
Не всем компаниям нужен DBT
Интересное обсуждение на Reddit о том, нужен ли вашей компании DBT или его внедрение - это просто следование трендам.
1. With dbt you will move fast
Если вы не следуюете DBT way в работе, то ваша команда может двигаться медленее.…
Интересное обсуждение на Reddit о том, нужен ли вашей компании DBT или его внедрение - это просто следование трендам.
1. With dbt you will move fast
Если вы не следуюете DBT way в работе, то ваша команда может двигаться медленее.…
Forwarded from 5 minutes of data
StarRocks
Наверное уже многие слышали про StarRocks.
После закрытия репозитория Greenplum и проблем с оплатой Vertica с территории РФ, StarRocks может занять их место.
StarRocks — это платформа данных нового поколения, предназначенная для быстрого и простого анализа данных в реальном времени. Он предлагает такие функции, как собственный векторизованный механизм SQL, интеллектуальную оптимизацию запросов, обновления в реальном времени и прямой запрос данных в озерах данных.
Так же StarRocks поддерживает работу с Iceberg.
Наверное уже многие слышали про StarRocks.
После закрытия репозитория Greenplum и проблем с оплатой Vertica с территории РФ, StarRocks может занять их место.
StarRocks — это платформа данных нового поколения, предназначенная для быстрого и простого анализа данных в реальном времени. Он предлагает такие функции, как собственный векторизованный механизм SQL, интеллектуальную оптимизацию запросов, обновления в реальном времени и прямой запрос данных в озерах данных.
Так же StarRocks поддерживает работу с Iceberg.
www.starrocks.io
StarRocks | A High-Performance Analytical Database
StarRocks offers the next generation of real-time SQL engines for enterprise-scale analytics. Learn how we make it easy to deliver real-time analytics.
Data Engineering / reposts & drafts
https://t.iss.one/dataexplolerschat/555 #StarRocks
Telegram
DE
⭐️ StarRocks — БД для аналитики
StarRocks, проект Linux Foundation, — высокопроизводительная MPP OLAP БД нового поколения с быстрой обработкой данных для сложных аналитических кейсов, включая многомерную аналитику, аналитику в реальном времени и многое другое.…
StarRocks, проект Linux Foundation, — высокопроизводительная MPP OLAP БД нового поколения с быстрой обработкой данных для сложных аналитических кейсов, включая многомерную аналитику, аналитику в реальном времени и многое другое.…
Forwarded from 5 minutes of data
The Gitlab Handbook/Data Team Platform
У Gitlab очень качественные гайды, рекомендовано к ознакомлению для всех, кто работает с данными.
Handbook включает в себя следующие гайды:
- Data Infrastructure
- Data pipelines
- Data CI job
- Dbt guide
- Python guide
- SQL guide
- Tableau
У Gitlab очень качественные гайды, рекомендовано к ознакомлению для всех, кто работает с данными.
Handbook включает в себя следующие гайды:
- Data Infrastructure
- Data pipelines
- Data CI job
- Dbt guide
- Python guide
- SQL guide
- Tableau
5 minutes of data
The Gitlab Handbook/Data Team Platform У Gitlab очень качественные гайды, рекомендовано к ознакомлению для всех, кто работает с данными. Handbook включает в себя следующие гайды: - Data Infrastructure - Data pipelines - Data CI job - Dbt guide - Python…
dbt Community Forum
Is Kimball dimensional modeling still relevant in a modern data warehouse?
Is Kimball dimensional modeling still relevant in a modern data warehouse? We see this discussion a lot on dbt Slack, so I’d love to move it to a Discourse post! Comment below with your thoughts!
Forwarded from 5 minutes of data
Fundamentals of data engineering
Если ещё не читали эту книгу, то Redpanda выложили ее в открытый доступ.
Если ещё не читали эту книгу, то Redpanda выложили ее в открытый доступ.
Redpanda позиционирует себя, как полная замена Apache Kafka, в 10 раз быстрее и обеспечивает 6-кратную экономию относительно Kafka.
Forwarded from data будни (Sasha Mikhailov)
⚾ Andy Pavlo
меня покусал библиотекарь, поэтому перед тем как ввести новое действующее лицо, дам ссылку на общеизвестный факт.
имя Andy Pavlo у меня прочно ассоциируется с базами данных: Andy = databases, databases = Andy
у него есть открытый каталог всех баз данных, где уже есть ссылки на 998 (!) штук
https://dbdb.io/
ещё у негоесть был стартап, который помогает тюнить клиентские базы данных с помощью мл: моделька на основе метаданных подкручивает настройки вашего постгреса в цикле с обратной связью. сами данные она не видит.
https://ottertune.com/
и, видимо, для души (и будущих клиентов и сотрудников), он ведёт курс по базам данных в университете CMU
несмотря на то, что курс офлайн в обычном кирпичном университете, все лекции записываются и доступны на ютубе (а ещё иногда в начале играет настоящий диджей!)
вот записи с последнего потока — 2024 год
меня покусал библиотекарь, поэтому перед тем как ввести новое действующее лицо, дам ссылку на общеизвестный факт.
имя Andy Pavlo у меня прочно ассоциируется с базами данных: Andy = databases, databases = Andy
у него есть открытый каталог всех баз данных, где уже есть ссылки на 998 (!) штук
https://dbdb.io/
ещё у него
https://ottertune.com/
и, видимо, для души (и будущих клиентов и сотрудников), он ведёт курс по базам данных в университете CMU
несмотря на то, что курс офлайн в обычном кирпичном университете, все лекции записываются и доступны на ютубе (а ещё иногда в начале играет настоящий диджей!)
вот записи с последнего потока — 2024 год
Forwarded from Yandex DataLens
– В конце июня у нас появилась аутентификация
– В июле добавили базовую авторизацию: вертикальные роли
datalens.viewer и datalens.editor на пользователя, которые распространяются сразу на все объекты экземпляра DataLens.Эти возможности уже включены в стандартные образы, доступные для самостоятельного разворачивания.
Полноценную авторизацию (с разграничением прав на воркбуки, RLS, группами пользователей) и многие другие корпоративные возможности мы планируем предоставлять в рамках коммерческого on-premise продукта, превью-версию которого ожидаем в августе. Эта версия уже не будет распространяться открыто, т.к. включает закрытые расширения. При этом открытое ядро продукта мы продолжим развивать для всех.
Если вам интересен пилотный проект коммерческой on-premise версии DataLens – оставляйте заявку
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Nikolay Markov
а кто-нибудь в реальной жизни использовал https://www.hydra.so/ ? Как альтернатива гринпламу оно вряд ли катит, наверное?
www.hydra.so
Hydra - Serverless Analytics on Postgres
Forwarded from Алексей Пятов (Data&AI)
Спасибо за напоминание!
Скачал PDF почитать и в коллекцию с сайта Dremio (там бесплатно раздают и оно даже гуглится, чтобы формы для спама не заполнять).
В этих схемах технологических компонентов, которые объясняют, из чего состоит analytical workload, все всегда забывают про очень важную вещь, которая в старых немодных DWH есть, а в новых модных lakehouse-ах еще пока не очень - это блок Security. Чтобы кто надо брал данные оттуда, откуда надо, а кто не надо - не брал. Я 4 конечностями «за» лейкхаус и инновации вообще, но важно не терять старые наработки в этом движении вперед. Особенно если говорить про промышленное применение за пределами простых MVP, где секьюрностью зачастую можно пренебречь (и пренебрегают).
Скачал PDF почитать и в коллекцию с сайта Dremio (там бесплатно раздают и оно даже гуглится, чтобы формы для спама не заполнять).
В этих схемах технологических компонентов, которые объясняют, из чего состоит analytical workload, все всегда забывают про очень важную вещь, которая в старых немодных DWH есть, а в новых модных lakehouse-ах еще пока не очень - это блок Security. Чтобы кто надо брал данные оттуда, откуда надо, а кто не надо - не брал. Я 4 конечностями «за» лейкхаус и инновации вообще, но важно не терять старые наработки в этом движении вперед. Особенно если говорить про промышленное применение за пределами простых MVP, где секьюрностью зачастую можно пренебречь (и пренебрегают).
Forwarded from Алексей Пятов (Data&AI)
Apache Iceberg: The Definitive Guide
Forwarded from Dmitry
Алексей Пятов (Data&AI)
Спасибо за напоминание! Скачал PDF почитать и в коллекцию с сайта Dremio (там бесплатно раздают и оно даже гуглится, чтобы формы для спама не заполнять). В этих схемах технологических компонентов, которые объясняют, из чего состоит analytical workload…
Databricks и unity catalog нормально все делают для security, но для snowflake Lakehouse им далеко, но там закрытый формат
Forwarded from Igor Iakubovskii
Дмитрий, пользуясь случаем, что я хорошо выпил, хочу передать вам, что вы очень хороший человек и ваши мысли всегда очень конкретны, по делу и актуальны.
Forwarded from Dmitry
Igor Iakubovskii
Дмитрий, пользуясь случаем, что я хорошо выпил, хочу передать вам, что вы очень хороший человек и ваши мысли всегда очень конкретны, по делу и актуальны.
Игорь спасибо! Я бы с вами тоже выпил! Хорошо отдохнуть!
Forwarded from Maksim
Data Engineering / reposts & drafts
Игорь спасибо! Я бы с вами тоже выпил! Хорошо отдохнуть!
Дмитрий, можешь сбросить в канал интересный проект - бенчмарк по оценке, когда llm смогут нашу Data работу делать. Пока можно не сильно беспокоиться, но видимо не долго 😂
https://spider2-v.github.io/
https://spider2-v.github.io/
Forwarded from Maksim
Data Engineering / reposts & drafts
Шляпа какая то
Нет, не шляпа. Потом опубликуешь, когда начнут в линкединах про это писать или когда gpt5 выйдет.