Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Forwarded from 5 minutes of data
StarRocks

Наверное уже многие слышали про StarRocks.
После закрытия репозитория Greenplum и проблем с оплатой Vertica с территории РФ, StarRocks может занять их место.

StarRocks — это платформа данных нового поколения, предназначенная для быстрого и простого анализа данных в реальном времени. Он предлагает такие функции, как собственный векторизованный механизм SQL, интеллектуальную оптимизацию запросов, обновления в реальном времени и прямой запрос данных в озерах данных.
Так же StarRocks поддерживает работу с Iceberg.
Forwarded from 5 minutes of data
The Gitlab Handbook/Data Team Platform

У Gitlab очень качественные гайды, рекомендовано к ознакомлению для всех, кто работает с данными.

Handbook включает в себя следующие гайды:

- Data Infrastructure
- Data pipelines
- Data CI job
- Dbt guide
- Python guide
- SQL guide
- Tableau
Forwarded from 5 minutes of data
Fundamentals of data engineering

Если ещё не читали эту книгу, то Redpanda выложили ее в открытый доступ.

Redpanda позиционирует себя, как полная замена Apache Kafka, в 10 раз быстрее и обеспечивает 6-кратную экономию относительно Kafka.
Forwarded from data будни (Sasha Mikhailov)
Andy Pavlo

меня покусал библиотекарь, поэтому перед тем как ввести новое действующее лицо, дам ссылку на общеизвестный факт.

имя Andy Pavlo у меня прочно ассоциируется с базами данных: Andy = databases, databases = Andy

у него есть открытый каталог всех баз данных, где уже есть ссылки на 998 (!) штук
https://dbdb.io/

ещё у него есть был стартап, который помогает тюнить клиентские базы данных с помощью мл: моделька на основе метаданных подкручивает настройки вашего постгреса в цикле с обратной связью. сами данные она не видит.
https://ottertune.com/

и, видимо, для души (и будущих клиентов и сотрудников), он ведёт курс по базам данных в университете CMU

несмотря на то, что курс офлайн в обычном кирпичном университете, все лекции записываются и доступны на ютубе (а ещё иногда в начале играет настоящий диджей!)

вот записи с последнего потока — 2024 год
Forwarded from Yandex DataLens
📏 Делимся новостями DataLens Open Source:

– В конце июня у нас появилась аутентификация
– В июле добавили базовую авторизацию: вертикальные роли datalens.viewer и datalens.editor на пользователя, которые распространяются сразу на все объекты экземпляра DataLens.

Эти возможности уже включены в стандартные образы, доступные для самостоятельного разворачивания.

Полноценную авторизацию (с разграничением прав на воркбуки, RLS, группами пользователей) и многие другие корпоративные возможности мы планируем предоставлять в рамках коммерческого on-premise продукта, превью-версию которого ожидаем в августе. Эта версия уже не будет распространяться открыто, т.к. включает закрытые расширения. При этом открытое ядро продукта мы продолжим развивать для всех.

Если вам интересен пилотный проект коммерческой on-premise версии DataLens – оставляйте заявку
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Nikolay Markov
а кто-нибудь в реальной жизни использовал https://www.hydra.so/ ? Как альтернатива гринпламу оно вряд ли катит, наверное?
Спасибо за напоминание!

Скачал PDF почитать и в коллекцию с сайта Dremio (там бесплатно раздают и оно даже гуглится, чтобы формы для спама не заполнять).

В этих схемах технологических компонентов, которые объясняют, из чего состоит analytical workload, все всегда забывают про очень важную вещь, которая в старых немодных DWH есть, а в новых модных lakehouse-ах еще пока не очень - это блок Security. Чтобы кто надо брал данные оттуда, откуда надо, а кто не надо - не брал. Я 4 конечностями «за» лейкхаус и инновации вообще, но важно не терять старые наработки в этом движении вперед. Особенно если говорить про промышленное применение за пределами простых MVP, где секьюрностью зачастую можно пренебречь (и пренебрегают).
Apache Iceberg: The Definitive Guide
Forwarded from Igor Iakubovskii
Дмитрий, пользуясь случаем, что я хорошо выпил, хочу передать вам, что вы очень хороший человек и ваши мысли всегда очень конкретны, по делу и актуальны.
Forwarded from Maksim
Data Engineering / reposts & drafts
Игорь спасибо! Я бы с вами тоже выпил! Хорошо отдохнуть!
Дмитрий, можешь сбросить в канал интересный проект - бенчмарк по оценке, когда llm смогут нашу Data работу делать. Пока можно не сильно беспокоиться, но видимо не долго 😂

https://spider2-v.github.io/
Forwarded from Maksim
Data Engineering / reposts & drafts
Шляпа какая то
Нет, не шляпа. Потом опубликуешь, когда начнут в линкединах про это писать или когда gpt5 выйдет.