Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Forwarded from Pablo Gaviria
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Интересно было бы услышать доклад на тему инджестинга из Кафки в айсберг таблицы. Как происходит апсерт, типизация, партиционирование и управление компекшеном
Forwarded from Andy Day
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
В Яндексе именно дату обрабатывают на YT, местами есть GreenPlum, витрины на Chyt (это ClickHouse поверх данных из YT) или обычный Clickhouse.
Систем оркестрации несколько (в разных сервисах), например
https://habr.com/ru/companies/yandex/articles/557060/

YDB это все таки OLTP
https://habr.com/ru/companies/yandex/articles/660271/
Forwarded from Andrew
Если переучиваться на облачные технологии, то прятать весь опыт работы с DataStage в LinkedIn и в CV, а писать что все это врем я работал с облачной ETL?
Forwarded from Emin Mammadov
Я лично вижу огромную потребность в дата инженерах и толковых machine learning и mlops инженерах. Мы нанимаем сейчас и уже месяц нет ни одного нормального СИВИ. У наших дата инженеров такая же ситуация; в конце они взяли толкового бека и научили его тому что нужно. Вот в вебе ситуация совершенно наоборот
Forwarded from Инжиниринг Данных (Dmitry)
Я решил поэкспериментировать с Surfaytics, и поискать дополнительную ценность.

Выявил пока 2 новых направления.

1) я записал своё успешеное собеседование на Sr Data Engineer в Канаде на 200к CAD и скинул видео и вопросы для подписчиков. Планирую дальше записывать и надеюсь студенты тоже будут. Идея в том, что я записываю только себя и свой звук, а вопросу будут текстом на экране.

2) я продолжаю думать про варианты эффективного прохождения собеседования, чтобы максимально эффективно пройти его, на картинке мы экспериментирует с реальным собеседованием и технологиями записи собеседования, аудио в текст и тп.

Получить возможность собеседование очень сложно, большой конкурс, а вот провалить его из-за глупых ошибок легко. Один из вариантов это воспользоваться помощью товарища 🤹
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ivan Solyakin
Data Engineering / reposts & drafts
Трино пушка, но конфигурация это боль
Vk cloud запустили managed сервис. Так что это их боль)))
Forwarded from Dmitry
Ivan Solyakin
Vk cloud запустили managed сервис. Так что это их боль)))
Я думал про kuber + open source Trino)) Managed конечно пушка, вообще считаю это самый лучший вариант сейчас для отечественной аналитики
Forwarded from 5 minutes of data
Fundamentals of data engineering

Если ещё не читали эту книгу, то Redpanda выложили ее в открытый доступ.

Redpanda позиционирует себя, как полная замена Apache Kafka, в 10 раз быстрее и обеспечивает 6-кратную экономию относительно Kafka.
Forwarded from 5 minutes of data
StarRocks

Наверное уже многие слышали про StarRocks.
После закрытия репозитория Greenplum и проблем с оплатой Vertica с территории РФ, StarRocks может занять их место.

StarRocks — это платформа данных нового поколения, предназначенная для быстрого и простого анализа данных в реальном времени. Он предлагает такие функции, как собственный векторизованный механизм SQL, интеллектуальную оптимизацию запросов, обновления в реальном времени и прямой запрос данных в озерах данных.
Так же StarRocks поддерживает работу с Iceberg.
Forwarded from 5 minutes of data
The Gitlab Handbook/Data Team Platform

У Gitlab очень качественные гайды, рекомендовано к ознакомлению для всех, кто работает с данными.

Handbook включает в себя следующие гайды:

- Data Infrastructure
- Data pipelines
- Data CI job
- Dbt guide
- Python guide
- SQL guide
- Tableau
Forwarded from 5 minutes of data
Fundamentals of data engineering

Если ещё не читали эту книгу, то Redpanda выложили ее в открытый доступ.

Redpanda позиционирует себя, как полная замена Apache Kafka, в 10 раз быстрее и обеспечивает 6-кратную экономию относительно Kafka.