Forwarded from Инжиниринг Данных (Dmitry)
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением
Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Forwarded from Алексей Пятов (Data&AI)
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
А теперь все то же: GP+CH как базовая база, только плюс наблюдается активный рост облачных инсталляций в этой паре (и по одиночке). В сторону lakehouse смотрят и пробуют, но достаточно осторожно. Первые опыты в ритейле и банках. И в он-преме, и на облаке, где резиновый с3 и компьют по модели pay-as-you-go, что, собственно и дает драматический экономический эффект от реализации «домика у озера».
Любопытно, что и несколько консервативные (в хорошем смысле) промышленники тоже туда смотрят, думают, подбираются. Тем более, что сама архитектура будто создана для «импортозамещения» и подразумевает отказ от вендор-лока. Другое дело, что там еще предстоит решить вагон и маленькую тележку вопросов, связанных с безопасностью: не все, что классно для стартапа или мелкого предприятия, годится для государство-, регионообразующих компаний и прочих серьезных граждан.
Не знаю точно, как дела у ребят из Яндекса, но мы в VK в этом году запустили свою Data Platform с компонентами для построения lakehouse и корпоративными обвязками.
Перспективная вещь, поэтому, безусловно, надо поддержать.
Любопытно, что и несколько консервативные (в хорошем смысле) промышленники тоже туда смотрят, думают, подбираются. Тем более, что сама архитектура будто создана для «импортозамещения» и подразумевает отказ от вендор-лока. Другое дело, что там еще предстоит решить вагон и маленькую тележку вопросов, связанных с безопасностью: не все, что классно для стартапа или мелкого предприятия, годится для государство-, регионообразующих компаний и прочих серьезных граждан.
Не знаю точно, как дела у ребят из Яндекса, но мы в VK в этом году запустили свою Data Platform с компонентами для построения lakehouse и корпоративными обвязками.
Перспективная вещь, поэтому, безусловно, надо поддержать.
Forwarded from Алексей Пятов (Data&AI)
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Мы недавно на VK Cloud Conf 2024 обсуждали эту тему в контексте российского рынка с парнями из Х5, Бургер Кинга, СИБУРа и Аренадаты с Глоубайтом. Там есть целый спектр мнений по вопросу: от «вынесем все старое и заменим на новое и будет хорошо» до «давайте поглядим, где будет хорошо, посчитаем эффекты и дальше подумаем» (особенно памятуя начальный энтузиазм вокруг Хадупа и его попытки по первости прикрутить ко всему подряд).
Я бы ссылку скинул на запись дискуссии, но, кажется, тут комментарии со ссылками делают «вжух» и испаряются
Я бы ссылку скинул на запись дискуссии, но, кажется, тут комментарии со ссылками делают «вжух» и испаряются
Forwarded from Dmitry
Алексей Пятов (Data&AI)
Мы недавно на VK Cloud Conf 2024 обсуждали эту тему в контексте российского рынка с парнями из Х5, Бургер Кинга, СИБУРа и Аренадаты с Глоубайтом. Там есть целый спектр мнений по вопросу: от «вынесем все старое и заменим на новое и будет хорошо» до «давайте…
Спасибо! Можно будет даже вебинар провести для datalearn, @rspon сможет провести если есть чего рассказать
Forwarded from Демидов Роман
Алексей Пятов (Data&AI)
А теперь все то же: GP+CH как базовая база, только плюс наблюдается активный рост облачных инсталляций в этой паре (и по одиночке). В сторону lakehouse смотрят и пробуют, но достаточно осторожно. Первые опыты в ритейле и банках. И в он-преме, и на облаке,…
Дерипаска пилит гос.облако как раз с прицелом на крупные госструктуры без своего парка серверов
Forwarded from LoraLie
Ну будем честны, патреон, который занимался тем же самым, почти убили решения руководства. Так что в какой-то мере онлифанс хороший пример 😄
Forwarded from Mikhail
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Из-за более низкого ТСО в сравнении с хадупом многие активно смотрят в эту сторону + разделение compute и storage с учётом сложностей с железом выглядит привлекательно. Во многом связано с развитием iceberg, например того же коннектора Kafka к нему и sql-like движков сверху всего разнообразия структур с данными (Trino, Dremio). Поэтому мы в Tdata (группа Ростелекома) добавили в линейку продуктов для рынка и S3 и Trino, но не как замену всего, а как дополнение.
Внутри самого Ростелекома (сейчас GP+CH+hadoop) для собственных нужд смотрим в таком же разрезе.
Внутри самого Ростелекома (сейчас GP+CH+hadoop) для собственных нужд смотрим в таком же разрезе.
Forwarded from ruler
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
AWS S3 - это всего лишь ванильный протокол доступа к объектному хранилищу AWS. На базе него есть ряд других протоколов, например S3 RadosGW Ceph, или для мелких задачек minio
Forwarded from Pablo Gaviria
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Интересно было бы услышать доклад на тему инджестинга из Кафки в айсберг таблицы. Как происходит апсерт, типизация, партиционирование и управление компекшеном
Forwarded from Andy Day
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
В Яндексе именно дату обрабатывают на YT, местами есть GreenPlum, витрины на Chyt (это ClickHouse поверх данных из YT) или обычный Clickhouse.
Систем оркестрации несколько (в разных сервисах), например
https://habr.com/ru/companies/yandex/articles/557060/
YDB это все таки OLTP
https://habr.com/ru/companies/yandex/articles/660271/
Систем оркестрации несколько (в разных сервисах), например
https://habr.com/ru/companies/yandex/articles/557060/
YDB это все таки OLTP
https://habr.com/ru/companies/yandex/articles/660271/
Forwarded from Andrew
Если переучиваться на облачные технологии, то прятать весь опыт работы с DataStage в LinkedIn и в CV, а писать что все это врем я работал с облачной ETL?
Forwarded from Dmitry
Andrew
Если переучиваться на облачные технологии, то прятать весь опыт работы с DataStage в LinkedIn и в CV, а писать что все это врем я работал с облачной ETL?
Конечно заменить но современный стек
Forwarded from Emin Mammadov
Я лично вижу огромную потребность в дата инженерах и толковых machine learning и mlops инженерах. Мы нанимаем сейчас и уже месяц нет ни одного нормального СИВИ. У наших дата инженеров такая же ситуация; в конце они взяли толкового бека и научили его тому что нужно. Вот в вебе ситуация совершенно наоборот
Forwarded from Инжиниринг Данных (Dmitry)
Я решил поэкспериментировать с Surfaytics, и поискать дополнительную ценность.
Выявил пока 2 новых направления.
1) я записал своё успешеное собеседование на Sr Data Engineer в Канаде на 200к CAD и скинул видео и вопросы для подписчиков. Планирую дальше записывать и надеюсь студенты тоже будут. Идея в том, что я записываю только себя и свой звук, а вопросу будут текстом на экране.
2) я продолжаю думать про варианты эффективного прохождения собеседования, чтобы максимально эффективно пройти его, на картинке мы экспериментирует с реальным собеседованием и технологиями записи собеседования, аудио в текст и тп.
Получить возможность собеседование очень сложно, большой конкурс, а вот провалить его из-за глупых ошибок легко. Один из вариантов это воспользоваться помощью товарища🤹
Выявил пока 2 новых направления.
1) я записал своё успешеное собеседование на Sr Data Engineer в Канаде на 200к CAD и скинул видео и вопросы для подписчиков. Планирую дальше записывать и надеюсь студенты тоже будут. Идея в том, что я записываю только себя и свой звук, а вопросу будут текстом на экране.
2) я продолжаю думать про варианты эффективного прохождения собеседования, чтобы максимально эффективно пройти его, на картинке мы экспериментирует с реальным собеседованием и технологиями записи собеседования, аудио в текст и тп.
Получить возможность собеседование очень сложно, большой конкурс, а вот провалить его из-за глупых ошибок легко. Один из вариантов это воспользоваться помощью товарища
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ivan Solyakin
Алексей Пятов (Data&AI)
Мы недавно на VK Cloud Conf 2024 обсуждали эту тему в контексте российского рынка с парнями из Х5, Бургер Кинга, СИБУРа и Аренадаты с Глоубайтом. Там есть целый спектр мнений по вопросу: от «вынесем все старое и заменим на новое и будет хорошо» до «давайте…
Лёша, ты забыл про Trino... А сценарии с ним выглядят очень привлекательно. Охлаждение данных в Greenplum, возможно, весь слой сырых данных - это паркет, а где паркет, там трино...
Forwarded from Dmitry
Ivan Solyakin
Лёша, ты забыл про Trino... А сценарии с ним выглядят очень привлекательно. Охлаждение данных в Greenplum, возможно, весь слой сырых данных - это паркет, а где паркет, там трино...
Трино пушка, но конфигурация это боль
Forwarded from Ivan Solyakin
Data Engineering / reposts & drafts
Трино пушка, но конфигурация это боль
Vk cloud запустили managed сервис. Так что это их боль)))
Forwarded from Dmitry
Ivan Solyakin
Vk cloud запустили managed сервис. Так что это их боль)))
Я думал про kuber + open source Trino)) Managed конечно пушка, вообще считаю это самый лучший вариант сейчас для отечественной аналитики
Forwarded from Инжиниринг Данных (Dmitry)
Классная история про Clickhouse - The Fast and the Furious: How ClickHouse, the World’s Fastest Open-Source Database, is Creating the First Real-Time Data Warehouse
Index Ventures
The Fast and the Furious: How... | Index Ventures
A Company is Born In the spring of 2021, Aaron Katz was thinking about what to do next. He had just spent six years as CRO at Elastic, helping the...
Forwarded from 5 minutes of data
Fundamentals of data engineering
Если ещё не читали эту книгу, то Redpanda выложили ее в открытый доступ.
Если ещё не читали эту книгу, то Redpanda выложили ее в открытый доступ.
Redpanda позиционирует себя, как полная замена Apache Kafka, в 10 раз быстрее и обеспечивает 6-кратную экономию относительно Kafka.