Data Engineering / reposts & drafts – Telegram

Data Engineering / reposts & drafts

@DataEngineering_ru

35 subscribers

227 photos

22 videos

40 files

557 links

#DataEngineering
#data_engineering
#data_engineering_ru

#DE_ru #DE

Download Telegram

About

Blog

Apps

Platform

Data Engineering / reposts & drafts

Data Engineering / reposts & drafts

Forwarded from DATABASE DESIGN

Будущее хранения данных. Где и на чем будем хранить данные в будущем

Объём данных, которые мы производим и используем, растёт феноменальными темпами. СМИ сегодня существуют преимущественно в цифровом формате, данные предприятий всё чаще хранятся на облачных платформах, а учёные накапливают огромные массивы исследовательской информации. Не забываем и про снимки из космоса и мемы с котиками. К 2025 году скорость роста данных превысит 175 зеттабайт в год. Центры обработки данных изо всех сил пытаются не отставать. Но объёмы продолжают увеличиваться с каждым днём.

Мало того, что объём данных, особенно неструктурированных, увеличился, облачное хранилище побудило компании – и частных лиц – принять подход «хранить всё», даже если эти данные не имеют какою-либо ценность.

Как предприятия могут безопасно хранить в будущем такой огромный объём данных, учитывая, что растёт он экспоненциально? Быстрый рост данных требует инновационных решений в бурно развивающейся области технологий. В течение достаточно длительного периода времени физические носители, такие как магнитные ленты и жёсткие диски, в конечном итоге демонстрируют 100% вероятность отказа. Учёные ищут новые методы, чтобы устранить текущие ограничения в отношении ёмкости, мощности, скорости и долговечности. Но как? Подробности под катом.

Читать: https://habr.com/ru/companies/timeweb/articles/826284/

@database_design
___
Другие наши проекты

6 views09:26

Data Engineering / reposts & drafts

Forwarded from DATABASE DESIGN

От «дата-ада» к знаку качества. Как в М.Видео-Эльдорадо работа с качеством данных улучшает результаты в бизнесе

Каждый бизнес-процесс, ИТ-система, цифровой продукт — является и потребителем, и генератором данных. Для успешного развития бизнеса важно качество этих данных. В недавней статье мы поделились тем как у нас зарождалась практика управления данными и о базовых понятиях в этой сфере.

В этом материале мы сделаем упор на ту пользу, которую принесло компании данное направление и какие бизнес-задачи закрывает созданный инструмент. Но, начнем с небольшого погружения для того, чтобы напомнить, как мы пришли к пониманию необходимости регламентирования управления качеством данных.

Читать: https://habr.com/ru/companies/mvideo/articles/827876/

@database_design
___
Другие наши проекты

7 views09:26

Data Engineering / reposts & drafts

Forwarded from DATABASE DESIGN

30 самых полезных библиотек Python для веб-разработки в 2024 году

Узнайте о лучших библиотеках Python, которые помогут вам в 2024 году. От анализа данных до веб-разработки — все, что нужно для эффективного программирования на Python.

Читать: «30 самых полезных библиотек Python для веб-разработки в 2024 году»

@database_design
___
Другие наши проекты

8 views09:26

Data Engineering / reposts & drafts

#iceberg bot
#icebergg
t.iss.one/ICEBERGt_bot

8 viewsedited 10:24

Data Engineering / reposts & drafts

Forwarded from SmartData — конференция по инженерии данных

#доклады

Как работает Apache Iceberg на примере Trino

ℹ️ О чем доклад: об архитектуре и реализации табличного формата для построения современных lakehouse-платформ Apache Iceberg на примере взаимодействия с compute-движком Trino.

🗣 Спикер: Владимир Озеров — постоянный спикер SmartData и руководитель компании Querify Labs, которая разрабатывает высокопроизводительную аналитическую платформу CedrusData на основе Trino. А также развивает российское сообщество разработчиков СУБД Database Internals.

Подробности и билеты

6 views10:24

Data Engineering / reposts & drafts

https://t.iss.one/database_design/4003

DATABASE DESIGN

Новый сервис Oracle Exadata теперь доступен

Мы рады сообщить о доступности Oracle Exadata Database Service на инфраструктуре Exascale. Теперь пользователи могут рассчитывать на высокую производительность, надёжность, доступность и безопасность для своих…

7 views18:00

Data Engineering / reposts & drafts

Forwarded from Инжиниринг Данных (Dmitry)

Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением

Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?

5 views06:35

Data Engineering / reposts & drafts

Forwarded from Инжиниринг Данных (Dmitry)

Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением

Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?

2 views06:49

Data Engineering / reposts & drafts

Forwarded from Алексей Пятов (Data&AI)

Инжиниринг Данных

Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?

А теперь все то же: GP+CH как базовая база, только плюс наблюдается активный рост облачных инсталляций в этой паре (и по одиночке). В сторону lakehouse смотрят и пробуют, но достаточно осторожно. Первые опыты в ритейле и банках. И в он-преме, и на облаке, где резиновый с3 и компьют по модели pay-as-you-go, что, собственно и дает драматический экономический эффект от реализации «домика у озера».

Любопытно, что и несколько консервативные (в хорошем смысле) промышленники тоже туда смотрят, думают, подбираются. Тем более, что сама архитектура будто создана для «импортозамещения» и подразумевает отказ от вендор-лока. Другое дело, что там еще предстоит решить вагон и маленькую тележку вопросов, связанных с безопасностью: не все, что классно для стартапа или мелкого предприятия, годится для государство-, регионообразующих компаний и прочих серьезных граждан.

Не знаю точно, как дела у ребят из Яндекса, но мы в VK в этом году запустили свою Data Platform с компонентами для построения lakehouse и корпоративными обвязками.

Перспективная вещь, поэтому, безусловно, надо поддержать.

2 views06:49

Data Engineering / reposts & drafts

Forwarded from Алексей Пятов (Data&AI)

Инжиниринг Данных

Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?

Мы недавно на VK Cloud Conf 2024 обсуждали эту тему в контексте российского рынка с парнями из Х5, Бургер Кинга, СИБУРа и Аренадаты с Глоубайтом. Там есть целый спектр мнений по вопросу: от «вынесем все старое и заменим на новое и будет хорошо» до «давайте поглядим, где будет хорошо, посчитаем эффекты и дальше подумаем» (особенно памятуя начальный энтузиазм вокруг Хадупа и его попытки по первости прикрутить ко всему подряд).

Я бы ссылку скинул на запись дискуссии, но, кажется, тут комментарии со ссылками делают «вжух» и испаряются

2 views06:49

Data Engineering / reposts & drafts

Forwarded from Dmitry

Алексей Пятов (Data&AI)

Мы недавно на VK Cloud Conf 2024 обсуждали эту тему в контексте российского рынка с парнями из Х5, Бургер Кинга, СИБУРа и Аренадаты с Глоубайтом. Там есть целый спектр мнений по вопросу: от «вынесем все старое и заменим на новое и будет хорошо» до «давайте…

Спасибо! Можно будет даже вебинар провести для datalearn, @rspon сможет провести если есть чего рассказать

2 views06:49

Data Engineering / reposts & drafts

Forwarded from Демидов Роман

Алексей Пятов (Data&AI)

А теперь все то же: GP+CH как базовая база, только плюс наблюдается активный рост облачных инсталляций в этой паре (и по одиночке). В сторону lakehouse смотрят и пробуют, но достаточно осторожно. Первые опыты в ритейле и банках. И в он-преме, и на облаке,…

Дерипаска пилит гос.облако как раз с прицелом на крупные госструктуры без своего парка серверов

2 views06:49

Data Engineering / reposts & drafts

Forwarded from LoraLie

Ну будем честны, патреон, который занимался тем же самым, почти убили решения руководства. Так что в какой-то мере онлифанс хороший пример 😄

2 views06:49

Data Engineering / reposts & drafts

Forwarded from Mikhail

Инжиниринг Данных

Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?

Из-за более низкого ТСО в сравнении с хадупом многие активно смотрят в эту сторону + разделение compute и storage с учётом сложностей с железом выглядит привлекательно. Во многом связано с развитием iceberg, например того же коннектора Kafka к нему и sql-like движков сверху всего разнообразия структур с данными (Trino, Dremio). Поэтому мы в Tdata (группа Ростелекома) добавили в линейку продуктов для рынка и S3 и Trino, но не как замену всего, а как дополнение.
Внутри самого Ростелекома (сейчас GP+CH+hadoop) для собственных нужд смотрим в таком же разрезе.

2 views06:49

Data Engineering / reposts & drafts

Forwarded from ruler

Инжиниринг Данных

Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?

AWS S3 - это всего лишь ванильный протокол доступа к объектному хранилищу AWS. На базе него есть ряд других протоколов, например S3 RadosGW Ceph, или для мелких задачек minio

2 views06:49

Data Engineering / reposts & drafts

Forwarded from Pablo Gaviria

Инжиниринг Данных

Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?

Интересно было бы услышать доклад на тему инджестинга из Кафки в айсберг таблицы. Как происходит апсерт, типизация, партиционирование и управление компекшеном

2 views06:49

Data Engineering / reposts & drafts

Forwarded from Andy Day

Инжиниринг Данных

Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?

В Яндексе именно дату обрабатывают на YT, местами есть GreenPlum, витрины на Chyt (это ClickHouse поверх данных из YT) или обычный Clickhouse.
Систем оркестрации несколько (в разных сервисах), например
https://habr.com/ru/companies/yandex/articles/557060/

YDB это все таки OLTP
https://habr.com/ru/companies/yandex/articles/660271/

2 views06:49

Data Engineering / reposts & drafts

Forwarded from Andrew

Если переучиваться на облачные технологии, то прятать весь опыт работы с DataStage в LinkedIn и в CV, а писать что все это врем я работал с облачной ETL?

2 views06:49

Data Engineering / reposts & drafts

Forwarded from Dmitry

Если переучиваться на облачные технологии, то прятать весь опыт работы с DataStage в LinkedIn и в CV, а писать что все это врем я работал с облачной ETL?

Конечно заменить но современный стек

2 views06:49

Data Engineering / reposts & drafts

Forwarded from Emin Mammadov

Я лично вижу огромную потребность в дата инженерах и толковых machine learning и mlops инженерах. Мы нанимаем сейчас и уже месяц нет ни одного нормального СИВИ. У наших дата инженеров такая же ситуация; в конце они взяли толкового бека и научили его тому что нужно. Вот в вебе ситуация совершенно наоборот

2 views06:49

Data Engineering / reposts & drafts

Forwarded from Инжиниринг Данных (Dmitry)

Я решил поэкспериментировать с Surfaytics, и поискать дополнительную ценность.

Выявил пока 2 новых направления.

1) я записал своё успешеное собеседование на Sr Data Engineer в Канаде на 200к CAD и скинул видео и вопросы для подписчиков. Планирую дальше записывать и надеюсь студенты тоже будут. Идея в том, что я записываю только себя и свой звук, а вопросу будут текстом на экране.

2) я продолжаю думать про варианты эффективного прохождения собеседования, чтобы максимально эффективно пройти его, на картинке мы экспериментирует с реальным собеседованием и технологиями записи собеседования, аудио в текст и тп.

Получить возможность собеседование очень сложно, большой конкурс, а вот провалить его из-за глупых ошибок легко. Один из вариантов это воспользоваться помощью товарища 🤹

Please open Telegram to view this post

VIEW IN TELEGRAM

2 views06:49