Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Forwarded from DATABASE DESIGN
Будущее хранения данных. Где и на чем будем хранить данные в будущем

Объём данных, которые мы производим и используем, растёт феноменальными темпами. СМИ сегодня существуют преимущественно в цифровом формате, данные предприятий всё чаще хранятся на облачных платформах, а учёные накапливают огромные массивы исследовательской информации. Не забываем и про снимки из космоса и мемы с котиками. К 2025 году скорость роста данных превысит 175 зеттабайт в год. Центры обработки данных изо всех сил пытаются не отставать. Но объёмы продолжают увеличиваться с каждым днём.

Мало того, что объём данных, особенно неструктурированных, увеличился, облачное хранилище побудило компании – и частных лиц – принять подход «хранить всё», даже если эти данные не имеют какою-либо ценность.

Как предприятия могут безопасно хранить в будущем такой огромный объём данных, учитывая, что растёт он экспоненциально? Быстрый рост данных требует инновационных решений в бурно развивающейся области технологий. В течение достаточно длительного периода времени физические носители, такие как магнитные ленты и жёсткие диски, в конечном итоге демонстрируют 100% вероятность отказа. Учёные ищут новые методы, чтобы устранить текущие ограничения в отношении ёмкости, мощности, скорости и долговечности. Но как? Подробности под катом.

Читать: https://habr.com/ru/companies/timeweb/articles/826284/

@database_design
___
Другие наши проекты
Forwarded from DATABASE DESIGN
От «дата-ада» к знаку качества. Как в М.Видео-Эльдорадо работа с качеством данных улучшает результаты в бизнесе

Каждый бизнес-процесс, ИТ-система, цифровой продукт — является и потребителем, и генератором данных. Для успешного развития бизнеса важно качество этих данных. В недавней статье мы поделились тем как у нас зарождалась практика управления данными и о базовых понятиях в этой сфере.

В этом материале мы сделаем упор на ту пользу, которую принесло компании данное направление и какие бизнес-задачи закрывает созданный инструмент. Но, начнем с небольшого погружения для того, чтобы напомнить, как мы пришли к пониманию необходимости регламентирования управления качеством данных.


Читать: https://habr.com/ru/companies/mvideo/articles/827876/

@database_design
___
Другие наши проекты
Forwarded from DATABASE DESIGN
30 самых полезных библиотек Python для веб-разработки в 2024 году

Узнайте о лучших библиотеках Python, которые помогут вам в 2024 году. От анализа данных до веб-разработки — все, что нужно для эффективного программирования на Python.

Читать: «30 самых полезных библиотек Python для веб-разработки в 2024 году»

@database_design
___
Другие наши проекты
#доклады

Как работает Apache Iceberg на примере Trino

ℹ️ О чем доклад: об архитектуре и реализации табличного формата для построения современных lakehouse-платформ Apache Iceberg на примере взаимодействия с compute-движком Trino.

🗣 Спикер: Владимир Озеров — постоянный спикер SmartData и руководитель компании Querify Labs, которая разрабатывает высокопроизводительную аналитическую платформу CedrusData на основе Trino. А также развивает российское сообщество разработчиков СУБД Database Internals.

Подробности и билеты
Forwarded from Инжиниринг Данных (Dmitry)
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением

Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Forwarded from Инжиниринг Данных (Dmitry)
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением

Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
А теперь все то же: GP+CH как базовая база, только плюс наблюдается активный рост облачных инсталляций в этой паре (и по одиночке). В сторону lakehouse смотрят и пробуют, но достаточно осторожно. Первые опыты в ритейле и банках. И в он-преме, и на облаке, где резиновый с3 и компьют по модели pay-as-you-go, что, собственно и дает драматический экономический эффект от реализации «домика у озера».

Любопытно, что и несколько консервативные (в хорошем смысле) промышленники тоже туда смотрят, думают, подбираются. Тем более, что сама архитектура будто создана для «импортозамещения» и подразумевает отказ от вендор-лока. Другое дело, что там еще предстоит решить вагон и маленькую тележку вопросов, связанных с безопасностью: не все, что классно для стартапа или мелкого предприятия, годится для государство-, регионообразующих компаний и прочих серьезных граждан.

Не знаю точно, как дела у ребят из Яндекса, но мы в VK в этом году запустили свою Data Platform с компонентами для построения lakehouse и корпоративными обвязками.

Перспективная вещь, поэтому, безусловно, надо поддержать.
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Мы недавно на VK Cloud Conf 2024 обсуждали эту тему в контексте российского рынка с парнями из Х5, Бургер Кинга, СИБУРа и Аренадаты с Глоубайтом. Там есть целый спектр мнений по вопросу: от «вынесем все старое и заменим на новое и будет хорошо» до «давайте поглядим, где будет хорошо, посчитаем эффекты и дальше подумаем» (особенно памятуя начальный энтузиазм вокруг Хадупа и его попытки по первости прикрутить ко всему подряд).

Я бы ссылку скинул на запись дискуссии, но, кажется, тут комментарии со ссылками делают «вжух» и испаряются
Forwarded from LoraLie
Ну будем честны, патреон, который занимался тем же самым, почти убили решения руководства. Так что в какой-то мере онлифанс хороший пример 😄
Forwarded from Mikhail
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Из-за более низкого ТСО в сравнении с хадупом многие активно смотрят в эту сторону + разделение compute и storage с учётом сложностей с железом выглядит привлекательно. Во многом связано с развитием iceberg, например того же коннектора Kafka к нему и sql-like движков сверху всего разнообразия структур с данными (Trino, Dremio). Поэтому мы в Tdata (группа Ростелекома) добавили в линейку продуктов для рынка и S3 и Trino, но не как замену всего, а как дополнение.
Внутри самого Ростелекома (сейчас GP+CH+hadoop) для собственных нужд смотрим в таком же разрезе.
Forwarded from ruler
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
AWS S3 - это всего лишь ванильный протокол доступа к объектному хранилищу AWS. На базе него есть ряд других протоколов, например S3 RadosGW Ceph, или для мелких задачек minio
Forwarded from Pablo Gaviria
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Интересно было бы услышать доклад на тему инджестинга из Кафки в айсберг таблицы. Как происходит апсерт, типизация, партиционирование и управление компекшеном
Forwarded from Andy Day
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
В Яндексе именно дату обрабатывают на YT, местами есть GreenPlum, витрины на Chyt (это ClickHouse поверх данных из YT) или обычный Clickhouse.
Систем оркестрации несколько (в разных сервисах), например
https://habr.com/ru/companies/yandex/articles/557060/

YDB это все таки OLTP
https://habr.com/ru/companies/yandex/articles/660271/
Forwarded from Andrew
Если переучиваться на облачные технологии, то прятать весь опыт работы с DataStage в LinkedIn и в CV, а писать что все это врем я работал с облачной ETL?
Forwarded from Emin Mammadov
Я лично вижу огромную потребность в дата инженерах и толковых machine learning и mlops инженерах. Мы нанимаем сейчас и уже месяц нет ни одного нормального СИВИ. У наших дата инженеров такая же ситуация; в конце они взяли толкового бека и научили его тому что нужно. Вот в вебе ситуация совершенно наоборот
Forwarded from Инжиниринг Данных (Dmitry)
Я решил поэкспериментировать с Surfaytics, и поискать дополнительную ценность.

Выявил пока 2 новых направления.

1) я записал своё успешеное собеседование на Sr Data Engineer в Канаде на 200к CAD и скинул видео и вопросы для подписчиков. Планирую дальше записывать и надеюсь студенты тоже будут. Идея в том, что я записываю только себя и свой звук, а вопросу будут текстом на экране.

2) я продолжаю думать про варианты эффективного прохождения собеседования, чтобы максимально эффективно пройти его, на картинке мы экспериментирует с реальным собеседованием и технологиями записи собеседования, аудио в текст и тп.

Получить возможность собеседование очень сложно, большой конкурс, а вот провалить его из-за глупых ошибок легко. Один из вариантов это воспользоваться помощью товарища 🤹
Please open Telegram to view this post
VIEW IN TELEGRAM