Forwarded from DATABASE DESIGN
Будущее хранения данных. Где и на чем будем хранить данные в будущем
Объём данных, которые мы производим и используем, растёт феноменальными темпами. СМИ сегодня существуют преимущественно в цифровом формате, данные предприятий всё чаще хранятся на облачных платформах, а учёные накапливают огромные массивы исследовательской информации. Не забываем и про снимки из космоса и мемы с котиками. К 2025 году скорость роста данных превысит 175 зеттабайт в год. Центры обработки данных изо всех сил пытаются не отставать. Но объёмы продолжают увеличиваться с каждым днём.
Мало того, что объём данных, особенно неструктурированных, увеличился, облачное хранилище побудило компании – и частных лиц – принять подход «хранить всё», даже если эти данные не имеют какою-либо ценность.
Как предприятия могут безопасно хранить в будущем такой огромный объём данных, учитывая, что растёт он экспоненциально? Быстрый рост данных требует инновационных решений в бурно развивающейся области технологий. В течение достаточно длительного периода времени физические носители, такие как магнитные ленты и жёсткие диски, в конечном итоге демонстрируют 100% вероятность отказа. Учёные ищут новые методы, чтобы устранить текущие ограничения в отношении ёмкости, мощности, скорости и долговечности. Но как? Подробности под катом.
Читать: https://habr.com/ru/companies/timeweb/articles/826284/
@database_design
___
Другие наши проекты
Объём данных, которые мы производим и используем, растёт феноменальными темпами. СМИ сегодня существуют преимущественно в цифровом формате, данные предприятий всё чаще хранятся на облачных платформах, а учёные накапливают огромные массивы исследовательской информации. Не забываем и про снимки из космоса и мемы с котиками. К 2025 году скорость роста данных превысит 175 зеттабайт в год. Центры обработки данных изо всех сил пытаются не отставать. Но объёмы продолжают увеличиваться с каждым днём.
Мало того, что объём данных, особенно неструктурированных, увеличился, облачное хранилище побудило компании – и частных лиц – принять подход «хранить всё», даже если эти данные не имеют какою-либо ценность.
Как предприятия могут безопасно хранить в будущем такой огромный объём данных, учитывая, что растёт он экспоненциально? Быстрый рост данных требует инновационных решений в бурно развивающейся области технологий. В течение достаточно длительного периода времени физические носители, такие как магнитные ленты и жёсткие диски, в конечном итоге демонстрируют 100% вероятность отказа. Учёные ищут новые методы, чтобы устранить текущие ограничения в отношении ёмкости, мощности, скорости и долговечности. Но как? Подробности под катом.
Читать: https://habr.com/ru/companies/timeweb/articles/826284/
@database_design
___
Другие наши проекты
Forwarded from DATABASE DESIGN
От «дата-ада» к знаку качества. Как в М.Видео-Эльдорадо работа с качеством данных улучшает результаты в бизнесе
Каждый бизнес-процесс, ИТ-система, цифровой продукт — является и потребителем, и генератором данных. Для успешного развития бизнеса важно качество этих данных. В недавней статье мы поделились тем как у нас зарождалась практика управления данными и о базовых понятиях в этой сфере.
В этом материале мы сделаем упор на ту пользу, которую принесло компании данное направление и какие бизнес-задачи закрывает созданный инструмент. Но, начнем с небольшого погружения для того, чтобы напомнить, как мы пришли к пониманию необходимости регламентирования управления качеством данных.
Читать: https://habr.com/ru/companies/mvideo/articles/827876/
@database_design
___
Другие наши проекты
Каждый бизнес-процесс, ИТ-система, цифровой продукт — является и потребителем, и генератором данных. Для успешного развития бизнеса важно качество этих данных. В недавней статье мы поделились тем как у нас зарождалась практика управления данными и о базовых понятиях в этой сфере.
В этом материале мы сделаем упор на ту пользу, которую принесло компании данное направление и какие бизнес-задачи закрывает созданный инструмент. Но, начнем с небольшого погружения для того, чтобы напомнить, как мы пришли к пониманию необходимости регламентирования управления качеством данных.
Читать: https://habr.com/ru/companies/mvideo/articles/827876/
@database_design
___
Другие наши проекты
Forwarded from DATABASE DESIGN
30 самых полезных библиотек Python для веб-разработки в 2024 году
Узнайте о лучших библиотеках Python, которые помогут вам в 2024 году. От анализа данных до веб-разработки — все, что нужно для эффективного программирования на Python.
Читать: «30 самых полезных библиотек Python для веб-разработки в 2024 году»
@database_design
___
Другие наши проекты
Узнайте о лучших библиотеках Python, которые помогут вам в 2024 году. От анализа данных до веб-разработки — все, что нужно для эффективного программирования на Python.
Читать: «30 самых полезных библиотек Python для веб-разработки в 2024 году»
@database_design
___
Другие наши проекты
Forwarded from SmartData — конференция по инженерии данных
#доклады
Как работает Apache Iceberg на примере Trino
ℹ️ О чем доклад: об архитектуре и реализации табличного формата для построения современных lakehouse-платформ Apache Iceberg на примере взаимодействия с compute-движком Trino.
🗣 Спикер: Владимир Озеров — постоянный спикер SmartData и руководитель компании Querify Labs, которая разрабатывает высокопроизводительную аналитическую платформу CedrusData на основе Trino. А также развивает российское сообщество разработчиков СУБД Database Internals.
Подробности и билеты
Как работает Apache Iceberg на примере Trino
ℹ️ О чем доклад: об архитектуре и реализации табличного формата для построения современных lakehouse-платформ Apache Iceberg на примере взаимодействия с compute-движком Trino.
🗣 Спикер: Владимир Озеров — постоянный спикер SmartData и руководитель компании Querify Labs, которая разрабатывает высокопроизводительную аналитическую платформу CedrusData на основе Trino. А также развивает российское сообщество разработчиков СУБД Database Internals.
Подробности и билеты
Forwarded from Инжиниринг Данных (Dmitry)
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением
Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Forwarded from Инжиниринг Данных (Dmitry)
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением
Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Forwarded from Алексей Пятов (Data&AI)
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
А теперь все то же: GP+CH как базовая база, только плюс наблюдается активный рост облачных инсталляций в этой паре (и по одиночке). В сторону lakehouse смотрят и пробуют, но достаточно осторожно. Первые опыты в ритейле и банках. И в он-преме, и на облаке, где резиновый с3 и компьют по модели pay-as-you-go, что, собственно и дает драматический экономический эффект от реализации «домика у озера».
Любопытно, что и несколько консервативные (в хорошем смысле) промышленники тоже туда смотрят, думают, подбираются. Тем более, что сама архитектура будто создана для «импортозамещения» и подразумевает отказ от вендор-лока. Другое дело, что там еще предстоит решить вагон и маленькую тележку вопросов, связанных с безопасностью: не все, что классно для стартапа или мелкого предприятия, годится для государство-, регионообразующих компаний и прочих серьезных граждан.
Не знаю точно, как дела у ребят из Яндекса, но мы в VK в этом году запустили свою Data Platform с компонентами для построения lakehouse и корпоративными обвязками.
Перспективная вещь, поэтому, безусловно, надо поддержать.
Любопытно, что и несколько консервативные (в хорошем смысле) промышленники тоже туда смотрят, думают, подбираются. Тем более, что сама архитектура будто создана для «импортозамещения» и подразумевает отказ от вендор-лока. Другое дело, что там еще предстоит решить вагон и маленькую тележку вопросов, связанных с безопасностью: не все, что классно для стартапа или мелкого предприятия, годится для государство-, регионообразующих компаний и прочих серьезных граждан.
Не знаю точно, как дела у ребят из Яндекса, но мы в VK в этом году запустили свою Data Platform с компонентами для построения lakehouse и корпоративными обвязками.
Перспективная вещь, поэтому, безусловно, надо поддержать.
Forwarded from Алексей Пятов (Data&AI)
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Мы недавно на VK Cloud Conf 2024 обсуждали эту тему в контексте российского рынка с парнями из Х5, Бургер Кинга, СИБУРа и Аренадаты с Глоубайтом. Там есть целый спектр мнений по вопросу: от «вынесем все старое и заменим на новое и будет хорошо» до «давайте поглядим, где будет хорошо, посчитаем эффекты и дальше подумаем» (особенно памятуя начальный энтузиазм вокруг Хадупа и его попытки по первости прикрутить ко всему подряд).
Я бы ссылку скинул на запись дискуссии, но, кажется, тут комментарии со ссылками делают «вжух» и испаряются
Я бы ссылку скинул на запись дискуссии, но, кажется, тут комментарии со ссылками делают «вжух» и испаряются
Forwarded from Dmitry
Алексей Пятов (Data&AI)
Мы недавно на VK Cloud Conf 2024 обсуждали эту тему в контексте российского рынка с парнями из Х5, Бургер Кинга, СИБУРа и Аренадаты с Глоубайтом. Там есть целый спектр мнений по вопросу: от «вынесем все старое и заменим на новое и будет хорошо» до «давайте…
Спасибо! Можно будет даже вебинар провести для datalearn, @rspon сможет провести если есть чего рассказать
Forwarded from Демидов Роман
Алексей Пятов (Data&AI)
А теперь все то же: GP+CH как базовая база, только плюс наблюдается активный рост облачных инсталляций в этой паре (и по одиночке). В сторону lakehouse смотрят и пробуют, но достаточно осторожно. Первые опыты в ритейле и банках. И в он-преме, и на облаке,…
Дерипаска пилит гос.облако как раз с прицелом на крупные госструктуры без своего парка серверов
Forwarded from LoraLie
Ну будем честны, патреон, который занимался тем же самым, почти убили решения руководства. Так что в какой-то мере онлифанс хороший пример 😄
Forwarded from Mikhail
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Из-за более низкого ТСО в сравнении с хадупом многие активно смотрят в эту сторону + разделение compute и storage с учётом сложностей с железом выглядит привлекательно. Во многом связано с развитием iceberg, например того же коннектора Kafka к нему и sql-like движков сверху всего разнообразия структур с данными (Trino, Dremio). Поэтому мы в Tdata (группа Ростелекома) добавили в линейку продуктов для рынка и S3 и Trino, но не как замену всего, а как дополнение.
Внутри самого Ростелекома (сейчас GP+CH+hadoop) для собственных нужд смотрим в таком же разрезе.
Внутри самого Ростелекома (сейчас GP+CH+hadoop) для собственных нужд смотрим в таком же разрезе.
Forwarded from ruler
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
AWS S3 - это всего лишь ванильный протокол доступа к объектному хранилищу AWS. На базе него есть ряд других протоколов, например S3 RadosGW Ceph, или для мелких задачек minio
Forwarded from Pablo Gaviria
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Интересно было бы услышать доклад на тему инджестинга из Кафки в айсберг таблицы. Как происходит апсерт, типизация, партиционирование и управление компекшеном
Forwarded from Andy Day
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
В Яндексе именно дату обрабатывают на YT, местами есть GreenPlum, витрины на Chyt (это ClickHouse поверх данных из YT) или обычный Clickhouse.
Систем оркестрации несколько (в разных сервисах), например
https://habr.com/ru/companies/yandex/articles/557060/
YDB это все таки OLTP
https://habr.com/ru/companies/yandex/articles/660271/
Систем оркестрации несколько (в разных сервисах), например
https://habr.com/ru/companies/yandex/articles/557060/
YDB это все таки OLTP
https://habr.com/ru/companies/yandex/articles/660271/
Forwarded from Andrew
Если переучиваться на облачные технологии, то прятать весь опыт работы с DataStage в LinkedIn и в CV, а писать что все это врем я работал с облачной ETL?
Forwarded from Dmitry
Andrew
Если переучиваться на облачные технологии, то прятать весь опыт работы с DataStage в LinkedIn и в CV, а писать что все это врем я работал с облачной ETL?
Конечно заменить но современный стек
Forwarded from Emin Mammadov
Я лично вижу огромную потребность в дата инженерах и толковых machine learning и mlops инженерах. Мы нанимаем сейчас и уже месяц нет ни одного нормального СИВИ. У наших дата инженеров такая же ситуация; в конце они взяли толкового бека и научили его тому что нужно. Вот в вебе ситуация совершенно наоборот
Forwarded from Инжиниринг Данных (Dmitry)
Я решил поэкспериментировать с Surfaytics, и поискать дополнительную ценность.
Выявил пока 2 новых направления.
1) я записал своё успешеное собеседование на Sr Data Engineer в Канаде на 200к CAD и скинул видео и вопросы для подписчиков. Планирую дальше записывать и надеюсь студенты тоже будут. Идея в том, что я записываю только себя и свой звук, а вопросу будут текстом на экране.
2) я продолжаю думать про варианты эффективного прохождения собеседования, чтобы максимально эффективно пройти его, на картинке мы экспериментирует с реальным собеседованием и технологиями записи собеседования, аудио в текст и тп.
Получить возможность собеседование очень сложно, большой конкурс, а вот провалить его из-за глупых ошибок легко. Один из вариантов это воспользоваться помощью товарища🤹
Выявил пока 2 новых направления.
1) я записал своё успешеное собеседование на Sr Data Engineer в Канаде на 200к CAD и скинул видео и вопросы для подписчиков. Планирую дальше записывать и надеюсь студенты тоже будут. Идея в том, что я записываю только себя и свой звук, а вопросу будут текстом на экране.
2) я продолжаю думать про варианты эффективного прохождения собеседования, чтобы максимально эффективно пройти его, на картинке мы экспериментирует с реальным собеседованием и технологиями записи собеседования, аудио в текст и тп.
Получить возможность собеседование очень сложно, большой конкурс, а вот провалить его из-за глупых ошибок легко. Один из вариантов это воспользоваться помощью товарища
Please open Telegram to view this post
VIEW IN TELEGRAM