Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Forwarded from 🔋 Труба данных (Simon Osipov)
Журнал "Зарплатник" @zarplatnik_media

Вот это название, конечно 😄
Ко мне пришел Тагир с канала @tagir_analyzes, попросил рассказать про его канал "Зарплатник" @zarplatnik_media

И раз уж у меня канал на русскоговорящую аудиторию, знания про рынок РФ (условия работы, зарплаты и так далее) - штука актуальная. В канале описываются анонимно позиции в компаниях, бенефиты, условия работы и так далее. Какое-то представление о текущем рынке можно составить.

НО помните, что любая смена работы - штука индивидуальная и ваша компенсация может сильно отличаться (в обе стороны).

@ohmydataengineer
Forwarded from 🔋 Труба данных (Simon Osipov)
https://medium.com/@fengruohang/database-in-kubernetes-is-that-a-good-idea-daf5775b5c1f

Оч большое внятное чтиво про то, хорошо ли пихать базы данных в кубирнетис (с) или нет.

@ohmydataengineer
Forwarded from 🔋 Труба данных (Simon Osipov)
https://www.notion.so/blog/building-and-scaling-notions-data-lake

О том как Notion стоил свой data lake. Спойлер: начинали также, как Figma, с одного большого Postgres. Потом много шардов Postgres, и только потом Snowflake.
А потом их он заколебал 💩

@ohmydataengineer
Forwarded from DATABASE DESIGN
Ускорьте разработку AI-приложений с MongoDB и Haystack

MongoDB интегрировался с Haystack, улучшив работу MongoDB Atlas Vector Search для Python-разработчиков. Теперь вы можете легко использовать данные MongoDB в Haystack для создания качественных LLM-пайплайнов. Независимо от уровня вашего опыта, ускорьте разработку AI-приложений и увеличьте их ценность для бизнеса.

Читать подробнее
___
Другие наши проекты
Forwarded from Инжиниринг Данных (Dmitry)
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением

Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Forwarded from DATABASE DESIGN
Из цикла ETL: Python для аналитики ad hoc из BigQuery

Рассказали, как создавать запросы с помощью BigQuery API – библиотеки, упрощающей обращение с хранилищем, как записывать и читать данные.

Читать: «Из цикла ETL: Python для аналитики ad hoc из BigQuery»
Forwarded from DATABASE DESIGN
Дом, милый дом: нюансы работы с ClickHouse. Часть 2, репликация

Всем привет, меня зовут Пётр. В первой части этого цикла статей мы взглянули на некоторые базовые концепции ClickHouse. В этой же статье продолжим изучать тонкости работы с этой колоночной базой данных и подробно рассмотрим такой аспект как репликация. А ещё разберёмся с сервисами координации Zookeeper и ClickHouse Keeper.
Давайте разбираться!

Читать: https://habr.com/ru/companies/nixys/articles/826850/

@database_design
___
Другие наши проекты
Forwarded from DATABASE DESIGN
Инфраструктура для data engineer S3

S3 – это один из сервисов, который используется для построения Data Lake и обмена файлами.

В этой статье рассказывается о технологии S3 со стороны дата-инженерии.

Мы в статье рассмотрим как развернуть сервис, как им пользоваться и зачем он нужен в дата-инженерии


Читать: https://habr.com/ru/articles/827052/

@database_design
___
Другие наши проекты
Forwarded from DATABASE DESIGN
Размышления о мониторинге производительности отдельного SQL запроса

Иногда в докладах/статьях о оптимизации производительности СУБД описание предлагаемой методики/средства начинается с события -"мы заметили резкое увеличение времени выполнения запроса/запросов и резкое увеличение количества прочитанных блоков разделяемой области". Далее следует описание процесса выявления ресурсоёмкого запроса, с целью его оптимизации.

На этапе разработки данных сценарий вполне себя оправдывает . Нагрузка на СУБД - детерминирована, характер нагрузки определён и описан, данные постоянны. При условии адекватности команды разработки, даже удастся действительно оптимизировать запрос.

Но.

В процессе промышленной эксплуатации ситуация меняется принципиально .


Читать: https://habr.com/ru/articles/827156/

@database_design
___
Другие наши проекты
Forwarded from DATABASE DESIGN
Работа с данными в Apache Spark

Фреймворк Spark позволяет выполнять множество различных операций с распределенными наборами данных. При этом, объем обрабатываемых данных может быть достаточно большим. Конечно, можно сохранять обрабатываемую информацию в файлы, но что делать, если набор данных не умещается на одном компьютере или на одном дисковом хранилище.

Для решения данной проблемы фреймворк поддерживает широкий диапазон различных механизмов ввода/вывода. Это можно объяснить в том числе и тем, что Apache Spark создавался в экосистеме Hadoop, предназначенной для работы с большими данными. Так, для доступа к данным Spark использует интерфейсы InputFormat и OutputFormat из Hadoop MapReduce, программной платформы, предназначенной для создания заданий, обрабатывающих большие объемы данных. А данные интерфейсы, в свою очередь поддерживают множество форматов файлов и систем хранения (SЗ, HDFS, Cassandra, HBаsе и т. д.)


Читать: https://habr.com/ru/companies/otus/articles/826056/

@database_design
___
Другие наши проекты
Forwarded from DATABASE DESIGN
Будущее хранения данных. Где и на чем будем хранить данные в будущем

Объём данных, которые мы производим и используем, растёт феноменальными темпами. СМИ сегодня существуют преимущественно в цифровом формате, данные предприятий всё чаще хранятся на облачных платформах, а учёные накапливают огромные массивы исследовательской информации. Не забываем и про снимки из космоса и мемы с котиками. К 2025 году скорость роста данных превысит 175 зеттабайт в год. Центры обработки данных изо всех сил пытаются не отставать. Но объёмы продолжают увеличиваться с каждым днём.

Мало того, что объём данных, особенно неструктурированных, увеличился, облачное хранилище побудило компании – и частных лиц – принять подход «хранить всё», даже если эти данные не имеют какою-либо ценность.

Как предприятия могут безопасно хранить в будущем такой огромный объём данных, учитывая, что растёт он экспоненциально? Быстрый рост данных требует инновационных решений в бурно развивающейся области технологий. В течение достаточно длительного периода времени физические носители, такие как магнитные ленты и жёсткие диски, в конечном итоге демонстрируют 100% вероятность отказа. Учёные ищут новые методы, чтобы устранить текущие ограничения в отношении ёмкости, мощности, скорости и долговечности. Но как? Подробности под катом.

Читать: https://habr.com/ru/companies/timeweb/articles/826284/

@database_design
___
Другие наши проекты
Forwarded from DATABASE DESIGN
От «дата-ада» к знаку качества. Как в М.Видео-Эльдорадо работа с качеством данных улучшает результаты в бизнесе

Каждый бизнес-процесс, ИТ-система, цифровой продукт — является и потребителем, и генератором данных. Для успешного развития бизнеса важно качество этих данных. В недавней статье мы поделились тем как у нас зарождалась практика управления данными и о базовых понятиях в этой сфере.

В этом материале мы сделаем упор на ту пользу, которую принесло компании данное направление и какие бизнес-задачи закрывает созданный инструмент. Но, начнем с небольшого погружения для того, чтобы напомнить, как мы пришли к пониманию необходимости регламентирования управления качеством данных.


Читать: https://habr.com/ru/companies/mvideo/articles/827876/

@database_design
___
Другие наши проекты
Forwarded from DATABASE DESIGN
30 самых полезных библиотек Python для веб-разработки в 2024 году

Узнайте о лучших библиотеках Python, которые помогут вам в 2024 году. От анализа данных до веб-разработки — все, что нужно для эффективного программирования на Python.

Читать: «30 самых полезных библиотек Python для веб-разработки в 2024 году»

@database_design
___
Другие наши проекты
#доклады

Как работает Apache Iceberg на примере Trino

ℹ️ О чем доклад: об архитектуре и реализации табличного формата для построения современных lakehouse-платформ Apache Iceberg на примере взаимодействия с compute-движком Trino.

🗣 Спикер: Владимир Озеров — постоянный спикер SmartData и руководитель компании Querify Labs, которая разрабатывает высокопроизводительную аналитическую платформу CedrusData на основе Trino. А также развивает российское сообщество разработчиков СУБД Database Internals.

Подробности и билеты
Forwarded from Инжиниринг Данных (Dmitry)
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением

Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Forwarded from Инжиниринг Данных (Dmitry)
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением

Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
А теперь все то же: GP+CH как базовая база, только плюс наблюдается активный рост облачных инсталляций в этой паре (и по одиночке). В сторону lakehouse смотрят и пробуют, но достаточно осторожно. Первые опыты в ритейле и банках. И в он-преме, и на облаке, где резиновый с3 и компьют по модели pay-as-you-go, что, собственно и дает драматический экономический эффект от реализации «домика у озера».

Любопытно, что и несколько консервативные (в хорошем смысле) промышленники тоже туда смотрят, думают, подбираются. Тем более, что сама архитектура будто создана для «импортозамещения» и подразумевает отказ от вендор-лока. Другое дело, что там еще предстоит решить вагон и маленькую тележку вопросов, связанных с безопасностью: не все, что классно для стартапа или мелкого предприятия, годится для государство-, регионообразующих компаний и прочих серьезных граждан.

Не знаю точно, как дела у ребят из Яндекса, но мы в VK в этом году запустили свою Data Platform с компонентами для построения lakehouse и корпоративными обвязками.

Перспективная вещь, поэтому, безусловно, надо поддержать.
Инжиниринг Данных
Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?
Мы недавно на VK Cloud Conf 2024 обсуждали эту тему в контексте российского рынка с парнями из Х5, Бургер Кинга, СИБУРа и Аренадаты с Глоубайтом. Там есть целый спектр мнений по вопросу: от «вынесем все старое и заменим на новое и будет хорошо» до «давайте поглядим, где будет хорошо, посчитаем эффекты и дальше подумаем» (особенно памятуя начальный энтузиазм вокруг Хадупа и его попытки по первости прикрутить ко всему подряд).

Я бы ссылку скинул на запись дискуссии, но, кажется, тут комментарии со ссылками делают «вжух» и испаряются