Data Engineering / reposts & drafts – Telegram

Data Engineering / reposts & drafts

@DataEngineering_ru

35 subscribers

227 photos

22 videos

40 files

557 links

#DataEngineering
#data_engineering
#data_engineering_ru

#DE_ru #DE

Download Telegram

About

Blog

Apps

Platform

Data Engineering / reposts & drafts

Data Engineering / reposts & drafts

Forwarded from 🔋 Труба данных (Simon Osipov)

Сколько их уже было: Pandas, Dask, Ray, Polars. Вот еще прибыло - Daft

https://www.getdaft.io/

@ohmydataengineer

3 views08:41

Data Engineering / reposts & drafts

Forwarded from 🔋 Труба данных (Simon Osipov)

Журнал "Зарплатник" @zarplatnik_media

Вот это название, конечно 😄
Ко мне пришел Тагир с канала @tagir_analyzes, попросил рассказать про его канал "Зарплатник" @zarplatnik_media

И раз уж у меня канал на русскоговорящую аудиторию, знания про рынок РФ (условия работы, зарплаты и так далее) - штука актуальная. В канале описываются анонимно позиции в компаниях, бенефиты, условия работы и так далее. Какое-то представление о текущем рынке можно составить.

НО помните, что любая смена работы - штука индивидуальная и ваша компенсация может сильно отличаться (в обе стороны).

@ohmydataengineer

3 views08:41

Data Engineering / reposts & drafts

Forwarded from 🔋 Труба данных (Simon Osipov)

https://medium.com/@fengruohang/database-in-kubernetes-is-that-a-good-idea-daf5775b5c1f

Оч большое внятное чтиво про то, хорошо ли пихать базы данных в кубирнетис (с) или нет.

@ohmydataengineer

Database in Kubernetes: Is that a good idea?

3 views08:41

Data Engineering / reposts & drafts

Forwarded from 🔋 Труба данных (Simon Osipov)

https://www.notion.so/blog/building-and-scaling-notions-data-lake

О том как Notion стоил свой data lake. Спойлер: начинали также, как Figma, с одного большого Postgres. Потом много шардов Postgres, и только потом Snowflake.
А потом их он заколебал 💩

@ohmydataengineer

How Notion build and grew our data lake to keep up with rapid growth

2 views08:41

Data Engineering / reposts & drafts

Forwarded from DATABASE DESIGN

Ускорьте разработку AI-приложений с MongoDB и Haystack

MongoDB интегрировался с Haystack, улучшив работу MongoDB Atlas Vector Search для Python-разработчиков. Теперь вы можете легко использовать данные MongoDB в Haystack для создания качественных LLM-пайплайнов. Независимо от уровня вашего опыта, ускорьте разработку AI-приложений и увеличьте их ценность для бизнеса.

Читать подробнее
___
Другие наши проекты

3 views15:15

Data Engineering / reposts & drafts

Forwarded from Инжиниринг Данных (Dmitry)

Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением

Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?

2 views04:59

Data Engineering / reposts & drafts

Forwarded from DATABASE DESIGN

Из цикла ETL: Python для аналитики ad hoc из BigQuery

Рассказали, как создавать запросы с помощью BigQuery API – библиотеки, упрощающей обращение с хранилищем, как записывать и читать данные.

Читать: «Из цикла ETL: Python для аналитики ad hoc из BigQuery»

Из цикла ETL: Python для аналитики ad hoc из BigQuery

Рассказали, как создавать запросы с помощью BigQuery API – библиотеки, упрощающей обращение с хранилищем, как записывать и читать данные.

2 views09:26

Data Engineering / reposts & drafts

Forwarded from DATABASE DESIGN

Дом, милый дом: нюансы работы с ClickHouse. Часть 2, репликация

Всем привет, меня зовут Пётр. В первой части этого цикла статей мы взглянули на некоторые базовые концепции ClickHouse. В этой же статье продолжим изучать тонкости работы с этой колоночной базой данных и подробно рассмотрим такой аспект как репликация. А ещё разберёмся с сервисами координации Zookeeper и ClickHouse Keeper.
Давайте разбираться!

Читать: https://habr.com/ru/companies/nixys/articles/826850/

@database_design
___
Другие наши проекты

2 views09:26

Data Engineering / reposts & drafts

Forwarded from DATABASE DESIGN

Инфраструктура для data engineer S3

S3 – это один из сервисов, который используется для построения Data Lake и обмена файлами.

В этой статье рассказывается о технологии S3 со стороны дата-инженерии.

Мы в статье рассмотрим как развернуть сервис, как им пользоваться и зачем он нужен в дата-инженерии

Читать: https://habr.com/ru/articles/827052/

@database_design
___
Другие наши проекты

2 views09:26

Data Engineering / reposts & drafts

Forwarded from DATABASE DESIGN

Размышления о мониторинге производительности отдельного SQL запроса

Иногда в докладах/статьях о оптимизации производительности СУБД описание предлагаемой методики/средства начинается с события -"мы заметили резкое увеличение времени выполнения запроса/запросов и резкое увеличение количества прочитанных блоков разделяемой области". Далее следует описание процесса выявления ресурсоёмкого запроса, с целью его оптимизации.

На этапе разработки данных сценарий вполне себя оправдывает . Нагрузка на СУБД - детерминирована, характер нагрузки определён и описан, данные постоянны. При условии адекватности команды разработки, даже удастся действительно оптимизировать запрос.

Но.

В процессе промышленной эксплуатации ситуация меняется принципиально .

Читать: https://habr.com/ru/articles/827156/

@database_design
___
Другие наши проекты

2 views09:26

Data Engineering / reposts & drafts

Forwarded from DATABASE DESIGN

Работа с данными в Apache Spark

Фреймворк Spark позволяет выполнять множество различных операций с распределенными наборами данных. При этом, объем обрабатываемых данных может быть достаточно большим. Конечно, можно сохранять обрабатываемую информацию в файлы, но что делать, если набор данных не умещается на одном компьютере или на одном дисковом хранилище.

Для решения данной проблемы фреймворк поддерживает широкий диапазон различных механизмов ввода/вывода. Это можно объяснить в том числе и тем, что Apache Spark создавался в экосистеме Hadoop, предназначенной для работы с большими данными. Так, для доступа к данным Spark использует интерфейсы InputFormat и OutputFormat из Hadoop MapReduce, программной платформы, предназначенной для создания заданий, обрабатывающих большие объемы данных. А данные интерфейсы, в свою очередь поддерживают множество форматов файлов и систем хранения (SЗ, HDFS, Cassandra, HBаsе и т. д.)

Читать: https://habr.com/ru/companies/otus/articles/826056/

@database_design
___
Другие наши проекты

3 views09:26

Data Engineering / reposts & drafts

Forwarded from DATABASE DESIGN

Будущее хранения данных. Где и на чем будем хранить данные в будущем

Объём данных, которые мы производим и используем, растёт феноменальными темпами. СМИ сегодня существуют преимущественно в цифровом формате, данные предприятий всё чаще хранятся на облачных платформах, а учёные накапливают огромные массивы исследовательской информации. Не забываем и про снимки из космоса и мемы с котиками. К 2025 году скорость роста данных превысит 175 зеттабайт в год. Центры обработки данных изо всех сил пытаются не отставать. Но объёмы продолжают увеличиваться с каждым днём.

Мало того, что объём данных, особенно неструктурированных, увеличился, облачное хранилище побудило компании – и частных лиц – принять подход «хранить всё», даже если эти данные не имеют какою-либо ценность.

Как предприятия могут безопасно хранить в будущем такой огромный объём данных, учитывая, что растёт он экспоненциально? Быстрый рост данных требует инновационных решений в бурно развивающейся области технологий. В течение достаточно длительного периода времени физические носители, такие как магнитные ленты и жёсткие диски, в конечном итоге демонстрируют 100% вероятность отказа. Учёные ищут новые методы, чтобы устранить текущие ограничения в отношении ёмкости, мощности, скорости и долговечности. Но как? Подробности под катом.

Читать: https://habr.com/ru/companies/timeweb/articles/826284/

@database_design
___
Другие наши проекты

6 views09:26

Data Engineering / reposts & drafts

Forwarded from DATABASE DESIGN

От «дата-ада» к знаку качества. Как в М.Видео-Эльдорадо работа с качеством данных улучшает результаты в бизнесе

Каждый бизнес-процесс, ИТ-система, цифровой продукт — является и потребителем, и генератором данных. Для успешного развития бизнеса важно качество этих данных. В недавней статье мы поделились тем как у нас зарождалась практика управления данными и о базовых понятиях в этой сфере.

В этом материале мы сделаем упор на ту пользу, которую принесло компании данное направление и какие бизнес-задачи закрывает созданный инструмент. Но, начнем с небольшого погружения для того, чтобы напомнить, как мы пришли к пониманию необходимости регламентирования управления качеством данных.

Читать: https://habr.com/ru/companies/mvideo/articles/827876/

@database_design
___
Другие наши проекты

7 views09:26

Data Engineering / reposts & drafts

Forwarded from DATABASE DESIGN

30 самых полезных библиотек Python для веб-разработки в 2024 году

Узнайте о лучших библиотеках Python, которые помогут вам в 2024 году. От анализа данных до веб-разработки — все, что нужно для эффективного программирования на Python.

Читать: «30 самых полезных библиотек Python для веб-разработки в 2024 году»

@database_design
___
Другие наши проекты

8 views09:26

Data Engineering / reposts & drafts

#iceberg bot
#icebergg
t.iss.one/ICEBERGt_bot

8 viewsedited 10:24

Data Engineering / reposts & drafts

Forwarded from SmartData — конференция по инженерии данных

#доклады

Как работает Apache Iceberg на примере Trino

ℹ️ О чем доклад: об архитектуре и реализации табличного формата для построения современных lakehouse-платформ Apache Iceberg на примере взаимодействия с compute-движком Trino.

🗣 Спикер: Владимир Озеров — постоянный спикер SmartData и руководитель компании Querify Labs, которая разрабатывает высокопроизводительную аналитическую платформу CedrusData на основе Trino. А также развивает российское сообщество разработчиков СУБД Database Internals.

Подробности и билеты

6 views10:24

Data Engineering / reposts & drafts

https://t.iss.one/database_design/4003

DATABASE DESIGN

Новый сервис Oracle Exadata теперь доступен

Мы рады сообщить о доступности Oracle Exadata Database Service на инфраструктуре Exascale. Теперь пользователи могут рассчитывать на высокую производительность, надёжность, доступность и безопасность для своих…

7 views18:00

Data Engineering / reposts & drafts

Forwarded from Инжиниринг Данных (Dmitry)

Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением

Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?

5 views06:35

Data Engineering / reposts & drafts

Forwarded from Инжиниринг Данных (Dmitry)

Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением

Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?

2 views06:49

Data Engineering / reposts & drafts

Forwarded from Алексей Пятов (Data&AI)

Инжиниринг Данных

Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?

А теперь все то же: GP+CH как базовая база, только плюс наблюдается активный рост облачных инсталляций в этой паре (и по одиночке). В сторону lakehouse смотрят и пробуют, но достаточно осторожно. Первые опыты в ритейле и банках. И в он-преме, и на облаке, где резиновый с3 и компьют по модели pay-as-you-go, что, собственно и дает драматический экономический эффект от реализации «домика у озера».

Любопытно, что и несколько консервативные (в хорошем смысле) промышленники тоже туда смотрят, думают, подбираются. Тем более, что сама архитектура будто создана для «импортозамещения» и подразумевает отказ от вендор-лока. Другое дело, что там еще предстоит решить вагон и маленькую тележку вопросов, связанных с безопасностью: не все, что классно для стартапа или мелкого предприятия, годится для государство-, регионообразующих компаний и прочих серьезных граждан.

Не знаю точно, как дела у ребят из Яндекса, но мы в VK в этом году запустили свою Data Platform с компонентами для построения lakehouse и корпоративными обвязками.

Перспективная вещь, поэтому, безусловно, надо поддержать.

2 views06:49

Data Engineering / reposts & drafts

Forwarded from Алексей Пятов (Data&AI)

Инжиниринг Данных

Apache Iceberg - What Is It - статья про Apache Iceberg, с картинками и объяснением Кстати в Yandex и VK, как дела c Lakehouse обстоят да и в целом в РФ интересно куда сместился акцент. Раньше это было Clickhouse/Greenplum и обычно on-premise, а теперь?

Мы недавно на VK Cloud Conf 2024 обсуждали эту тему в контексте российского рынка с парнями из Х5, Бургер Кинга, СИБУРа и Аренадаты с Глоубайтом. Там есть целый спектр мнений по вопросу: от «вынесем все старое и заменим на новое и будет хорошо» до «давайте поглядим, где будет хорошо, посчитаем эффекты и дальше подумаем» (особенно памятуя начальный энтузиазм вокруг Хадупа и его попытки по первости прикрутить ко всему подряд).

Я бы ссылку скинул на запись дискуссии, но, кажется, тут комментарии со ссылками делают «вжух» и испаряются

2 views06:49