DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Forwarded from DevBrain
Друзья, есть идея и наработки по записи небольшого курса про построение data pipelines на Luigi и введению в DataEng. Этот инструмент я активно использую, поэтому есть чем поделиться. Вопрос - купили бы Вы такой курс за 650 руб.?
Anonymous Poll
38%
Да!!!
11%
Конечно! Почему так дешево?!
51%
Ни за что!
В техническом блоге DataDog вышел крутой материал про построение надёжных дата пайплайнов: Building Highly Reliable Data Pipelines at Datadog
Хороший доклад про принципы построения пайплайнов без привязки к каким-либо инструментам: Data Engineering Principles - Build frameworks not pipelines
Принципы построения дата пайплайнов из презентации:

- Understand the data consumer
- Understand the data
- Keep data in its raw form
- Do not delete or move your raw data
- Validate your extracted data before saving
- Transform your data over all time
- Separate you E-TL
- Minimize the number of data and compute nodes
- Store all you data of practically feasible to do so
- Make your ETL acyclical
- Validate your data before its given to consumers
- Join your data at the database level
- Monitor your data
Если вы пользуетесь Apache Airflow для построения batch-процессов и хотите знать тонкости его работы, то рекомендую к прочтению пост: How Apache Airflow Distributes Jobs on Celery workers
В блоге AirBnB вышла полезная статья про идемпотентный фреймворк для построения распределенных систем.

В самой статье идёт речь про кейс реализации системы предотвращающей двойное списание денег у клиентов сервиса.

Читаем: https://medium.com/airbnb-engineering/avoiding-double-payments-in-a-distributed-payments-system-2981f6b070bb
Нашел очень интересный доклад от Chief Data Engineer компании Paypal Sid Anand про data инфраструктуру компании. К слову, Paypal ежедневно обрабатывает более 1 миллиарда долларов транзакций в 200 странах. Как всё это работает и не падает смотрите в докладе
Интересный кейс про построение дата пайплайна через Python и Celery для обновления Amazon Redshift - читать. Советую изучения ради. Если же у вас стоит подобная задача, то рекомендую использовать наиболее подходящие для этого инструменты, например, Luigi или Apache Airflow.

Как сделать pipeline на Luigi я писал ещё в 2017 году в блоге. Для любителей celery тоже есть интересная статейка.
Forwarded from DevBrain
Появилось видео моей презентации на Kolesa Conf в Алматы, которая проходила 12 апреля. Тема моей презентации: ETL на Python. Видео