DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
В сети стали доступны доклады с прошедшего в Сан-Франциско саммита про Apache Kafka (Kafka Summit)

Смотреть https://bit.ly/2ERVIZs
К теме про распределённые системы. Автор Julia Evans — https://jvns.ca/
Github опубликовал "вскрытие" об инциденте, произошедшем несколько дней назад. Напомню, что их систему штормило 24 часа, в это время наблюдались аномалии в виде неконсистетных данных. Более подробно об их распределенной системе

https://blog.github.com/2018-10-30-oct21-post-incident-analysis/
Нашел статью про проблемы с CDC (Change Data Capture). Change Data Capture - это подход, позволяющий транслировать данные из одного источника в другой, а по пути этими данными манипулировать. То есть выполнение классических ETL задач. Apache Kafka и Kafka Connect самые популярные инструменты для этого.

Но что будет, если схема базы данных изменится в обратно-несовместимое состояние? Об этих и других проблемах автор рассуждает в своей статье Kafka change data capture breaks database encapsulation
Небольшой отчёт о прошедшей конференции DataEngConf в Нью-Йорке: https://medium.com/memory-leak/recapping-the-dataengconf-eba9d09f06ae. По классике скоро будут опубликованы доклады на канале Hakka Labs.
Wow! Гайд наглядно объясняющий что такое распределённые системы, какие проблемы бывают, а главное, ВНИМАНИЕ, как достичь консенсуса в распределённых системах (paxos, raft): must read
Распределённые системы требуют наличия некоторых знаний в области математики, но каких именно? Об этом вам расскажет Veronica Lopez в своём замечательно докладе The Math behind Distributed Systems
Как Apache Kafka помогает обрабатывать 400 миллиардов сообщений в PayPal: https://bit.ly/2PNG322
В блоге у CTO Amazon Werner Vogels вышла хвалебная статья по поводу производительности и устойчивости Amazon Redshift: https://www.allthingsdistributed.com/2018/11/amazon-redshift-performance-optimization.html

Создаётся ощущение, что это ответка на статью https://www.concurrencylabs.com/blog/starburst-presto-vs-aws-redshift/
Вышел очередной выпуск Data Engineering Podcast. На этот раз гость программы Patrick Hunt, Tech Lead на проекте Apache Zookeeper. Разговор пойдёт о Zookeeper и его роли в построении распределённых систем: Apache Zookeeper As A Building Block For Distributed Systems
Убер в прошлом году запустил в продакшен новую версию своей распределённой платёжной системы. Перед командой стояла цель — создать надёжную отказоустройчивую систему приёма платежей по всему миру для целого спектра продуктов комании: UberRide, UberEats, UberHealth, UberBusiness и тд. Что из этого получилось, смотрите в блоге комании.
В блоге Lyft появилась статья о том как компания использует Apache Airflow в своей работе: https://eng.lyft.com/running-apache-airflow-at-lyft-6e53bb8fccff
​​В сети появился блог, где, по словам автора, каждую среду будет появляться статья на тему основ распределённых систем в течение года: https://bit.ly/2ArN4fe
Apache Airflow стал полноценным членом Apache Software Foundation: https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces44
Does my Startup Data Team Need a Data Engineer?

Отличный пост, где автор рассуждает о роли Data Engineer в современных data организациях. Основная идея в том, что привычные ETL задачи легко автоматизируются благодаря сервисам типа Stitch, поэтому роль Data Engineer смещается в сторону построения data infrastructure со всеми вытекающими (reliability, data consistency, monitoring и т.д.), активной работе с командой аналитиков (data scientists, data analysts). Автор утверждает, что дата инженер это командный игрок роль которого всячески оказывать поддержку людям, формирующим выводы из данных.

А ещё мне понравилась фраза: data engineers don’t provide direct business value—their value comes in making your data analysts and scientists more productive.

Must read!