DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Forwarded from DevBrain
​​Нашел солидный вводный курс в экосистему Amazon Web Services на русском языке.

Сейчас без опыта работы хотя бы с одной из облачных систем (AWS, Google Cloud, MS Azure) сложно разрабатывать масштабируемые приложения.

Советую к просмотру, автор проделал титанический труд → https://bit.ly/2yWCJGD
Jack Vanlightly открывает серию постов про внутреннее устройство распределенной Pub-Sub (брокер сообщений) системы под названием Apache Pulsar.

Apache Pulsar была разработана в стенах компании Yahoo, а позже передана под патронаж Apache Foundation. На данный момент выпущена уже 2-я версия системы.

Читать → https://bit.ly/2S51IQX
​​Ярослав Ткаченко, Senior Data Engineer из Activision, на конференции dotScale 2018 рассказал как выглядит их Data Pipeline для игр серии Call of Dutyhttps://bit.ly/2O5itZf

Также Ярослав ведёт свой личный блог — https://sap1ens.com/
В сети стали доступны доклады с прошедшего в Сан-Франциско саммита про Apache Kafka (Kafka Summit)

Смотреть https://bit.ly/2ERVIZs
К теме про распределённые системы. Автор Julia Evans — https://jvns.ca/
Github опубликовал "вскрытие" об инциденте, произошедшем несколько дней назад. Напомню, что их систему штормило 24 часа, в это время наблюдались аномалии в виде неконсистетных данных. Более подробно об их распределенной системе

https://blog.github.com/2018-10-30-oct21-post-incident-analysis/
Нашел статью про проблемы с CDC (Change Data Capture). Change Data Capture - это подход, позволяющий транслировать данные из одного источника в другой, а по пути этими данными манипулировать. То есть выполнение классических ETL задач. Apache Kafka и Kafka Connect самые популярные инструменты для этого.

Но что будет, если схема базы данных изменится в обратно-несовместимое состояние? Об этих и других проблемах автор рассуждает в своей статье Kafka change data capture breaks database encapsulation
Небольшой отчёт о прошедшей конференции DataEngConf в Нью-Йорке: https://medium.com/memory-leak/recapping-the-dataengconf-eba9d09f06ae. По классике скоро будут опубликованы доклады на канале Hakka Labs.
Wow! Гайд наглядно объясняющий что такое распределённые системы, какие проблемы бывают, а главное, ВНИМАНИЕ, как достичь консенсуса в распределённых системах (paxos, raft): must read
Распределённые системы требуют наличия некоторых знаний в области математики, но каких именно? Об этом вам расскажет Veronica Lopez в своём замечательно докладе The Math behind Distributed Systems
Как Apache Kafka помогает обрабатывать 400 миллиардов сообщений в PayPal: https://bit.ly/2PNG322
В блоге у CTO Amazon Werner Vogels вышла хвалебная статья по поводу производительности и устойчивости Amazon Redshift: https://www.allthingsdistributed.com/2018/11/amazon-redshift-performance-optimization.html

Создаётся ощущение, что это ответка на статью https://www.concurrencylabs.com/blog/starburst-presto-vs-aws-redshift/
Вышел очередной выпуск Data Engineering Podcast. На этот раз гость программы Patrick Hunt, Tech Lead на проекте Apache Zookeeper. Разговор пойдёт о Zookeeper и его роли в построении распределённых систем: Apache Zookeeper As A Building Block For Distributed Systems
Убер в прошлом году запустил в продакшен новую версию своей распределённой платёжной системы. Перед командой стояла цель — создать надёжную отказоустройчивую систему приёма платежей по всему миру для целого спектра продуктов комании: UberRide, UberEats, UberHealth, UberBusiness и тд. Что из этого получилось, смотрите в блоге комании.
В блоге Lyft появилась статья о том как компания использует Apache Airflow в своей работе: https://eng.lyft.com/running-apache-airflow-at-lyft-6e53bb8fccff