В корпоративном блоге Uber Engineering вышла крутая статья с обзором инфраструктуры для хранения, обработки и анализа данных компании Uber. На минуточку, у них сейчас под рукой более 100 петабайт данных → https://eng.uber.com/uber-big-data-platform/
Доклад на Kafka Summit SF 2018 от Martin Kleppmann (автор книги Designing Data-Intensive Applications) под названием "Is Kafka a Database?": https://martin.kleppmann.com/2018/10/17/kafka-summit.html
В блоге Insight Data Science вышла вводная статья про Apache Airflow. Хорошее руководство для начинающих свой путь в построении batch processing jobs → https://bit.ly/2NSWRiF
Forwarded from DevBrain
Нашел солидный вводный курс в экосистему Amazon Web Services на русском языке.
Сейчас без опыта работы хотя бы с одной из облачных систем (AWS, Google Cloud, MS Azure) сложно разрабатывать масштабируемые приложения.
Советую к просмотру, автор проделал титанический труд → https://bit.ly/2yWCJGD
Сейчас без опыта работы хотя бы с одной из облачных систем (AWS, Google Cloud, MS Azure) сложно разрабатывать масштабируемые приложения.
Советую к просмотру, автор проделал титанический труд → https://bit.ly/2yWCJGD
Jack Vanlightly открывает серию постов про внутреннее устройство распределенной Pub-Sub (брокер сообщений) системы под названием Apache Pulsar.
Apache Pulsar была разработана в стенах компании Yahoo, а позже передана под патронаж Apache Foundation. На данный момент выпущена уже 2-я версия системы.
Читать → https://bit.ly/2S51IQX
Apache Pulsar была разработана в стенах компании Yahoo, а позже передана под патронаж Apache Foundation. На данный момент выпущена уже 2-я версия системы.
Читать → https://bit.ly/2S51IQX
Jack Vanlightly
Understanding How Apache Pulsar Works — Jack Vanlightly
I will be writing a series of blog posts about Apache Pulsar, including some Kafka vs Pulsar posts. First up though I will be running some chaos tests on a Pulsar cluster like I have done with RabbitMQ and Kafka to see what failure modes it has and its…
Ярослав Ткаченко, Senior Data Engineer из Activision, на конференции dotScale 2018 рассказал как выглядит их Data Pipeline для игр серии Call of Duty — https://bit.ly/2O5itZf
Также Ярослав ведёт свой личный блог — https://sap1ens.com/
Также Ярослав ведёт свой личный блог — https://sap1ens.com/
В сети стали доступны доклады с прошедшего в Сан-Франциско саммита про Apache Kafka (Kafka Summit)
Смотреть https://bit.ly/2ERVIZs
Смотреть https://bit.ly/2ERVIZs
Confluent
Kafka Summit San Francisco 2018 - Confluent
Confluent, founded by the creators of Apache Kafka, delivers a complete execution of Kafka for the Enterprise, to help you run your business in real time.
Github опубликовал "вскрытие" об инциденте, произошедшем несколько дней назад. Напомню, что их систему штормило 24 часа, в это время наблюдались аномалии в виде неконсистетных данных. Более подробно об их распределенной системе
https://blog.github.com/2018-10-30-oct21-post-incident-analysis/
https://blog.github.com/2018-10-30-oct21-post-incident-analysis/
The GitHub Blog
October 21 post-incident analysis
In-depth analysis of the incident that impacted GitHub services on October 21 and 22.
Нашел статью про проблемы с CDC (Change Data Capture). Change Data Capture - это подход, позволяющий транслировать данные из одного источника в другой, а по пути этими данными манипулировать. То есть выполнение классических ETL задач. Apache Kafka и Kafka Connect самые популярные инструменты для этого.
Но что будет, если схема базы данных изменится в обратно-несовместимое состояние? Об этих и других проблемах автор рассуждает в своей статье Kafka change data capture breaks database encapsulation
Но что будет, если схема базы данных изменится в обратно-несовместимое состояние? Об этих и других проблемах автор рассуждает в своей статье Kafka change data capture breaks database encapsulation
Небольшой отчёт о прошедшей конференции DataEngConf в Нью-Йорке: https://medium.com/memory-leak/recapping-the-dataengconf-eba9d09f06ae. По классике скоро будут опубликованы доклады на канале Hakka Labs.
Medium
Recapping the DataEngConf
This week we attended the DataEngConf at Columbia University in New York City. We’ve previously written about how leading ML algorithms…
Wow! Гайд наглядно объясняющий что такое распределённые системы, какие проблемы бывают, а главное, ВНИМАНИЕ, как достичь консенсуса в распределённых системах (paxos, raft): must read
Medium
How Does Distributed Consensus Work?
An overview of key breakthroughs in blockchain tech — and why Nakamoto Consensus is such a big deal
Распределённые системы требуют наличия некоторых знаний в области математики, но каких именно? Об этом вам расскажет Veronica Lopez в своём замечательно докладе The Math behind Distributed Systems
YouTube
The Math Behind Distributed Systems - Veronica Lopez
Formal verification of distributed systems is hard and expensive. Instead of dealing with it, modern distributed systems rely on tools like observability, extensive testing, and more recently, chaos engineering. Understanding the math behind distributed computing…
Forwarded from DevBrain
Бинго-бонго и джимбо-джамбо!
HighLoad++ начали выкладывать доклады с прошедшей одноименной конференции у себя на канале. Доклады выглядят многообещающими, вот самые вкусные тайтлы:
- Apache Kafka как основа для велосипедостроения
- Базы данных и Kubernetes
- Топ ошибок со стороны разработки при работе с PostgreSQL
- Анализ производительности запросов в ClickHouse
Посмотреть весь плейлист
HighLoad++ начали выкладывать доклады с прошедшей одноименной конференции у себя на канале. Доклады выглядят многообещающими, вот самые вкусные тайтлы:
- Apache Kafka как основа для велосипедостроения
- Базы данных и Kubernetes
- Топ ошибок со стороны разработки при работе с PostgreSQL
- Анализ производительности запросов в ClickHouse
Посмотреть весь плейлист
YouTube
Apache Kafka как основа для велосипедостроения / Николай Сивко (okmeter.io)
Приглашаем на конференцию HighLoad++ 2025, которая пройдет 6 и 7 ноября в Москве!
Программа, подробности и билеты по ссылке: https://highload.ru/moscow/2025
________
HighLoad++ Moscow 2018
Тезисы и презентация:
https://www.highload.ru/moscow/2018/abstracts/4011…
Программа, подробности и билеты по ссылке: https://highload.ru/moscow/2025
________
HighLoad++ Moscow 2018
Тезисы и презентация:
https://www.highload.ru/moscow/2018/abstracts/4011…
Как Apache Kafka помогает обрабатывать 400 миллиардов сообщений в PayPal: https://bit.ly/2PNG322
YouTube
Kafka at PayPal: Enabling 400 Billion Messages A Day
Strata Data Conference 2018 @ NYC
Presenters: Kevin Lu, Na Yang, Maulin Vasavada
Presenters: Kevin Lu, Na Yang, Maulin Vasavada