Github опубликовал "вскрытие" об инциденте, произошедшем несколько дней назад. Напомню, что их систему штормило 24 часа, в это время наблюдались аномалии в виде неконсистетных данных. Более подробно об их распределенной системе
https://blog.github.com/2018-10-30-oct21-post-incident-analysis/
https://blog.github.com/2018-10-30-oct21-post-incident-analysis/
The GitHub Blog
October 21 post-incident analysis
In-depth analysis of the incident that impacted GitHub services on October 21 and 22.
Нашел статью про проблемы с CDC (Change Data Capture). Change Data Capture - это подход, позволяющий транслировать данные из одного источника в другой, а по пути этими данными манипулировать. То есть выполнение классических ETL задач. Apache Kafka и Kafka Connect самые популярные инструменты для этого.
Но что будет, если схема базы данных изменится в обратно-несовместимое состояние? Об этих и других проблемах автор рассуждает в своей статье Kafka change data capture breaks database encapsulation
Но что будет, если схема базы данных изменится в обратно-несовместимое состояние? Об этих и других проблемах автор рассуждает в своей статье Kafka change data capture breaks database encapsulation
Небольшой отчёт о прошедшей конференции DataEngConf в Нью-Йорке: https://medium.com/memory-leak/recapping-the-dataengconf-eba9d09f06ae. По классике скоро будут опубликованы доклады на канале Hakka Labs.
Medium
Recapping the DataEngConf
This week we attended the DataEngConf at Columbia University in New York City. We’ve previously written about how leading ML algorithms…
Wow! Гайд наглядно объясняющий что такое распределённые системы, какие проблемы бывают, а главное, ВНИМАНИЕ, как достичь консенсуса в распределённых системах (paxos, raft): must read
Medium
How Does Distributed Consensus Work?
An overview of key breakthroughs in blockchain tech — and why Nakamoto Consensus is such a big deal
Распределённые системы требуют наличия некоторых знаний в области математики, но каких именно? Об этом вам расскажет Veronica Lopez в своём замечательно докладе The Math behind Distributed Systems
YouTube
The Math Behind Distributed Systems - Veronica Lopez
Formal verification of distributed systems is hard and expensive. Instead of dealing with it, modern distributed systems rely on tools like observability, extensive testing, and more recently, chaos engineering. Understanding the math behind distributed computing…
Forwarded from DevBrain
Бинго-бонго и джимбо-джамбо!
HighLoad++ начали выкладывать доклады с прошедшей одноименной конференции у себя на канале. Доклады выглядят многообещающими, вот самые вкусные тайтлы:
- Apache Kafka как основа для велосипедостроения
- Базы данных и Kubernetes
- Топ ошибок со стороны разработки при работе с PostgreSQL
- Анализ производительности запросов в ClickHouse
Посмотреть весь плейлист
HighLoad++ начали выкладывать доклады с прошедшей одноименной конференции у себя на канале. Доклады выглядят многообещающими, вот самые вкусные тайтлы:
- Apache Kafka как основа для велосипедостроения
- Базы данных и Kubernetes
- Топ ошибок со стороны разработки при работе с PostgreSQL
- Анализ производительности запросов в ClickHouse
Посмотреть весь плейлист
YouTube
Apache Kafka как основа для велосипедостроения / Николай Сивко (okmeter.io)
Приглашаем на конференцию HighLoad++ 2025, которая пройдет 6 и 7 ноября в Москве!
Программа, подробности и билеты по ссылке: https://highload.ru/moscow/2025
________
HighLoad++ Moscow 2018
Тезисы и презентация:
https://www.highload.ru/moscow/2018/abstracts/4011…
Программа, подробности и билеты по ссылке: https://highload.ru/moscow/2025
________
HighLoad++ Moscow 2018
Тезисы и презентация:
https://www.highload.ru/moscow/2018/abstracts/4011…
Как Apache Kafka помогает обрабатывать 400 миллиардов сообщений в PayPal: https://bit.ly/2PNG322
YouTube
Kafka at PayPal: Enabling 400 Billion Messages A Day
Strata Data Conference 2018 @ NYC
Presenters: Kevin Lu, Na Yang, Maulin Vasavada
Presenters: Kevin Lu, Na Yang, Maulin Vasavada
В блоге у CTO Amazon Werner Vogels вышла хвалебная статья по поводу производительности и устойчивости Amazon Redshift: https://www.allthingsdistributed.com/2018/11/amazon-redshift-performance-optimization.html
Создаётся ощущение, что это ответка на статью https://www.concurrencylabs.com/blog/starburst-presto-vs-aws-redshift/
Создаётся ощущение, что это ответка на статью https://www.concurrencylabs.com/blog/starburst-presto-vs-aws-redshift/
Allthingsdistributed
Amazon Redshift and the art of performance optimization in the cloud
The cloud gives excellent mechanisms to improve performance as Concurrency Scaling for Redshift shows
Воу-Воу! В AWS появилась Kafka как сервис. Новость об этом. Сам сервис можно пощупать здесь.
GeekWire
Amazon Web Services reveals a managed Kafka service for streaming data
LAS VEGAS – Yet another popular open-source project is now available as a managed service from Amazon Web Services with the addition of Amazon Managed Streaming for Kafka, announced Thursday… Read More
Лучшее введение в построение data pipelines, используя Apache Beam на Python — Hands on Apache Beam, building data pipelines in Python
Towards Data Science
Hands on Apache Beam, building data pipelines in Python
Apache Beam is an open-source SDK which allows you to build multiple data pipelines from batch or stream based integrations and run it in…
Вышел очередной выпуск Data Engineering Podcast. На этот раз гость программы Patrick Hunt, Tech Lead на проекте Apache Zookeeper. Разговор пойдёт о Zookeeper и его роли в построении распределённых систем: Apache Zookeeper As A Building Block For Distributed Systems
Data Engineering Podcast
Apache Zookeeper As A Building Block For Distributed Systems with Patrick Hunt - Episode 59
Distributed systems are complex to build and operate, and there are certain primitives that are common to a majority of them. Rather then re-implement the same capabilities every time, many projects build on top of Apache Zookeeper. In this episode Patrick…
Нашел на LinkedIn крутой пост про построение своего Data Warehouse на основе Open Source Software: Druid, Airflow и Superset BI: https://bit.ly/2EaCETX
LinkedIn
Open-Source Data Warehousing – Druid, Apache Airflow & Superset
These days everyone talks about open-source, however still not common in the Data Warehouse (DWH) field. Why is this? In my recent blog, I researched OLAP technologies and what’s coming next, in this blog I choose one of the open-source technologies and build…
Годный твиттер тред про проблемы в распределенных систем: https://twitter.com/janl/status/1072442448893358081?s=20
Twitter
Jan Lehnardt
A thread about handling deletes in distributed systems. You'd think that deleting a piece of data would be straightforward. As long as you're talking about deleting something on a single computer, it's not that hard. But once you add a network, the fun begins.
Убер в прошлом году запустил в продакшен новую версию своей распределённой платёжной системы. Перед командой стояла цель — создать надёжную отказоустройчивую систему приёма платежей по всему миру для целого спектра продуктов комании: UberRide, UberEats, UberHealth, UberBusiness и тд. Что из этого получилось, смотрите в блоге комании.
Uber Engineering Blog
Engineering Uber’s Next-Gen Payments Platform
During a September 2018 meetup, Uber's Payments Platform team discusses how this technology supports our company's growth through an active-active architecture, exactly-once payment processing, and scalability across businesses.
Что необходимо знать разработчику о механизме хранения в базе данных? Узнайте в докладе Алекса Петрова: https://www.youtube.com/watch?v=V667vJzDvt4
YouTube
🚀 What Every Programmer Has to Know About Database Storage (Alex Petrov)
🗓️ Upcoming developer events: https://dev.events In the world of Big Data, it’s important to know how the Database Storage works in order to be able to pick a right tool right job. The talk covers evaluation techniques, to choose storage with best read, write…
В блоге Lyft появилась статья о том как компания использует Apache Airflow в своей работе: https://eng.lyft.com/running-apache-airflow-at-lyft-6e53bb8fccff
Medium
Running Apache Airflow At Lyft
By Tao Feng, Andrew Stahlman, and Junda Yang
В сети появился блог, где, по словам автора, каждую среду будет появляться статья на тему основ распределённых систем в течение года: https://bit.ly/2ArN4fe
Apache Airflow стал полноценным членом Apache Software Foundation: https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces44
Does my Startup Data Team Need a Data Engineer?
Отличный пост, где автор рассуждает о роли Data Engineer в современных data организациях. Основная идея в том, что привычные ETL задачи легко автоматизируются благодаря сервисам типа Stitch, поэтому роль Data Engineer смещается в сторону построения data infrastructure со всеми вытекающими (reliability, data consistency, monitoring и т.д.), активной работе с командой аналитиков (data scientists, data analysts). Автор утверждает, что дата инженер это командный игрок роль которого всячески оказывать поддержку людям, формирующим выводы из данных.
А ещё мне понравилась фраза: data engineers don’t provide direct business value—their value comes in making your data analysts and scientists more productive.
Must read!
Отличный пост, где автор рассуждает о роли Data Engineer в современных data организациях. Основная идея в том, что привычные ETL задачи легко автоматизируются благодаря сервисам типа Stitch, поэтому роль Data Engineer смещается в сторону построения data infrastructure со всеми вытекающими (reliability, data consistency, monitoring и т.д.), активной работе с командой аналитиков (data scientists, data analysts). Автор утверждает, что дата инженер это командный игрок роль которого всячески оказывать поддержку людям, формирующим выводы из данных.
А ещё мне понравилась фраза: data engineers don’t provide direct business value—their value comes in making your data analysts and scientists more productive.
Must read!
Fishtown Analytics
Does my Startup Data Team Need a Data Engineer?
The role of the data engineer in a startup data team is changing rapidly. Are you thinking about it the right way?
Пару дней назад от программы Insight Data Engineering прошел вебинар на тему Transitioning to Data & DevOps Engineering. Его цель - познакомить начинающих Data/DevOps инженеров со сферой и помочь в неё плавно окунуться.
Помимо вебинара вам также может быть полезна их статья Preparing for the Transition to Data Engineering
Помимо вебинара вам также может быть полезна их статья Preparing for the Transition to Data Engineering
YouTube
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.