DataEng – Telegram

DataEng

4.35K subscribers

40 photos

9 files

537 links

Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash

Download Telegram

About

Blog

Apps

Platform

4.35K subscribers

Forwarded from DevBrain

Нашел солидный вводный курс в экосистему Amazon Web Services на русском языке.

Сейчас без опыта работы хотя бы с одной из облачных систем (AWS, Google Cloud, MS Azure) сложно разрабатывать масштабируемые приложения.

Советую к просмотру, автор проделал титанический труд → https://bit.ly/2yWCJGD

89 views07:34

Jack Vanlightly открывает серию постов про внутреннее устройство распределенной Pub-Sub (брокер сообщений) системы под названием Apache Pulsar.

Apache Pulsar была разработана в стенах компании Yahoo, а позже передана под патронаж Apache Foundation. На данный момент выпущена уже 2-я версия системы.

Читать → https://bit.ly/2S51IQX

Jack Vanlightly

Understanding How Apache Pulsar Works — Jack Vanlightly

I will be writing a series of blog posts about Apache Pulsar, including some Kafka vs Pulsar posts. First up though I will be running some chaos tests on a Pulsar cluster like I have done with RabbitMQ and Kafka to see what failure modes it has and its…

643 views14:00

Ярослав Ткаченко, Senior Data Engineer из Activision, на конференции dotScale 2018 рассказал как выглядит их Data Pipeline для игр серии Call of Duty — https://bit.ly/2O5itZf

Также Ярослав ведёт свой личный блог — https://sap1ens.com/

682 views07:00

В сети стали доступны доклады с прошедшего в Сан-Франциско саммита про Apache Kafka (Kafka Summit)

Смотреть https://bit.ly/2ERVIZs

Kafka Summit San Francisco 2018 - Confluent

Confluent, founded by the creators of Apache Kafka, delivers a complete execution of Kafka for the Enterprise, to help you run your business in real time.

708 views14:00

К теме про распределённые системы. Автор Julia Evans — https://jvns.ca/

632 viewsedited 18:20

Github опубликовал "вскрытие" об инциденте, произошедшем несколько дней назад. Напомню, что их систему штормило 24 часа, в это время наблюдались аномалии в виде неконсистетных данных. Более подробно об их распределенной системе

https://blog.github.com/2018-10-30-oct21-post-incident-analysis/

The GitHub Blog

October 21 post-incident analysis

In-depth analysis of the incident that impacted GitHub services on October 21 and 22.

633 viewsedited 12:14

Нашел статью про проблемы с CDC (Change Data Capture). Change Data Capture - это подход, позволяющий транслировать данные из одного источника в другой, а по пути этими данными манипулировать. То есть выполнение классических ETL задач. Apache Kafka и Kafka Connect самые популярные инструменты для этого.

Но что будет, если схема базы данных изменится в обратно-несовместимое состояние? Об этих и других проблемах автор рассуждает в своей статье Kafka change data capture breaks database encapsulation

640 views06:00

Небольшой отчёт о прошедшей конференции DataEngConf в Нью-Йорке: https://medium.com/memory-leak/recapping-the-dataengconf-eba9d09f06ae. По классике скоро будут опубликованы доклады на канале Hakka Labs.

Recapping the DataEngConf

This week we attended the DataEngConf at Columbia University in New York City. We’ve previously written about how leading ML algorithms…

591 views15:47

Wow! Гайд наглядно объясняющий что такое распределённые системы, какие проблемы бывают, а главное, ВНИМАНИЕ, как достичь консенсуса в распределённых системах (paxos, raft): must read

How Does Distributed Consensus Work?

An overview of key breakthroughs in blockchain tech — and why Nakamoto Consensus is such a big deal

4.2K views17:00

Распределённые системы требуют наличия некоторых знаний в области математики, но каких именно? Об этом вам расскажет Veronica Lopez в своём замечательно докладе The Math behind Distributed Systems

The Math Behind Distributed Systems - Veronica Lopez

Formal verification of distributed systems is hard and expensive. Instead of dealing with it, modern distributed systems rely on tools like observability, extensive testing, and more recently, chaos engineering. Understanding the math behind distributed computing…

638 views07:01

Forwarded from DevBrain

Бинго-бонго и джимбо-джамбо!

HighLoad++ начали выкладывать доклады с прошедшей одноименной конференции у себя на канале. Доклады выглядят многообещающими, вот самые вкусные тайтлы:

- Apache Kafka как основа для велосипедостроения
- Базы данных и Kubernetes
- Топ ошибок со стороны разработки при работе с PostgreSQL
- Анализ производительности запросов в ClickHouse

Посмотреть весь плейлист

Apache Kafka как основа для велосипедостроения / Николай Сивко (okmeter.io)

Приглашаем на конференцию HighLoad++ 2025, которая пройдет 6 и 7 ноября в Москве!
Программа, подробности и билеты по ссылке: https://highload.ru/moscow/2025
________
HighLoad++ Moscow 2018

Тезисы и презентация:
https://www.highload.ru/moscow/2018/abstracts/4011…

64 views16:19

Как Apache Kafka помогает обрабатывать 400 миллиардов сообщений в PayPal: https://bit.ly/2PNG322

Kafka at PayPal: Enabling 400 Billion Messages A Day

Strata Data Conference 2018 @ NYC
Presenters: Kevin Lu, Na Yang, Maulin Vasavada

4.89K views12:19

В блоге у CTO Amazon Werner Vogels вышла хвалебная статья по поводу производительности и устойчивости Amazon Redshift: https://www.allthingsdistributed.com/2018/11/amazon-redshift-performance-optimization.html

Создаётся ощущение, что это ответка на статью https://www.concurrencylabs.com/blog/starburst-presto-vs-aws-redshift/

Allthingsdistributed

Amazon Redshift and the art of performance optimization in the cloud

The cloud gives excellent mechanisms to improve performance as Concurrency Scaling for Redshift shows

683 views10:00

Воу-Воу! В AWS появилась Kafka как сервис. Новость об этом. Сам сервис можно пощупать здесь.

Amazon Web Services reveals a managed Kafka service for streaming data

LAS VEGAS – Yet another popular open-source project is now available as a managed service from Amazon Web Services with the addition of Amazon Managed Streaming for Kafka, announced Thursday… Read More

686 views11:00

Лучшее введение в построение data pipelines, используя Apache Beam на Python — Hands on Apache Beam, building data pipelines in Python

Towards Data Science

Hands on Apache Beam, building data pipelines in Python

Apache Beam is an open-source SDK which allows you to build multiple data pipelines from batch or stream based integrations and run it in…

739 views07:30

Вышел очередной выпуск Data Engineering Podcast. На этот раз гость программы Patrick Hunt, Tech Lead на проекте Apache Zookeeper. Разговор пойдёт о Zookeeper и его роли в построении распределённых систем: Apache Zookeeper As A Building Block For Distributed Systems

Data Engineering Podcast

Apache Zookeeper As A Building Block For Distributed Systems with Patrick Hunt - Episode 59

Distributed systems are complex to build and operate, and there are certain primitives that are common to a majority of them. Rather then re-implement the same capabilities every time, many projects build on top of Apache Zookeeper. In this episode Patrick…

714 views08:01

Нашел на LinkedIn крутой пост про построение своего Data Warehouse на основе Open Source Software: Druid, Airflow и Superset BI: https://bit.ly/2EaCETX

Open-Source Data Warehousing – Druid, Apache Airflow & Superset

These days everyone talks about open-source, however still not common in the Data Warehouse (DWH) field. Why is this? In my recent blog, I researched OLAP technologies and what’s coming next, in this blog I choose one of the open-source technologies and build…

4.59K views11:00

Годный твиттер тред про проблемы в распределенных систем: https://twitter.com/janl/status/1072442448893358081?s=20

A thread about handling deletes in distributed systems. You'd think that deleting a piece of data would be straightforward. As long as you're talking about deleting something on a single computer, it's not that hard. But once you add a network, the fun begins.

665 views11:03

Убер в прошлом году запустил в продакшен новую версию своей распределённой платёжной системы. Перед командой стояла цель — создать надёжную отказоустройчивую систему приёма платежей по всему миру для целого спектра продуктов комании: UberRide, UberEats, UberHealth, UberBusiness и тд. Что из этого получилось, смотрите в блоге комании.

Uber Engineering Blog

Engineering Uber’s Next-Gen Payments Platform

During a September 2018 meetup, Uber's Payments Platform team discusses how this technology supports our company's growth through an active-active architecture, exactly-once payment processing, and scalability across businesses.

625 views08:30

Что необходимо знать разработчику о механизме хранения в базе данных? Узнайте в докладе Алекса Петрова: https://www.youtube.com/watch?v=V667vJzDvt4

🚀 What Every Programmer Has to Know About Database Storage (Alex Petrov)

🗓️ Upcoming developer events: https://dev.events In the world of Big Data, it’s important to know how the Database Storage works in order to be able to pick a right tool right job. The talk covers evaluation techniques, to choose storage with best read, write…

777 views14:21

В блоге Lyft появилась статья о том как компания использует Apache Airflow в своей работе: https://eng.lyft.com/running-apache-airflow-at-lyft-6e53bb8fccff

Running Apache Airflow At Lyft

By Tao Feng, Andrew Stahlman, and Junda Yang

1.06K viewsedited 06:01