DataEng

В сети появился блог, где, по словам автора, каждую среду будет появляться статья на тему основ распределённых систем в течение года: https://bit.ly/2ArN4fe

674 views09:55

DataEng

Apache Airflow стал полноценным членом Apache Software Foundation: https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces44

532 views13:59

DataEng

Does my Startup Data Team Need a Data Engineer?

Отличный пост, где автор рассуждает о роли Data Engineer в современных data организациях. Основная идея в том, что привычные ETL задачи легко автоматизируются благодаря сервисам типа Stitch, поэтому роль Data Engineer смещается в сторону построения data infrastructure со всеми вытекающими (reliability, data consistency, monitoring и т.д.), активной работе с командой аналитиков (data scientists, data analysts). Автор утверждает, что дата инженер это командный игрок роль которого всячески оказывать поддержку людям, формирующим выводы из данных.

А ещё мне понравилась фраза: data engineers don’t provide direct business value—their value comes in making your data analysts and scientists more productive.

Must read!

Fishtown Analytics

Does my Startup Data Team Need a Data Engineer?

The role of the data engineer in a startup data team is changing rapidly. Are you thinking about it the right way?

688 viewsedited 09:00

DataEng

Пару дней назад от программы Insight Data Engineering прошел вебинар на тему Transitioning to Data & DevOps Engineering. Его цель - познакомить начинающих Data/DevOps инженеров со сферой и помочь в неё плавно окунуться.

Помимо вебинара вам также может быть полезна их статья Preparing for the Transition to Data Engineering

YouTube

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

709 views15:39

DataEng

Внутреннее устройство PostgreSQL: https://www.interdb.jp/pg/index.html

588 views08:15

DataEng

На сайте baseDS тем временем вышли 2 новые статьи:

- Transparency: Illusions of a Single System (Part 1)
- Transparency: Illusions of a Single System (Part 2)

Medium

Transparency: Illusions of a Single System (Part 1)

Even though we might be new to distributed systems, by now we can see that, by definition, they involve many moving parts. Those moving…

616 views07:00

DataEng

Вебинары на тему RabbitMQ vs. Kafka:

Part I
Part II

YouTube

RabbitMQ vs Kafka - Jack Vanlightly x Erlang Solutions webinar

RabbitMQ vs Kafka

Messaging is at the core of many architectures and two giants in the messaging space are RabbitMQ and Apache Kafka. In this webinar we'll take a look at RabbitMQ and Kafka within the context of real-time event-driven architectures.
In this…

5.34K views06:32

DataEng

Классный доклад про DB Event Streaming на Qcon: https://www.infoq.com/presentations/wepay-database-streaming

InfoQ

The Whys and Hows of Database Streaming

Joy Gao talks about how database streaming is essential to WePay's infrastructure and the many functions that database streaming serves. She provides information on how the database streaming infrastructure was created & managed so that others can leverage…

516 views07:01

DataEng

Неплохое введение в распределённую БД FoundationDB от компании Apple: https://tech.marksblogg.com/minimalist-guide-tutorial-foundationdb.html

Marksblogg

A Minimalist Guide to FoundationDB

Benchmarks & Tips for Big Data, Hadoop, AWS, Google Cloud, PostgreSQL, Spark, Python & More...

520 views15:00

DataEng

История развития Apache Flink в блоге Alibaba Tech: https://medium.com/@alitech_2017/a-brief-history-of-flink-tracing-the-big-data-engines-open-source-development-87464fd19e0f

Medium

A Brief History of Flink: Tracing the Big Data Engine’s Open-source Development

From version 1.1.0 to 1.6.0, Apache Flink’s relentless improvement exemplifies open-source development.

559 views07:00

DataEng

Forwarded from DevBrain

Друзья, есть идея и наработки по записи небольшого курса про построение data pipelines на Luigi и введению в DataEng. Этот инструмент я активно использую, поэтому есть чем поделиться. Вопрос - купили бы Вы такой курс за 650 руб.?

Anonymous Poll

38%

Да!!!

11%

Конечно! Почему так дешево?!

51%

Ни за что!

281 voters74 views09:28

DataEng

На Udacity вышел Nano degree про Data Engineering: https://www.udacity.com/course/data-engineer-nanodegree--nd027, цена правда заоблачная - $999

Udacity

Data Engineering Training Course | Become a Data Engineer | Udacity

Data Engineering is the foundation of Big Data. Enroll in our data engineering with AWS training course and learn essential skills to become a data engineer.

485 views08:17

DataEng

Пост в блоге про новый nano degree: https://blog.udacity.com/2019/03/learn-data-engineering-nanodegree-program.html

Udacity

Introducing the Udacity Data Engineering Nanodegree Program | Udacity

The ratio of data engineer to data scientist job openings is four-to-one. Get skills to qualify for these roles in the Data Engineering Nanodegree program.

600 views08:39

DataEng

В подкасте Software Engineering Daily вышел эпизод про Apache Superset с его создателем Maxime Beauchemin: https://softwareengineeringdaily.com/2019/03/22/apache-superset-with-maxime-beauchemin/

Software Engineering Daily

Apache Superset with Maxime Beauchemin - Software Engineering Daily

Upcoming events: A Conversation with Haseeb Qureshi at Cloudflare on April 3, 2019 FindCollabs Hackathon at App Academy on April 6, 2019 Data engineering touches every area of an organization. Engineers need a data platform to build search indexes and microservices.…

912 views10:23

DataEng

Forwarded from DevBrain

Собрал свои мысли в одно место и таким образом появилась статья Как статья Data Engineer. Область Data Engineering активно растёт, надеюсь материал будет полезен!

Khashtamov

Как стать Data Engineer

Сейчас специализация в области data engineering активно набирает обороты. Судя по отчёту компании hired.com, спрос на data engineer специалистов вырос на 38%, и рост продолжится. Средняя зарплата у...

61 views06:00

DataEng

В техническом блоге DataDog вышел крутой материал про построение надёжных дата пайплайнов: Building Highly Reliable Data Pipelines at Datadog

Datadog

Building Highly Reliable Data Pipelines at Datadog | Datadog

A look at how Datadog builds and operates data pipelines reliably at scale.

2.09K views06:01

DataEng

Хороший доклад про принципы построения пайплайнов без привязки к каким-либо инструментам: Data Engineering Principles - Build frameworks not pipelines

529 views09:31

DataEng

Принципы построения дата пайплайнов из презентации:

- Understand the data consumer
- Understand the data
- Keep data in its raw form
- Do not delete or move your raw data
- Validate your extracted data before saving
- Transform your data over all time
- Separate you E-TL
- Minimize the number of data and compute nodes
- Store all you data of practically feasible to do so
- Make your ETL acyclical
- Validate your data before its given to consumers
- Join your data at the database level
- Monitor your data

570 views10:01

DataEng

Если вы пользуетесь Apache Airflow для построения batch-процессов и хотите знать тонкости его работы, то рекомендую к прочтению пост: How Apache Airflow Distributes Jobs on Celery workers

www.sicara.ai

How Apache Airflow Distributes Jobs on Celery workers

Discover what happens when Apache Airflow performs task distribution on Celery workers through RabbitMQ queues.

601 views07:01

DataEng

В блоге AirBnB вышла полезная статья про идемпотентный фреймворк для построения распределенных систем.

В самой статье идёт речь про кейс реализации системы предотвращающей двойное списание денег у клиентов сервиса.

Читаем: https://medium.com/airbnb-engineering/avoiding-double-payments-in-a-distributed-payments-system-2981f6b070bb

Medium

Avoiding Double Payments in a Distributed Payments System

How we built a generic idempotency framework to achieve eventual consistency and correctness across our payments micro-service…

5.17K views09:54

DataEng

Нашел очень интересный доклад от Chief Data Engineer компании Paypal Sid Anand про data инфраструктуру компании. К слову, Paypal ежедневно обрабатывает более 1 миллиарда долларов транзакций в 200 странах. Как всё это работает и не падает смотрите в докладе

YouTube

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

618 views07:00

About

Blog

Apps

Platform