DataEng

На Udacity вышел Nano degree про Data Engineering: https://www.udacity.com/course/data-engineer-nanodegree--nd027, цена правда заоблачная - $999

Udacity

Data Engineering Training Course | Become a Data Engineer | Udacity

Data Engineering is the foundation of Big Data. Enroll in our data engineering with AWS training course and learn essential skills to become a data engineer.

485 views08:17

DataEng

Пост в блоге про новый nano degree: https://blog.udacity.com/2019/03/learn-data-engineering-nanodegree-program.html

Udacity

Introducing the Udacity Data Engineering Nanodegree Program | Udacity

The ratio of data engineer to data scientist job openings is four-to-one. Get skills to qualify for these roles in the Data Engineering Nanodegree program.

600 views08:39

DataEng

В подкасте Software Engineering Daily вышел эпизод про Apache Superset с его создателем Maxime Beauchemin: https://softwareengineeringdaily.com/2019/03/22/apache-superset-with-maxime-beauchemin/

Software Engineering Daily

Apache Superset with Maxime Beauchemin - Software Engineering Daily

Upcoming events: A Conversation with Haseeb Qureshi at Cloudflare on April 3, 2019 FindCollabs Hackathon at App Academy on April 6, 2019 Data engineering touches every area of an organization. Engineers need a data platform to build search indexes and microservices.…

912 views10:23

DataEng

Forwarded from DevBrain

Собрал свои мысли в одно место и таким образом появилась статья Как статья Data Engineer. Область Data Engineering активно растёт, надеюсь материал будет полезен!

Khashtamov

Как стать Data Engineer

Сейчас специализация в области data engineering активно набирает обороты. Судя по отчёту компании hired.com, спрос на data engineer специалистов вырос на 38%, и рост продолжится. Средняя зарплата у...

61 views06:00

DataEng

В техническом блоге DataDog вышел крутой материал про построение надёжных дата пайплайнов: Building Highly Reliable Data Pipelines at Datadog

Datadog

Building Highly Reliable Data Pipelines at Datadog | Datadog

A look at how Datadog builds and operates data pipelines reliably at scale.

2.09K views06:01

DataEng

Хороший доклад про принципы построения пайплайнов без привязки к каким-либо инструментам: Data Engineering Principles - Build frameworks not pipelines

529 views09:31

DataEng

Принципы построения дата пайплайнов из презентации:

- Understand the data consumer
- Understand the data
- Keep data in its raw form
- Do not delete or move your raw data
- Validate your extracted data before saving
- Transform your data over all time
- Separate you E-TL
- Minimize the number of data and compute nodes
- Store all you data of practically feasible to do so
- Make your ETL acyclical
- Validate your data before its given to consumers
- Join your data at the database level
- Monitor your data

570 views10:01

DataEng

Если вы пользуетесь Apache Airflow для построения batch-процессов и хотите знать тонкости его работы, то рекомендую к прочтению пост: How Apache Airflow Distributes Jobs on Celery workers

www.sicara.ai

How Apache Airflow Distributes Jobs on Celery workers

Discover what happens when Apache Airflow performs task distribution on Celery workers through RabbitMQ queues.

601 views07:01

DataEng

В блоге AirBnB вышла полезная статья про идемпотентный фреймворк для построения распределенных систем.

В самой статье идёт речь про кейс реализации системы предотвращающей двойное списание денег у клиентов сервиса.

Читаем: https://medium.com/airbnb-engineering/avoiding-double-payments-in-a-distributed-payments-system-2981f6b070bb

Medium

Avoiding Double Payments in a Distributed Payments System

How we built a generic idempotency framework to achieve eventual consistency and correctness across our payments micro-service…

5.17K views09:54

DataEng

Нашел очень интересный доклад от Chief Data Engineer компании Paypal Sid Anand про data инфраструктуру компании. К слову, Paypal ежедневно обрабатывает более 1 миллиарда долларов транзакций в 200 странах. Как всё это работает и не падает смотрите в докладе

YouTube

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

618 views07:00

DataEng

Интересный кейс про построение дата пайплайна через Python и Celery для обновления Amazon Redshift - читать. Советую изучения ради. Если же у вас стоит подобная задача, то рекомендую использовать наиболее подходящие для этого инструменты, например, Luigi или Apache Airflow.

Как сделать pipeline на Luigi я писал ещё в 2017 году в блоге. Для любителей celery тоже есть интересная статейка.

677 views16:01

DataEng

Forwarded from DevBrain

Появилось видео моей презентации на Kolesa Conf в Алматы, которая проходила 12 апреля. Тема моей презентации: ETL на Python. Видео

YouTube

ETL на Python, или Построение идемпотентных дата пайплайнов, Адиль Хаштамов

65 views15:06

DataEng

Сейчас идёт конференция PyCon US 2019. Один туториал был посвящен построению пайплайнов на Apache Airflow: https://youtu.be/n9_JjmHRtys

YouTube

Tania Allard - Building data pipelines in Python: Airflow vs scripts soup - PyCon 2019

"Speaker: Tania AllardIn data science (in its all its variants) a significant part of an individual’s time is spent preparing data into a digestible format. ...

610 views06:00

DataEng

Обзор архитектуры Apache Spark с "высоты птичьего полёта": https://hackernoon.com/high-level-overview-of-apache-spark-c225a0a162e9

Hackernoon

High Level Overview of Apache Spark | HackerNoon

In <a href="https://hackernoon.com/why-we-need-apache-spark-51c8a57aa57a">my last post </a>we introduced a problem: copious, never ending streams of data, and it’s solution: Apache Spark. Here in Part II we’ll focus on Spark’s internal architecture and data…

546 views14:00

DataEng

Обзорная презентация с Google IO про сервисы Google Cloud Platform. Будет интересно начинающим: https://www.youtube.com/watch?v=h4NJdvUcq2c

YouTube

Google Cloud Platform (GCP) Essentials (Google I/O'19)

This session is your key to the Google Cloud Platform kingdom, covering compute options, storage and database solutions, container-driven runtimes, continuous integration tools, applied DevOps principles, fully-managed big data processing, and machine learning…

582 views07:00

DataEng

Если вы у себя используете Airflow, то эта статейка может быть весьма к стати: https://medium.com/flatiron-engineering/upgrading-airflow-with-zero-downtime-8df303760c96

Medium

Upgrading Airflow with Zero Downtime

At Flatiron Health, we use Airflow to orchestrate the pipelines necessary to build the mission-critical datasets we use to accelerate…

616 views07:01

DataEng

Нашел в сети интересный чеклист для подготовки к интервью на позицию Data Engineer - The Interview Study Guide For Data EngineersThe Interview Study Guide For Data Engineers

736 views08:00

DataEng

На HighLoad++ 2018 был доклад про data engineers: Дата-инженеры и кому они нужны - www.youtube.com/watch?v=KyZYDCkNPow

YouTube

Дата-инженеры и кому они нужны / Валентин Гогичашвили (Zalando SE)

Приглашаем на конференцию Saint HighLoad++ 2025, которая пройдет 23 и 24 июня в Санкт-Петербурге!
Программа, подробности и билеты по ссылке: https://highload.ru/spb/2025
________
HighLoad++ Moscow 2018

Тезисы и презентация:
https://www.highload.ru/mo…

707 viewsedited 06:25

DataEng

Неплохой пост про эволюцию профессии дата инженера https://medium.com/analytics-and-data/on-the-evolution-of-data-engineering-c5e56d273e37

Medium

ON the evolution of Data Engineering

A few years ago being a data engineer meant managing data in and out of a database, creating pipelines in SQL or Procedural SQL and doing…

567 views16:57

DataEng

Не так давно в Лондоне прошел Kafka Summit London 2019. Все видео с этого саммита уже доступны онлайн: https://www.confluent.io/resources/kafka-summit-london-2019/

Confluent

Kafka Summit London 2019 - Confluent

Confluent is building the foundational platform for data in motion so any organization can innovate and win in a digital-first world.

631 views10:41

DataEng

Не так давно компания Lyft выпустила свой инструмент для Data Discovery - Amundsen. Задача этой тулзы - собрать в одном месте всю информацию о данных внутри компании. На Strata Data Confence разработчики выступили с рассказом о ней - Disrupting Data Discovery at Lyft (Amundsen).

Помимо доклада есть пост в техническом блоге Lyft - Amundsen — Lyft’s data discovery & metadata engine

YouTube

Disrupting Data Discovery at Lyft (Amundsen)

Lyft has reduced the time it takes to discover data by 10x by building its own data portal, Amundsen. Amundsen is built on three key pillars: an augmented da...

826 views06:33

About

Blog

Apps

Platform