На Udacity вышел Nano degree про Data Engineering: https://www.udacity.com/course/data-engineer-nanodegree--nd027, цена правда заоблачная - $999
Udacity
Data Engineering Training Course | Become a Data Engineer | Udacity
Data Engineering is the foundation of Big Data. Enroll in our data engineering with AWS training course and learn essential skills to become a data engineer.
Пост в блоге про новый nano degree: https://blog.udacity.com/2019/03/learn-data-engineering-nanodegree-program.html
Udacity
Introducing the Udacity Data Engineering Nanodegree Program | Udacity
The ratio of data engineer to data scientist job openings is four-to-one. Get skills to qualify for these roles in the Data Engineering Nanodegree program.
В подкасте Software Engineering Daily вышел эпизод про Apache Superset с его создателем Maxime Beauchemin: https://softwareengineeringdaily.com/2019/03/22/apache-superset-with-maxime-beauchemin/
Software Engineering Daily
Apache Superset with Maxime Beauchemin - Software Engineering Daily
Upcoming events: A Conversation with Haseeb Qureshi at Cloudflare on April 3, 2019 FindCollabs Hackathon at App Academy on April 6, 2019 Data engineering touches every area of an organization. Engineers need a data platform to build search indexes and microservices.…
Forwarded from DevBrain
Собрал свои мысли в одно место и таким образом появилась статья Как статья Data Engineer. Область Data Engineering активно растёт, надеюсь материал будет полезен!
Khashtamov
Как стать Data Engineer
Сейчас специализация в области data engineering активно набирает обороты. Судя по отчёту компании hired.com, спрос на data engineer специалистов вырос на 38%, и рост продолжится. Средняя зарплата у...
В техническом блоге DataDog вышел крутой материал про построение надёжных дата пайплайнов: Building Highly Reliable Data Pipelines at Datadog
Datadog
Building Highly Reliable Data Pipelines at Datadog | Datadog
A look at how Datadog builds and operates data pipelines reliably at scale.
Хороший доклад про принципы построения пайплайнов без привязки к каким-либо инструментам: Data Engineering Principles - Build frameworks not pipelines
Принципы построения дата пайплайнов из презентации:
- Understand the data consumer
- Understand the data
- Keep data in its raw form
- Do not delete or move your raw data
- Validate your extracted data before saving
- Transform your data over all time
- Separate you E-TL
- Minimize the number of data and compute nodes
- Store all you data of practically feasible to do so
- Make your ETL acyclical
- Validate your data before its given to consumers
- Join your data at the database level
- Monitor your data
- Understand the data consumer
- Understand the data
- Keep data in its raw form
- Do not delete or move your raw data
- Validate your extracted data before saving
- Transform your data over all time
- Separate you E-TL
- Minimize the number of data and compute nodes
- Store all you data of practically feasible to do so
- Make your ETL acyclical
- Validate your data before its given to consumers
- Join your data at the database level
- Monitor your data
Если вы пользуетесь Apache Airflow для построения batch-процессов и хотите знать тонкости его работы, то рекомендую к прочтению пост: How Apache Airflow Distributes Jobs on Celery workers
www.sicara.ai
How Apache Airflow Distributes Jobs on Celery workers
Discover what happens when Apache Airflow performs task distribution on Celery workers through RabbitMQ queues.
В блоге AirBnB вышла полезная статья про идемпотентный фреймворк для построения распределенных систем.
В самой статье идёт речь про кейс реализации системы предотвращающей двойное списание денег у клиентов сервиса.
Читаем: https://medium.com/airbnb-engineering/avoiding-double-payments-in-a-distributed-payments-system-2981f6b070bb
В самой статье идёт речь про кейс реализации системы предотвращающей двойное списание денег у клиентов сервиса.
Читаем: https://medium.com/airbnb-engineering/avoiding-double-payments-in-a-distributed-payments-system-2981f6b070bb
Medium
Avoiding Double Payments in a Distributed Payments System
How we built a generic idempotency framework to achieve eventual consistency and correctness across our payments micro-service…
Нашел очень интересный доклад от Chief Data Engineer компании Paypal Sid Anand про data инфраструктуру компании. К слову, Paypal ежедневно обрабатывает более 1 миллиарда долларов транзакций в 200 странах. Как всё это работает и не падает смотрите в докладе
YouTube
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
Интересный кейс про построение дата пайплайна через Python и Celery для обновления Amazon Redshift - читать. Советую изучения ради. Если же у вас стоит подобная задача, то рекомендую использовать наиболее подходящие для этого инструменты, например, Luigi или Apache Airflow.
Как сделать pipeline на Luigi я писал ещё в 2017 году в блоге. Для любителей celery тоже есть интересная статейка.
Как сделать pipeline на Luigi я писал ещё в 2017 году в блоге. Для любителей celery тоже есть интересная статейка.
Forwarded from DevBrain
Появилось видео моей презентации на Kolesa Conf в Алматы, которая проходила 12 апреля. Тема моей презентации: ETL на Python. Видео
YouTube
ETL на Python, или Построение идемпотентных дата пайплайнов, Адиль Хаштамов
Сейчас идёт конференция PyCon US 2019. Один туториал был посвящен построению пайплайнов на Apache Airflow: https://youtu.be/n9_JjmHRtys
YouTube
Tania Allard - Building data pipelines in Python: Airflow vs scripts soup - PyCon 2019
"Speaker: Tania AllardIn data science (in its all its variants) a significant part of an individual’s time is spent preparing data into a digestible format. ...
Обзор архитектуры Apache Spark с "высоты птичьего полёта": https://hackernoon.com/high-level-overview-of-apache-spark-c225a0a162e9
Hackernoon
High Level Overview of Apache Spark | HackerNoon
In <a href="https://hackernoon.com/why-we-need-apache-spark-51c8a57aa57a">my last post </a>we introduced a problem: copious, never ending streams of data, and it’s solution: Apache Spark. Here in Part II we’ll focus on Spark’s internal architecture and data…
Обзорная презентация с Google IO про сервисы Google Cloud Platform. Будет интересно начинающим: https://www.youtube.com/watch?v=h4NJdvUcq2c
YouTube
Google Cloud Platform (GCP) Essentials (Google I/O'19)
This session is your key to the Google Cloud Platform kingdom, covering compute options, storage and database solutions, container-driven runtimes, continuous integration tools, applied DevOps principles, fully-managed big data processing, and machine learning…
Если вы у себя используете Airflow, то эта статейка может быть весьма к стати: https://medium.com/flatiron-engineering/upgrading-airflow-with-zero-downtime-8df303760c96
Medium
Upgrading Airflow with Zero Downtime
At Flatiron Health, we use Airflow to orchestrate the pipelines necessary to build the mission-critical datasets we use to accelerate…
Нашел в сети интересный чеклист для подготовки к интервью на позицию Data Engineer - The Interview Study Guide For Data EngineersThe Interview Study Guide For Data Engineers
На HighLoad++ 2018 был доклад про data engineers: Дата-инженеры и кому они нужны - www.youtube.com/watch?v=KyZYDCkNPow
YouTube
Дата-инженеры и кому они нужны / Валентин Гогичашвили (Zalando SE)
Приглашаем на конференцию Saint HighLoad++ 2025, которая пройдет 23 и 24 июня в Санкт-Петербурге!
Программа, подробности и билеты по ссылке: https://highload.ru/spb/2025
________
HighLoad++ Moscow 2018
Тезисы и презентация:
https://www.highload.ru/mo…
Программа, подробности и билеты по ссылке: https://highload.ru/spb/2025
________
HighLoad++ Moscow 2018
Тезисы и презентация:
https://www.highload.ru/mo…
Неплохой пост про эволюцию профессии дата инженера https://medium.com/analytics-and-data/on-the-evolution-of-data-engineering-c5e56d273e37
Medium
ON the evolution of Data Engineering
A few years ago being a data engineer meant managing data in and out of a database, creating pipelines in SQL or Procedural SQL and doing…
Не так давно в Лондоне прошел Kafka Summit London 2019. Все видео с этого саммита уже доступны онлайн: https://www.confluent.io/resources/kafka-summit-london-2019/
Confluent
Kafka Summit London 2019 - Confluent
Confluent is building the foundational platform for data in motion so any organization can innovate and win in a digital-first world.
Не так давно компания Lyft выпустила свой инструмент для Data Discovery - Amundsen. Задача этой тулзы - собрать в одном месте всю информацию о данных внутри компании. На Strata Data Confence разработчики выступили с рассказом о ней - Disrupting Data Discovery at Lyft (Amundsen).
Помимо доклада есть пост в техническом блоге Lyft - Amundsen — Lyft’s data discovery & metadata engine
Помимо доклада есть пост в техническом блоге Lyft - Amundsen — Lyft’s data discovery & metadata engine
YouTube
Disrupting Data Discovery at Lyft (Amundsen)
Lyft has reduced the time it takes to discover data by 10x by building its own data portal, Amundsen. Amundsen is built on three key pillars: an augmented da...