Forwarded from DevBrain
Появилось видео моей презентации на Kolesa Conf в Алматы, которая проходила 12 апреля. Тема моей презентации: ETL на Python. Видео
YouTube
ETL на Python, или Построение идемпотентных дата пайплайнов, Адиль Хаштамов
Сейчас идёт конференция PyCon US 2019. Один туториал был посвящен построению пайплайнов на Apache Airflow: https://youtu.be/n9_JjmHRtys
YouTube
Tania Allard - Building data pipelines in Python: Airflow vs scripts soup - PyCon 2019
"Speaker: Tania AllardIn data science (in its all its variants) a significant part of an individual’s time is spent preparing data into a digestible format. ...
Обзор архитектуры Apache Spark с "высоты птичьего полёта": https://hackernoon.com/high-level-overview-of-apache-spark-c225a0a162e9
Hackernoon
High Level Overview of Apache Spark | HackerNoon
In <a href="https://hackernoon.com/why-we-need-apache-spark-51c8a57aa57a">my last post </a>we introduced a problem: copious, never ending streams of data, and it’s solution: Apache Spark. Here in Part II we’ll focus on Spark’s internal architecture and data…
Обзорная презентация с Google IO про сервисы Google Cloud Platform. Будет интересно начинающим: https://www.youtube.com/watch?v=h4NJdvUcq2c
YouTube
Google Cloud Platform (GCP) Essentials (Google I/O'19)
This session is your key to the Google Cloud Platform kingdom, covering compute options, storage and database solutions, container-driven runtimes, continuous integration tools, applied DevOps principles, fully-managed big data processing, and machine learning…
Если вы у себя используете Airflow, то эта статейка может быть весьма к стати: https://medium.com/flatiron-engineering/upgrading-airflow-with-zero-downtime-8df303760c96
Medium
Upgrading Airflow with Zero Downtime
At Flatiron Health, we use Airflow to orchestrate the pipelines necessary to build the mission-critical datasets we use to accelerate…
Нашел в сети интересный чеклист для подготовки к интервью на позицию Data Engineer - The Interview Study Guide For Data EngineersThe Interview Study Guide For Data Engineers
На HighLoad++ 2018 был доклад про data engineers: Дата-инженеры и кому они нужны - www.youtube.com/watch?v=KyZYDCkNPow
YouTube
Дата-инженеры и кому они нужны / Валентин Гогичашвили (Zalando SE)
Приглашаем на конференцию Saint HighLoad++ 2025, которая пройдет 23 и 24 июня в Санкт-Петербурге!
Программа, подробности и билеты по ссылке: https://highload.ru/spb/2025
________
HighLoad++ Moscow 2018
Тезисы и презентация:
https://www.highload.ru/mo…
Программа, подробности и билеты по ссылке: https://highload.ru/spb/2025
________
HighLoad++ Moscow 2018
Тезисы и презентация:
https://www.highload.ru/mo…
Неплохой пост про эволюцию профессии дата инженера https://medium.com/analytics-and-data/on-the-evolution-of-data-engineering-c5e56d273e37
Medium
ON the evolution of Data Engineering
A few years ago being a data engineer meant managing data in and out of a database, creating pipelines in SQL or Procedural SQL and doing…
Не так давно в Лондоне прошел Kafka Summit London 2019. Все видео с этого саммита уже доступны онлайн: https://www.confluent.io/resources/kafka-summit-london-2019/
Confluent
Kafka Summit London 2019 - Confluent
Confluent is building the foundational platform for data in motion so any organization can innovate and win in a digital-first world.
Не так давно компания Lyft выпустила свой инструмент для Data Discovery - Amundsen. Задача этой тулзы - собрать в одном месте всю информацию о данных внутри компании. На Strata Data Confence разработчики выступили с рассказом о ней - Disrupting Data Discovery at Lyft (Amundsen).
Помимо доклада есть пост в техническом блоге Lyft - Amundsen — Lyft’s data discovery & metadata engine
Помимо доклада есть пост в техническом блоге Lyft - Amundsen — Lyft’s data discovery & metadata engine
YouTube
Disrupting Data Discovery at Lyft (Amundsen)
Lyft has reduced the time it takes to discover data by 10x by building its own data portal, Amundsen. Amundsen is built on three key pillars: an augmented da...
Интересный доклад про построение дата-инжиниринг культуры: Creating a Data Engineering Culture
YouTube
Creating a Data Engineering Culture | Big Data Institute
Get the slides: https://www.datacouncil.ai/talks/creating-a-data-engineering-cultureDownload slides of this talk: https://www.dataengconf.com/speaker/creatin...
Стали появляться видео с прошедшей конференции Data Council (бывшая DataEng Conf)
- Running Apache Airflow Reliably with Kubernetes
- Amundsen: A Data Discovery Platform From Lyft
- Notebooks as Functions with Papermill
- Operating Multi-Tenant Kafka Services for Developers on Heroku
- How Data is Transforming Politics
- Running Apache Airflow Reliably with Kubernetes
- Amundsen: A Data Discovery Platform From Lyft
- Notebooks as Functions with Papermill
- Operating Multi-Tenant Kafka Services for Developers on Heroku
- How Data is Transforming Politics
YouTube
Running Apache Airflow Reliably with Kubernetes | Astronomer
Get the slides: https://www.datacouncil.ai/talks/running-airflow-reliably-with-kubernetesABOUT THE TALKAstronomer is a data engineering platform that collect...
трезвая статья про кафку: https://vicki.substack.com/p/you-dont-need-kafka
Normcore Tech
You don't need Kafka
really.
в тех.блоге DataDog появилась статья про опыт использования apache kafka внутри компании: https://www.datadoghq.com/blog/kafka-at-datadog/
Datadog
Lessons learned from running Kafka at Datadog | Datadog
Learn about several configuration-related issues we encountered while running 40+ Kafka and ZooKeeper clusters.
нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.
GitHub
GitHub - dagster-io/dagster: An orchestration platform for the development, production, and observation of data assets.
An orchestration platform for the development, production, and observation of data assets. - dagster-io/dagster
Если вы активный пользователей Apache Airflow и Sentry, то вышла крутая новость! Теперь эти две балалайки можно и нужно склеить между собой. Читайте как тут: https://blog.sentry.io/2019/07/10/sentry-for-data-optimizing-airflow-with-sentry
Product Blog • Sentry
Sentry for Data: Optimizing Airflow with Sentry
In our Sentry for Data series, we explain precisely why Sentry is the perfect tool for your data team.
17-18 июля сего года в Сингапуре прошла конференция Data Council SG, где были интересные доклады на тему data science, data engineering и т.д. Вот наиболее интересные видосики:
- Data Architecture 101 for Your Business
- Presto: Optimizing Performance of SQL-on-Anything
- Data Modeling and Processing for a Travel Super App
- Revenue Maximization in the Shared Bike Business
- Building Data Orchestration for Big Data Analytics in the Cloud
Весь плейлист можно посмотреть по ссылке
- Data Architecture 101 for Your Business
- Presto: Optimizing Performance of SQL-on-Anything
- Data Modeling and Processing for a Travel Super App
- Revenue Maximization in the Shared Bike Business
- Building Data Orchestration for Big Data Analytics in the Cloud
Весь плейлист можно посмотреть по ссылке
YouTube
Data Architecture 101 for Your Business
Download Slides: https://www.datacouncil.ai/talks/data-architecture-101-for-your-business?hsLang=en
WANT TO EXPERIENCE A TALK LIKE THIS LIVE?
Barcelona: https://www.datacouncil.ai/barcelona
New York City: https://www.datacouncil.ai/new-york-city
San…
WANT TO EXPERIENCE A TALK LIKE THIS LIVE?
Barcelona: https://www.datacouncil.ai/barcelona
New York City: https://www.datacouncil.ai/new-york-city
San…
Выложены доклады с прошедшей в Барселоне DataCouncil '19: https://www.youtube.com/playlist?list=PLAesBe-zAQmHsjJQWIP71qkFSocVSbug2
YouTube
Data Council BCN '19 - YouTube
Друзья!
На платформе Stepik я запустил продажи курса Введение в data engineering: дата-пайплайны. Речь в курсе идёт о замечательном инструменте Luigi о котором я неоднократно рассказывал на конференциях и в статьях.
Сейчас курс сделан наполовину, в нём есть вводная часть и каждую неделю, начиная с 18 ноября, будет открываться новый модуль с практическими материалами. Этот небольшой курс это начало интересной специализации по data engineering (будут отдельные курсы), которую я планирую создать в будущем, в неё войдут материалы про базы данных, распределенные системы, продвинутый SQL, инструменты экосистемы больших данных (Kafka, Spark, Airflow и т.д).
В курсе про дата-пайплайны я рассказываю о существующих инструментах, и детальный акцент делаю на Luigi. Курс научит вас понимать luigi и его компоненты, эффективно строить сложные зависимости между задачами, а также деплоить ваш пайплайн через Docker. Я подробно расскажу про конфигурирование и подводные камни при работе с этим инструментом.
Стоимость курса всего $10. Ссылка на курс: https://bit.ly/36P1eWG
Чтобы его купить, необходимо сначала зарегистрироваться на платформе stepik.org.
На платформе Stepik я запустил продажи курса Введение в data engineering: дата-пайплайны. Речь в курсе идёт о замечательном инструменте Luigi о котором я неоднократно рассказывал на конференциях и в статьях.
Сейчас курс сделан наполовину, в нём есть вводная часть и каждую неделю, начиная с 18 ноября, будет открываться новый модуль с практическими материалами. Этот небольшой курс это начало интересной специализации по data engineering (будут отдельные курсы), которую я планирую создать в будущем, в неё войдут материалы про базы данных, распределенные системы, продвинутый SQL, инструменты экосистемы больших данных (Kafka, Spark, Airflow и т.д).
В курсе про дата-пайплайны я рассказываю о существующих инструментах, и детальный акцент делаю на Luigi. Курс научит вас понимать luigi и его компоненты, эффективно строить сложные зависимости между задачами, а также деплоить ваш пайплайн через Docker. Я подробно расскажу про конфигурирование и подводные камни при работе с этим инструментом.
Стоимость курса всего $10. Ссылка на курс: https://bit.ly/36P1eWG
Чтобы его купить, необходимо сначала зарегистрироваться на платформе stepik.org.
Stepik: online education
Введение в Data Engineering: дата-пайплайны
Курс раскрывает тему построения сложных дата-пайплайнов в экосистеме Python, а именно знакомит слушателя с удобным и гибким инструментом Luigi.
Компания Confluent анонсировала выход ksqlDB: https://www.confluent.io/blog/intro-to-ksqldb-sql-database-streaming
Confluent
Introducing ksqlDB
Today marks a new release of KSQL, one so significant that we’re giving it a new name: ksqlDB. There are two new major features we’re adding: pull queries and connector management.
Потихоньку становятся доступны доклады с Data Council, прошедшей в Нью-Йорке: https://bit.ly/2OgHC6m
YouTube
Accelerate Source to Signal: Data Engineering Efficiency | Crux Informatics
Get the slides: https://www.datacouncil.ai/talks/accelerate-source-to-signal-data-engineering-efficiency?hsLang=enABOUT THE TALKIngesting data from thousands...