DataEng

17-18 июля сего года в Сингапуре прошла конференция Data Council SG, где были интересные доклады на тему data science, data engineering и т.д. Вот наиболее интересные видосики:

- Data Architecture 101 for Your Business

- Presto: Optimizing Performance of SQL-on-Anything

- Data Modeling and Processing for a Travel Super App

- Revenue Maximization in the Shared Bike Business

- Building Data Orchestration for Big Data Analytics in the Cloud

Весь плейлист можно посмотреть по ссылке

YouTube

Data Architecture 101 for Your Business

Download Slides: https://www.datacouncil.ai/talks/data-architecture-101-for-your-business?hsLang=en

WANT TO EXPERIENCE A TALK LIKE THIS LIVE?

Barcelona: https://www.datacouncil.ai/barcelona
New York City: https://www.datacouncil.ai/new-york-city
San…

1.05K viewsedited 11:02

Add a comment

DataEng

Выложены доклады с прошедшей в Барселоне DataCouncil '19: https://www.youtube.com/playlist?list=PLAesBe-zAQmHsjJQWIP71qkFSocVSbug2

YouTube

Data Council BCN '19 - YouTube

733 views11:57

1 comment

DataEng

Друзья!

На платформе Stepik я запустил продажи курса Введение в data engineering: дата-пайплайны. Речь в курсе идёт о замечательном инструменте Luigi о котором я неоднократно рассказывал на конференциях и в статьях.

Сейчас курс сделан наполовину, в нём есть вводная часть и каждую неделю, начиная с 18 ноября, будет открываться новый модуль с практическими материалами. Этот небольшой курс это начало интересной специализации по data engineering (будут отдельные курсы), которую я планирую создать в будущем, в неё войдут материалы про базы данных, распределенные системы, продвинутый SQL, инструменты экосистемы больших данных (Kafka, Spark, Airflow и т.д).

В курсе про дата-пайплайны я рассказываю о существующих инструментах, и детальный акцент делаю на Luigi. Курс научит вас понимать luigi и его компоненты, эффективно строить сложные зависимости между задачами, а также деплоить ваш пайплайн через Docker. Я подробно расскажу про конфигурирование и подводные камни при работе с этим инструментом.

Стоимость курса всего $10. Ссылка на курс: https://bit.ly/36P1eWG

Чтобы его купить, необходимо сначала зарегистрироваться на платформе stepik.org.

Stepik: online education

Введение в Data Engineering: дата-пайплайны

Курс раскрывает тему построения сложных дата-пайплайнов в экосистеме Python, а именно знакомит слушателя с удобным и гибким инструментом Luigi.

964 views12:01

2 comments

DataEng

Компания Confluent анонсировала выход ksqlDB: https://www.confluent.io/blog/intro-to-ksqldb-sql-database-streaming

Confluent

Introducing ksqlDB

Today marks a new release of KSQL, one so significant that we’re giving it a new name: ksqlDB. There are two new major features we’re adding: pull queries and connector management.

815 views17:24

Add a comment

DataEng

Потихоньку становятся доступны доклады с Data Council, прошедшей в Нью-Йорке: https://bit.ly/2OgHC6m

YouTube

Accelerate Source to Signal: Data Engineering Efficiency | Crux Informatics

Get the slides: https://www.datacouncil.ai/talks/accelerate-source-to-signal-data-engineering-efficiency?hsLang=enABOUT THE TALKIngesting data from thousands...

952 views11:29

Add a comment

DataEng

На Data Engineering Podcast вышел выпуск про SnowflakeDB: https://www.dataengineeringpodcast.com/snowflakedb-cloud-data-warehouse-episode-110/

Data Engineering Podcast

SnowflakeDB: The Data Warehouse Built For The Cloud - Episode 110

Data warehouses have gone through many transformations, from standard relational databases on powerful hardware, to column oriented storage engines, to the current generation of cloud-native analytical engines. SnowflakeDB has been leading the charge to take…

1.03K views13:28

Add a comment

DataEng

В подкасте Data engineering вышел эпизод с авторами проекта Debezium: https://www.dataengineeringpodcast.com/debezium-change-data-capture-episode-114/
Для тех, кто в танке, debezium позволяет транслировать логи изменений БД (Change Data Capture). Поддерживает наиболее популярные БД, включая MySQL, PostgreSQL, MongoDB, SQL Server, Oracle, Cassandra.

Data Engineering Podcast

Change Data Capture For All Of Your Databases With Debezium - Episode 114

Databases are useful for inspecting the current state of your application, but inspecting the history of that data can get messy without a way to track changes as they happen. Debezium is an open source platform for reliable change data capture that you can…

644 views04:44

Add a comment

DataEng

Всем привет!

На сайте Dice вышла статья о том, что 2020 год должен стать годом Data Engineer: 2020: The Year of the Citizen Data Engineer

В заметке есть интересная ссылка на исследование от LinkedIn: 2020 Emerging Jobs Report, где дата инженер занимает почетное 8 месте с годовым приростом спроса аж на 38%. Отчёт актуален для рынка США.

Из наиболее популярных навыков для дата инженера упоминаются:

- Apache Spark
- Hadoop
- Python
- SQL
- ETL
- Amazon Web Services

Самое время углубиться в эту интересную и важную профессию цифрового века. А узнать как стать дата инженером поможет моя прошлогодняя статья: Как стать Data Engineer.

Dice Insights

2020: The Year of the Citizen Data Engineer

Data sophistication has forever and profoundly changed the way in which companies do business today. Data-driven innovation has led to better business decisions, enhanced customer engagement, and improved customer retention, all of which are essential to…

6.41K views10:50

Add a comment

DataEng

Нашел интересный пост про уровни зрелости организаций относительно аналитики на имеющихся данных.
Автор на основе своего опыта выделил 4 уровня:

0. Латентный (Latent)
На этом уровне компании обычно собирают данные, но чаще всего не использует их для принятия решений.

1. Анализ (Analysis)
На этом этапе у организации есть люди, занимающиеся аналитикой и формирующие инсайты из данных.

2. Обучение (Learning)
К этому моменту у компании должно скопиться достаточное количество данных, чтобы на их основе формировать выводы, используя машинное обучение. Так или иначе начинает формироваться отдел аналитики с дата саентистами и дата аналитиками (а может даже и дата инженерами). Специалисты начинают строить модели и деплоить их в продакшен. По своему опыту скажу, что на этом этапе batch processing превалирует на real-time processing.

3. Действие (Acting)
Последний уровень на котором, по мнению автора, выводы строятся в режиме реального времени. Тут зачастую в ход идут технологии stream processing типа Apache Flink, Spark, Storm, Kafka. Как правило на этом этапе практически полностью исчезает лаг между сбором данных и конечным выводом по ним (который есть на уровне Обучение).

Почитать оригинал можно по ссылке: https://medium.com/@bratseth/the-big-data-maturity-levels-8b61875032cc

А на каком уровне находитесь вы?

Medium

The big data maturity levels

By now it’s well known that making effective use of data is a competitive advantage. But how advanced is your organization at making use…

1.09K views17:49

Add a comment

DataEng

Стартовал новый поток курса по базам данных от Carnegie Mellon University — Advanced Database Systems
В курсе не идёт речь о каких-то определённых базах, а раскрывается их внутренее устройство. Будут затронуты как транзакционные БД (OLTP), так и аналитические, распределенные БД (OLAP).

Ссылка на расписание курса: https://15721.courses.cs.cmu.edu/spring2020/schedule.html

Ссылка на страницу курса: https://15721.courses.cs.cmu.edu/spring2020/

YouTube

01 - History of Databases (CMU Databases / Spring 2020)

Prof. Andy Pavlo (https://www.cs.cmu.edu/~pavlo/)
Slides: https://15721.courses.cs.cmu.edu/spring2020/slides/01-history.pdf

15-721 Advanced Database Systems (Spring 2020)
Carnegie Mellon University
https://15721.courses.cs.cmu.edu/spring2020/

996 viewsedited 11:28

DataEng

Доклад про ETL на базе event-driven от сотрудника Confluent: https://talks.rmoff.net/Jn6rgo#sriL5Sw

talks.rmoff.net

The Changing Face of ETL: Event-Driven Architectures for Data Engineers by Robin Moffatt

Data integration in architectures built on static, update-in-place datastores inevitably end up with pathologically high degrees of coupling and poor scalability. This has been the standard practice for decades, as we attempt to build data pipelines on top…

860 views07:49

Add a comment

DataEng

Друзья, ссылка на вебинар: https://www.youtube.com/watch?v=fkKKD93WA4s. Начало через 7 минут.
С меня пост про dbt в блоге чуть позже, сам давно хочу внедрить её в повседневные рутинные задачи, связанные с SQL.

YouTube

Открытый вебинар «Data Build Tool для хранилища Amazon Redshift»

Рассматриваем построение моделей и зависимостей.
Изучаем полную и инкрементальную загрузку, работу с вложенными (nested) JSON, макросы и шаблоны Jinja, автоматическое тестирование.

Ссылка на слайды - https://docs.google.com/presentation/d/1acoXbZEncyKJ…

980 views16:53

Add a comment

DataEng

Накатал статейку про введение в Apache Airflow: https://bit.ly/37o3tiD

6.75K views13:28

2 comments

DataEng

Amazon опубликовали научную статью по работе Firecracker.
Для тех, кто не в курсе, Firecracker это легковесная виртуализация на основе которой работает сервис Amazon Lambda. Firecracker, кстати, open source продукт: https://github.com/firecracker-microvm/firecracker
Ссылка на статью: https://www.amazon.science/publications/firecracker-lightweight-virtualization-for-serverless-applications

GitHub

GitHub - firecracker-microvm/firecracker: Secure and fast microVMs for serverless computing.

Secure and fast microVMs for serverless computing. - firecracker-microvm/firecracker

1.07K viewsedited 18:30

DataEng

Dice.com опубликовали отчёт Dice 2020 Tech Job Report в котором специальность Data Engineer занимает 1-е место в категории Fastest Growing Tech Occupations с результатом 50%. Это значит, что спрос на дата инженеров вырос на 50% в сравнении с 2019 годом.

Среднее время закрытия позиции в США составляет 46 дней. Dice прогнозируют, что этот показатель вырастет, т.к. спрос на таких специалистов продолжает расти. Amazon, например, активно нанимает дата инженеров в команды по всему миру. Пруф

Мне кажется, что сейчас самое лучшее время для тех, кто хочет стать Data Engineer. Напоминаю, что в начале прошлого года я публиковал статью Как стать Data Engineer. Необходимые навыки, которые я описывал в статье, пересекаются с навыками дата инженера по мнению ребят из Dice.com.

735 views06:01

😱 2 👏 3 💃 1 🕺 1

Открыть комментарии

DataEng

Dice_2020_Tech_Job_Report.pdf

29.2 MB

Сам отчёт Dice.com 🔥

1.2K views06:05

Add a comment

DataEng

Доклад Future of Data Engineering на QCon от инженера из WePay: https://www.infoq.com/presentations/data-engineering-pipelines-warehouses/

InfoQ

Future of Data Engineering

Chris Riccomini talks about the current state-of-the-art in data pipelines and data warehousing, and shares some of the solutions to current problems dealing with data streaming and warehousing.

776 views07:01

Add a comment

DataEng

В рамках подготовки к митапу AWS Meetup Almaty 2020 написал небольшую статью про построение Data Lake средствами AWS, а именно:

- Amazon S3
- Amazon Glue
- Amazon Athena

Прочитать можно по ссылке: https://bit.ly/2Tkcswc
Код с примерами пайплайна есть в моём гитхаб репе: https://github.com/adilkhash/aws-meetup-almaty-2019-data-lake

3.71K views06:01

4 comments

DataEng

Ребята из AppsFlyer поделились кейсом использования Apache Airflow: https://medium.com/appsflyer/how-appsflyer-uses-apache-airflow-to-run-over-3-5k-daily-jobs-and-more-683106cb24fc

Если не знаете что такое Airflow, велком в мою статью: https://khashtamov.com/ru/apache-airflow-introduction/

Medium

How AppsFlyer uses Apache Airflow to run over 3.5k daily jobs and more

AppsFlyer is essentially a big data company, we get data from our SDK’s, transform and normalize the data, and then showing it on our…

767 views02:03

Add a comment

DataEng

В базе данных Amazon Redshift наконец то стали доступны материализованный представления (materialized views) для всех: https://aws.amazon.com/ru/blogs/aws/materialize-your-amazon-redshift-views-to-speed-up-query-execution/

Amazon

Materialize your Amazon Redshift Views to Speed Up Query Execution | Amazon Web Services

At AWS, we take pride in building state of the art virtualization technologies to simplify the management and access to cloud services such as networks, computing resources or object storage. In a Relational Database Management Systems (RDBMS), a view is…

574 views03:55

Add a comment

DataEng

Forwarded from DevBrain

И снова поговорим про ETL

На PyCon RU я сравнивал 2 ETL-инструмента в экосистема Python:

- Luigi
- Apache Airflow

И в конце упоминал ещё несколько батареек на которые стоит обратить внимание. Среди них был Prefect.
Это относительно новый инструмент, который появился в результате коллаборации разработчиков из Apache Airflow и Dask. Мотивацию о создании нового инструмента они описали в посте Why not Airflow?. Но сейчас не об этом.

Вчера состоялся новый релиз Prefect, где наконец появился UI дэшборд. Я до этого времени особо не обращал на него пристального внимания, т.к. именно UI фишечки и не хватало. Кстати, небольшой пример пайплайна на Prefect я писал в рамках подготовки к PyCon RU 19.

Материалы:
- NYC Yellow Taxi Data Pipeline на Prefect
- Примеры пайплайнов на Airflow, Luigi, Prefect для выступления на PyCon RU 19
- Доклад на PyCon RU 19: ETL инструменты в экосистеме Python
- Сайт Prefect

Medium

Why Not Airflow?

An overview of the Prefect engine for Airflow users

102 views09:05

Show comments

About

Blog

Apps

Platform