DataEng
4.35K subscribers
40 photos
9 files
537 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Не так давно компания Lyft выпустила свой инструмент для Data Discovery - Amundsen. Задача этой тулзы - собрать в одном месте всю информацию о данных внутри компании. На Strata Data Confence разработчики выступили с рассказом о ней - Disrupting Data Discovery at Lyft (Amundsen).

Помимо доклада есть пост в техническом блоге Lyft - Amundsen — Lyft’s data discovery & metadata engine
в тех.блоге DataDog появилась статья про опыт использования apache kafka внутри компании: https://www.datadoghq.com/blog/kafka-at-datadog/
нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.
Если вы активный пользователей Apache Airflow и Sentry, то вышла крутая новость! Теперь эти две балалайки можно и нужно склеить между собой. Читайте как тут: https://blog.sentry.io/2019/07/10/sentry-for-data-optimizing-airflow-with-sentry
Выложены доклады с прошедшей в Барселоне DataCouncil '19: https://www.youtube.com/playlist?list=PLAesBe-zAQmHsjJQWIP71qkFSocVSbug2
Друзья!

На платформе Stepik я запустил продажи курса Введение в data engineering: дата-пайплайны. Речь в курсе идёт о замечательном инструменте Luigi о котором я неоднократно рассказывал на конференциях и в статьях.

Сейчас курс сделан наполовину, в нём есть вводная часть и каждую неделю, начиная с 18 ноября, будет открываться новый модуль с практическими материалами. Этот небольшой курс это начало интересной специализации по data engineering (будут отдельные курсы), которую я планирую создать в будущем, в неё войдут материалы про базы данных, распределенные системы, продвинутый SQL, инструменты экосистемы больших данных (Kafka, Spark, Airflow и т.д).

В курсе про дата-пайплайны я рассказываю о существующих инструментах, и детальный акцент делаю на Luigi. Курс научит вас понимать luigi и его компоненты, эффективно строить сложные зависимости между задачами, а также деплоить ваш пайплайн через Docker. Я подробно расскажу про конфигурирование и подводные камни при работе с этим инструментом.

Стоимость курса всего $10. Ссылка на курс: https://bit.ly/36P1eWG

Чтобы его купить, необходимо сначала зарегистрироваться на платформе stepik.org.
В подкасте Data engineering вышел эпизод с авторами проекта Debezium: https://www.dataengineeringpodcast.com/debezium-change-data-capture-episode-114/
Для тех, кто в танке, debezium позволяет транслировать логи изменений БД (Change Data Capture). Поддерживает наиболее популярные БД, включая MySQL, PostgreSQL, MongoDB, SQL Server, Oracle, Cassandra.
Всем привет!

На сайте Dice вышла статья о том, что 2020 год должен стать годом Data Engineer: 2020: The Year of the Citizen Data Engineer

В заметке есть интересная ссылка на исследование от LinkedIn: 2020 Emerging Jobs Report, где дата инженер занимает почетное 8 месте с годовым приростом спроса аж на 38%. Отчёт актуален для рынка США.

Из наиболее популярных навыков для дата инженера упоминаются:

- Apache Spark
- Hadoop
- Python
- SQL
- ETL
- Amazon Web Services

Самое время углубиться в эту интересную и важную профессию цифрового века. А узнать как стать дата инженером поможет моя прошлогодняя статья: Как стать Data Engineer.
Нашел интересный пост про уровни зрелости организаций относительно аналитики на имеющихся данных.
Автор на основе своего опыта выделил 4 уровня:

0. Латентный (Latent)
На этом уровне компании обычно собирают данные, но чаще всего не использует их для принятия решений.

1. Анализ (Analysis)
На этом этапе у организации есть люди, занимающиеся аналитикой и формирующие инсайты из данных.

2. Обучение (Learning)
К этому моменту у компании должно скопиться достаточное количество данных, чтобы на их основе формировать выводы, используя машинное обучение. Так или иначе начинает формироваться отдел аналитики с дата саентистами и дата аналитиками (а может даже и дата инженерами). Специалисты начинают строить модели и деплоить их в продакшен. По своему опыту скажу, что на этом этапе batch processing превалирует на real-time processing.

3. Действие (Acting)
Последний уровень на котором, по мнению автора, выводы строятся в режиме реального времени. Тут зачастую в ход идут технологии stream processing типа Apache Flink, Spark, Storm, Kafka. Как правило на этом этапе практически полностью исчезает лаг между сбором данных и конечным выводом по ним (который есть на уровне Обучение).

Почитать оригинал можно по ссылке: https://medium.com/@bratseth/the-big-data-maturity-levels-8b61875032cc

А на каком уровне находитесь вы?
Стартовал новый поток курса по базам данных от Carnegie Mellon University — Advanced Database Systems
В курсе не идёт речь о каких-то определённых базах, а раскрывается их внутренее устройство. Будут затронуты как транзакционные БД (OLTP), так и аналитические, распределенные БД (OLAP).

Ссылка на расписание курса: https://15721.courses.cs.cmu.edu/spring2020/schedule.html

Ссылка на страницу курса: https://15721.courses.cs.cmu.edu/spring2020/
​​Накатал статейку про введение в Apache Airflow: https://bit.ly/37o3tiD
Amazon опубликовали научную статью по работе Firecracker.
Для тех, кто не в курсе, Firecracker это легковесная виртуализация на основе которой работает сервис Amazon Lambda. Firecracker, кстати, open source продукт: https://github.com/firecracker-microvm/firecracker
Ссылка на статью: https://www.amazon.science/publications/firecracker-lightweight-virtualization-for-serverless-applications