DataEng

Нашел в сети интересный чеклист для подготовки к интервью на позицию Data Engineer - The Interview Study Guide For Data EngineersThe Interview Study Guide For Data Engineers

736 views08:00

На HighLoad++ 2018 был доклад про data engineers: Дата-инженеры и кому они нужны - www.youtube.com/watch?v=KyZYDCkNPow

Дата-инженеры и кому они нужны / Валентин Гогичашвили (Zalando SE)

Приглашаем на конференцию Saint HighLoad++ 2025, которая пройдет 23 и 24 июня в Санкт-Петербурге!
Программа, подробности и билеты по ссылке: https://highload.ru/spb/2025
________
HighLoad++ Moscow 2018

Тезисы и презентация:
https://www.highload.ru/mo…

707 viewsedited 06:25

ON the evolution of Data Engineering

Неплохой пост про эволюцию профессии дата инженера https://medium.com/analytics-and-data/on-the-evolution-of-data-engineering-c5e56d273e37

Medium

A few years ago being a data engineer meant managing data in and out of a database, creating pipelines in SQL or Procedural SQL and doing…

567 views16:57

Kafka Summit London 2019 - Confluent

Не так давно в Лондоне прошел Kafka Summit London 2019. Все видео с этого саммита уже доступны онлайн: https://www.confluent.io/resources/kafka-summit-london-2019/

Confluent

Confluent is building the foundational platform for data in motion so any organization can innovate and win in a digital-first world.

631 views10:41

Не так давно компания Lyft выпустила свой инструмент для Data Discovery - Amundsen. Задача этой тулзы - собрать в одном месте всю информацию о данных внутри компании. На Strata Data Confence разработчики выступили с рассказом о ней - Disrupting Data Discovery at Lyft (Amundsen).

Помимо доклада есть пост в техническом блоге Lyft - Amundsen — Lyft’s data discovery & metadata engine

Disrupting Data Discovery at Lyft (Amundsen)

Lyft has reduced the time it takes to discover data by 10x by building its own data portal, Amundsen. Amundsen is built on three key pillars: an augmented da...

826 views06:33

Интересный доклад про построение дата-инжиниринг культуры: Creating a Data Engineering Culture

Creating a Data Engineering Culture | Big Data Institute

Get the slides: https://www.datacouncil.ai/talks/creating-a-data-engineering-cultureDownload slides of this talk: https://www.dataengconf.com/speaker/creatin...

695 viewsedited 12:19

Стали появляться видео с прошедшей конференции Data Council (бывшая DataEng Conf)

- Running Apache Airflow Reliably with Kubernetes
- Amundsen: A Data Discovery Platform From Lyft
- Notebooks as Functions with Papermill
- Operating Multi-Tenant Kafka Services for Developers on Heroku
- How Data is Transforming Politics

Running Apache Airflow Reliably with Kubernetes | Astronomer

Get the slides: https://www.datacouncil.ai/talks/running-airflow-reliably-with-kubernetesABOUT THE TALKAstronomer is a data engineering platform that collect...

803 viewsedited 13:14

трезвая статья про кафку: https://vicki.substack.com/p/you-dont-need-kafka

Normcore Tech

You don't need Kafka

really.

728 viewsedited 07:08

Lessons learned from running Kafka at Datadog | Datadog

в тех.блоге DataDog появилась статья про опыт использования apache kafka внутри компании: https://www.datadoghq.com/blog/kafka-at-datadog/

Datadog

Learn about several configuration-related issues we encountered while running 40+ Kafka and ZooKeeper clusters.

591 viewsedited 09:52

GitHub - dagster-io/dagster: An orchestration platform for the development, production, and observation of data assets.

нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.

GitHub

An orchestration platform for the development, production, and observation of data assets. - dagster-io/dagster

6.46K viewsedited 06:01

Sentry for Data: Optimizing Airflow with Sentry

Если вы активный пользователей Apache Airflow и Sentry, то вышла крутая новость! Теперь эти две балалайки можно и нужно склеить между собой. Читайте как тут: https://blog.sentry.io/2019/07/10/sentry-for-data-optimizing-airflow-with-sentry

Product Blog • Sentry

In our Sentry for Data series, we explain precisely why Sentry is the perfect tool for your data team.

716 viewsedited 10:40

17-18 июля сего года в Сингапуре прошла конференция Data Council SG, где были интересные доклады на тему data science, data engineering и т.д. Вот наиболее интересные видосики:

- Data Architecture 101 for Your Business

- Presto: Optimizing Performance of SQL-on-Anything

- Data Modeling and Processing for a Travel Super App

- Revenue Maximization in the Shared Bike Business

- Building Data Orchestration for Big Data Analytics in the Cloud

Весь плейлист можно посмотреть по ссылке

Data Architecture 101 for Your Business

Download Slides: https://www.datacouncil.ai/talks/data-architecture-101-for-your-business?hsLang=en

WANT TO EXPERIENCE A TALK LIKE THIS LIVE?

Barcelona: https://www.datacouncil.ai/barcelona
New York City: https://www.datacouncil.ai/new-york-city
San…

1.05K viewsedited 11:02

Выложены доклады с прошедшей в Барселоне DataCouncil '19: https://www.youtube.com/playlist?list=PLAesBe-zAQmHsjJQWIP71qkFSocVSbug2

Data Council BCN '19 - YouTube

733 views11:57

1 comment

Введение в Data Engineering: дата-пайплайны

Друзья!

На платформе Stepik я запустил продажи курса Введение в data engineering: дата-пайплайны. Речь в курсе идёт о замечательном инструменте Luigi о котором я неоднократно рассказывал на конференциях и в статьях.

Сейчас курс сделан наполовину, в нём есть вводная часть и каждую неделю, начиная с 18 ноября, будет открываться новый модуль с практическими материалами. Этот небольшой курс это начало интересной специализации по data engineering (будут отдельные курсы), которую я планирую создать в будущем, в неё войдут материалы про базы данных, распределенные системы, продвинутый SQL, инструменты экосистемы больших данных (Kafka, Spark, Airflow и т.д).

В курсе про дата-пайплайны я рассказываю о существующих инструментах, и детальный акцент делаю на Luigi. Курс научит вас понимать luigi и его компоненты, эффективно строить сложные зависимости между задачами, а также деплоить ваш пайплайн через Docker. Я подробно расскажу про конфигурирование и подводные камни при работе с этим инструментом.

Стоимость курса всего $10. Ссылка на курс: https://bit.ly/36P1eWG

Чтобы его купить, необходимо сначала зарегистрироваться на платформе stepik.org.

Stepik: online education

Курс раскрывает тему построения сложных дата-пайплайнов в экосистеме Python, а именно знакомит слушателя с удобным и гибким инструментом Luigi.

964 views12:01

2 comments

Today marks a new release of KSQL, one so significant that we’re giving it a new name: ksqlDB. There are two new major features we’re adding: pull queries and connector management.

Компания Confluent анонсировала выход ksqlDB: https://www.confluent.io/blog/intro-to-ksqldb-sql-database-streaming

Confluent

Introducing ksqlDB

815 views17:24