Не так давно компания Lyft выпустила свой инструмент для Data Discovery - Amundsen. Задача этой тулзы - собрать в одном месте всю информацию о данных внутри компании. На Strata Data Confence разработчики выступили с рассказом о ней - Disrupting Data Discovery at Lyft (Amundsen).
Помимо доклада есть пост в техническом блоге Lyft - Amundsen — Lyft’s data discovery & metadata engine
Помимо доклада есть пост в техническом блоге Lyft - Amundsen — Lyft’s data discovery & metadata engine
YouTube
Disrupting Data Discovery at Lyft (Amundsen)
Lyft has reduced the time it takes to discover data by 10x by building its own data portal, Amundsen. Amundsen is built on three key pillars: an augmented da...
Интересный доклад про построение дата-инжиниринг культуры: Creating a Data Engineering Culture
YouTube
Creating a Data Engineering Culture | Big Data Institute
Get the slides: https://www.datacouncil.ai/talks/creating-a-data-engineering-cultureDownload slides of this talk: https://www.dataengconf.com/speaker/creatin...
Стали появляться видео с прошедшей конференции Data Council (бывшая DataEng Conf)
- Running Apache Airflow Reliably with Kubernetes
- Amundsen: A Data Discovery Platform From Lyft
- Notebooks as Functions with Papermill
- Operating Multi-Tenant Kafka Services for Developers on Heroku
- How Data is Transforming Politics
- Running Apache Airflow Reliably with Kubernetes
- Amundsen: A Data Discovery Platform From Lyft
- Notebooks as Functions with Papermill
- Operating Multi-Tenant Kafka Services for Developers on Heroku
- How Data is Transforming Politics
YouTube
Running Apache Airflow Reliably with Kubernetes | Astronomer
Get the slides: https://www.datacouncil.ai/talks/running-airflow-reliably-with-kubernetesABOUT THE TALKAstronomer is a data engineering platform that collect...
трезвая статья про кафку: https://vicki.substack.com/p/you-dont-need-kafka
Normcore Tech
You don't need Kafka
really.
в тех.блоге DataDog появилась статья про опыт использования apache kafka внутри компании: https://www.datadoghq.com/blog/kafka-at-datadog/
Datadog
Lessons learned from running Kafka at Datadog | Datadog
Learn about several configuration-related issues we encountered while running 40+ Kafka and ZooKeeper clusters.
нашел интересную python-балалайку для построение ML и ETL пайплайнов: https://github.com/dagster-io/dagster. Один из авторов Nick Schrock, автор GraphQL. Более подробно что это за штука можно почитать в его блоге: https://medium.com/@schrockn/introducing-dagster-dbd28442b2b7. Выглядит интересно.
GitHub
GitHub - dagster-io/dagster: An orchestration platform for the development, production, and observation of data assets.
An orchestration platform for the development, production, and observation of data assets. - dagster-io/dagster
Если вы активный пользователей Apache Airflow и Sentry, то вышла крутая новость! Теперь эти две балалайки можно и нужно склеить между собой. Читайте как тут: https://blog.sentry.io/2019/07/10/sentry-for-data-optimizing-airflow-with-sentry
Product Blog • Sentry
Sentry for Data: Optimizing Airflow with Sentry
In our Sentry for Data series, we explain precisely why Sentry is the perfect tool for your data team.
17-18 июля сего года в Сингапуре прошла конференция Data Council SG, где были интересные доклады на тему data science, data engineering и т.д. Вот наиболее интересные видосики:
- Data Architecture 101 for Your Business
- Presto: Optimizing Performance of SQL-on-Anything
- Data Modeling and Processing for a Travel Super App
- Revenue Maximization in the Shared Bike Business
- Building Data Orchestration for Big Data Analytics in the Cloud
Весь плейлист можно посмотреть по ссылке
- Data Architecture 101 for Your Business
- Presto: Optimizing Performance of SQL-on-Anything
- Data Modeling and Processing for a Travel Super App
- Revenue Maximization in the Shared Bike Business
- Building Data Orchestration for Big Data Analytics in the Cloud
Весь плейлист можно посмотреть по ссылке
YouTube
Data Architecture 101 for Your Business
Download Slides: https://www.datacouncil.ai/talks/data-architecture-101-for-your-business?hsLang=en
WANT TO EXPERIENCE A TALK LIKE THIS LIVE?
Barcelona: https://www.datacouncil.ai/barcelona
New York City: https://www.datacouncil.ai/new-york-city
San…
WANT TO EXPERIENCE A TALK LIKE THIS LIVE?
Barcelona: https://www.datacouncil.ai/barcelona
New York City: https://www.datacouncil.ai/new-york-city
San…
Выложены доклады с прошедшей в Барселоне DataCouncil '19: https://www.youtube.com/playlist?list=PLAesBe-zAQmHsjJQWIP71qkFSocVSbug2
YouTube
Data Council BCN '19 - YouTube
Друзья!
На платформе Stepik я запустил продажи курса Введение в data engineering: дата-пайплайны. Речь в курсе идёт о замечательном инструменте Luigi о котором я неоднократно рассказывал на конференциях и в статьях.
Сейчас курс сделан наполовину, в нём есть вводная часть и каждую неделю, начиная с 18 ноября, будет открываться новый модуль с практическими материалами. Этот небольшой курс это начало интересной специализации по data engineering (будут отдельные курсы), которую я планирую создать в будущем, в неё войдут материалы про базы данных, распределенные системы, продвинутый SQL, инструменты экосистемы больших данных (Kafka, Spark, Airflow и т.д).
В курсе про дата-пайплайны я рассказываю о существующих инструментах, и детальный акцент делаю на Luigi. Курс научит вас понимать luigi и его компоненты, эффективно строить сложные зависимости между задачами, а также деплоить ваш пайплайн через Docker. Я подробно расскажу про конфигурирование и подводные камни при работе с этим инструментом.
Стоимость курса всего $10. Ссылка на курс: https://bit.ly/36P1eWG
Чтобы его купить, необходимо сначала зарегистрироваться на платформе stepik.org.
На платформе Stepik я запустил продажи курса Введение в data engineering: дата-пайплайны. Речь в курсе идёт о замечательном инструменте Luigi о котором я неоднократно рассказывал на конференциях и в статьях.
Сейчас курс сделан наполовину, в нём есть вводная часть и каждую неделю, начиная с 18 ноября, будет открываться новый модуль с практическими материалами. Этот небольшой курс это начало интересной специализации по data engineering (будут отдельные курсы), которую я планирую создать в будущем, в неё войдут материалы про базы данных, распределенные системы, продвинутый SQL, инструменты экосистемы больших данных (Kafka, Spark, Airflow и т.д).
В курсе про дата-пайплайны я рассказываю о существующих инструментах, и детальный акцент делаю на Luigi. Курс научит вас понимать luigi и его компоненты, эффективно строить сложные зависимости между задачами, а также деплоить ваш пайплайн через Docker. Я подробно расскажу про конфигурирование и подводные камни при работе с этим инструментом.
Стоимость курса всего $10. Ссылка на курс: https://bit.ly/36P1eWG
Чтобы его купить, необходимо сначала зарегистрироваться на платформе stepik.org.
Stepik: online education
Введение в Data Engineering: дата-пайплайны
Курс раскрывает тему построения сложных дата-пайплайнов в экосистеме Python, а именно знакомит слушателя с удобным и гибким инструментом Luigi.
Компания Confluent анонсировала выход ksqlDB: https://www.confluent.io/blog/intro-to-ksqldb-sql-database-streaming
Confluent
Introducing ksqlDB
Today marks a new release of KSQL, one so significant that we’re giving it a new name: ksqlDB. There are two new major features we’re adding: pull queries and connector management.
Потихоньку становятся доступны доклады с Data Council, прошедшей в Нью-Йорке: https://bit.ly/2OgHC6m
YouTube
Accelerate Source to Signal: Data Engineering Efficiency | Crux Informatics
Get the slides: https://www.datacouncil.ai/talks/accelerate-source-to-signal-data-engineering-efficiency?hsLang=enABOUT THE TALKIngesting data from thousands...
На Data Engineering Podcast вышел выпуск про SnowflakeDB: https://www.dataengineeringpodcast.com/snowflakedb-cloud-data-warehouse-episode-110/
Data Engineering Podcast
SnowflakeDB: The Data Warehouse Built For The Cloud - Episode 110
Data warehouses have gone through many transformations, from standard relational databases on powerful hardware, to column oriented storage engines, to the current generation of cloud-native analytical engines. SnowflakeDB has been leading the charge to take…
В подкасте Data engineering вышел эпизод с авторами проекта Debezium: https://www.dataengineeringpodcast.com/debezium-change-data-capture-episode-114/
Для тех, кто в танке, debezium позволяет транслировать логи изменений БД (Change Data Capture). Поддерживает наиболее популярные БД, включая MySQL, PostgreSQL, MongoDB, SQL Server, Oracle, Cassandra.
Для тех, кто в танке, debezium позволяет транслировать логи изменений БД (Change Data Capture). Поддерживает наиболее популярные БД, включая MySQL, PostgreSQL, MongoDB, SQL Server, Oracle, Cassandra.
Data Engineering Podcast
Change Data Capture For All Of Your Databases With Debezium - Episode 114
Databases are useful for inspecting the current state of your application, but inspecting the history of that data can get messy without a way to track changes as they happen. Debezium is an open source platform for reliable change data capture that you can…
Всем привет!
На сайте Dice вышла статья о том, что 2020 год должен стать годом Data Engineer: 2020: The Year of the Citizen Data Engineer
В заметке есть интересная ссылка на исследование от LinkedIn: 2020 Emerging Jobs Report, где дата инженер занимает почетное 8 месте с годовым приростом спроса аж на 38%. Отчёт актуален для рынка США.
Из наиболее популярных навыков для дата инженера упоминаются:
- Apache Spark
- Hadoop
- Python
- SQL
- ETL
- Amazon Web Services
Самое время углубиться в эту интересную и важную профессию цифрового века. А узнать как стать дата инженером поможет моя прошлогодняя статья: Как стать Data Engineer.
На сайте Dice вышла статья о том, что 2020 год должен стать годом Data Engineer: 2020: The Year of the Citizen Data Engineer
В заметке есть интересная ссылка на исследование от LinkedIn: 2020 Emerging Jobs Report, где дата инженер занимает почетное 8 месте с годовым приростом спроса аж на 38%. Отчёт актуален для рынка США.
Из наиболее популярных навыков для дата инженера упоминаются:
- Apache Spark
- Hadoop
- Python
- SQL
- ETL
- Amazon Web Services
Самое время углубиться в эту интересную и важную профессию цифрового века. А узнать как стать дата инженером поможет моя прошлогодняя статья: Как стать Data Engineer.
Dice Insights
2020: The Year of the Citizen Data Engineer
Data sophistication has forever and profoundly changed the way in which companies do business today. Data-driven innovation has led to better business decisions, enhanced customer engagement, and improved customer retention, all of which are essential to…
Нашел интересный пост про уровни зрелости организаций относительно аналитики на имеющихся данных.
Автор на основе своего опыта выделил 4 уровня:
0. Латентный (Latent)
На этом уровне компании обычно собирают данные, но чаще всего не использует их для принятия решений.
1. Анализ (Analysis)
На этом этапе у организации есть люди, занимающиеся аналитикой и формирующие инсайты из данных.
2. Обучение (Learning)
К этому моменту у компании должно скопиться достаточное количество данных, чтобы на их основе формировать выводы, используя машинное обучение. Так или иначе начинает формироваться отдел аналитики с дата саентистами и дата аналитиками (а может даже и дата инженерами). Специалисты начинают строить модели и деплоить их в продакшен. По своему опыту скажу, что на этом этапе batch processing превалирует на real-time processing.
3. Действие (Acting)
Последний уровень на котором, по мнению автора, выводы строятся в режиме реального времени. Тут зачастую в ход идут технологии stream processing типа Apache Flink, Spark, Storm, Kafka. Как правило на этом этапе практически полностью исчезает лаг между сбором данных и конечным выводом по ним (который есть на уровне Обучение).
Почитать оригинал можно по ссылке: https://medium.com/@bratseth/the-big-data-maturity-levels-8b61875032cc
А на каком уровне находитесь вы?
Автор на основе своего опыта выделил 4 уровня:
0. Латентный (Latent)
На этом уровне компании обычно собирают данные, но чаще всего не использует их для принятия решений.
1. Анализ (Analysis)
На этом этапе у организации есть люди, занимающиеся аналитикой и формирующие инсайты из данных.
2. Обучение (Learning)
К этому моменту у компании должно скопиться достаточное количество данных, чтобы на их основе формировать выводы, используя машинное обучение. Так или иначе начинает формироваться отдел аналитики с дата саентистами и дата аналитиками (а может даже и дата инженерами). Специалисты начинают строить модели и деплоить их в продакшен. По своему опыту скажу, что на этом этапе batch processing превалирует на real-time processing.
3. Действие (Acting)
Последний уровень на котором, по мнению автора, выводы строятся в режиме реального времени. Тут зачастую в ход идут технологии stream processing типа Apache Flink, Spark, Storm, Kafka. Как правило на этом этапе практически полностью исчезает лаг между сбором данных и конечным выводом по ним (который есть на уровне Обучение).
Почитать оригинал можно по ссылке: https://medium.com/@bratseth/the-big-data-maturity-levels-8b61875032cc
А на каком уровне находитесь вы?
Medium
The big data maturity levels
By now it’s well known that making effective use of data is a competitive advantage. But how advanced is your organization at making use…
Стартовал новый поток курса по базам данных от Carnegie Mellon University — Advanced Database Systems
В курсе не идёт речь о каких-то определённых базах, а раскрывается их внутренее устройство. Будут затронуты как транзакционные БД (OLTP), так и аналитические, распределенные БД (OLAP).
Ссылка на расписание курса: https://15721.courses.cs.cmu.edu/spring2020/schedule.html
Ссылка на страницу курса: https://15721.courses.cs.cmu.edu/spring2020/
В курсе не идёт речь о каких-то определённых базах, а раскрывается их внутренее устройство. Будут затронуты как транзакционные БД (OLTP), так и аналитические, распределенные БД (OLAP).
Ссылка на расписание курса: https://15721.courses.cs.cmu.edu/spring2020/schedule.html
Ссылка на страницу курса: https://15721.courses.cs.cmu.edu/spring2020/
YouTube
01 - History of Databases (CMU Databases / Spring 2020)
Prof. Andy Pavlo (https://www.cs.cmu.edu/~pavlo/)
Slides: https://15721.courses.cs.cmu.edu/spring2020/slides/01-history.pdf
15-721 Advanced Database Systems (Spring 2020)
Carnegie Mellon University
https://15721.courses.cs.cmu.edu/spring2020/
Slides: https://15721.courses.cs.cmu.edu/spring2020/slides/01-history.pdf
15-721 Advanced Database Systems (Spring 2020)
Carnegie Mellon University
https://15721.courses.cs.cmu.edu/spring2020/
Доклад про ETL на базе event-driven от сотрудника Confluent: https://talks.rmoff.net/Jn6rgo#sriL5Sw
talks.rmoff.net
The Changing Face of ETL: Event-Driven Architectures for Data Engineers by Robin Moffatt
Data integration in architectures built on static, update-in-place datastores inevitably end up with pathologically high degrees of coupling and poor scalability. This has been the standard practice for decades, as we attempt to build data pipelines on top…
Друзья, ссылка на вебинар: https://www.youtube.com/watch?v=fkKKD93WA4s. Начало через 7 минут.
С меня пост про dbt в блоге чуть позже, сам давно хочу внедрить её в повседневные рутинные задачи, связанные с SQL.
С меня пост про dbt в блоге чуть позже, сам давно хочу внедрить её в повседневные рутинные задачи, связанные с SQL.
YouTube
Открытый вебинар «Data Build Tool для хранилища Amazon Redshift»
Рассматриваем построение моделей и зависимостей.
Изучаем полную и инкрементальную загрузку, работу с вложенными (nested) JSON, макросы и шаблоны Jinja, автоматическое тестирование.
Ссылка на слайды - https://docs.google.com/presentation/d/1acoXbZEncyKJ…
Изучаем полную и инкрементальную загрузку, работу с вложенными (nested) JSON, макросы и шаблоны Jinja, автоматическое тестирование.
Ссылка на слайды - https://docs.google.com/presentation/d/1acoXbZEncyKJ…
Amazon опубликовали научную статью по работе Firecracker.
Для тех, кто не в курсе, Firecracker это легковесная виртуализация на основе которой работает сервис Amazon Lambda. Firecracker, кстати, open source продукт: https://github.com/firecracker-microvm/firecracker
Ссылка на статью: https://www.amazon.science/publications/firecracker-lightweight-virtualization-for-serverless-applications
Для тех, кто не в курсе, Firecracker это легковесная виртуализация на основе которой работает сервис Amazon Lambda. Firecracker, кстати, open source продукт: https://github.com/firecracker-microvm/firecracker
Ссылка на статью: https://www.amazon.science/publications/firecracker-lightweight-virtualization-for-serverless-applications
GitHub
GitHub - firecracker-microvm/firecracker: Secure and fast microVMs for serverless computing.
Secure and fast microVMs for serverless computing. - firecracker-microvm/firecracker