На пересечение Machine Learning и Data Engineering существует Feature Stopre и MLops. Эти 2 ключевых слова, при мысли от которых у инженера данных настоящий восторг, уровень buzz words на пределе. Главное загвоздка, а как это собственно делать🙈
Вот еще несколько новых инструментов по этой теме - Feast and Flyte.
Feast provides the feature registry, an online feature serving system, and Flyte can engineer the features. Flyte can also help ensure incremental development of features and enables us to turn on the sync to online stores only when we are confident about the features.
Flyte provides a way to train models and perform feature engineering as a single pipeline. But it provides no way to serve these features to production when the model matures and is ready to be served in production.
Bring ML Close to Data Using Feast and Flyte
*What is a Feature Store?
**Feature Engineering tutorial with Flyte
Вот еще несколько новых инструментов по этой теме - Feast and Flyte.
Feast provides the feature registry, an online feature serving system, and Flyte can engineer the features. Flyte can also help ensure incremental development of features and enables us to turn on the sync to online stores only when we are confident about the features.
Flyte provides a way to train models and perform feature engineering as a single pipeline. But it provides no way to serve these features to production when the model matures and is ready to be served in production.
Bring ML Close to Data Using Feast and Flyte
*What is a Feature Store?
**Feature Engineering tutorial with Flyte
Medium
Bring ML Close to Data Using Feast and Flyte
And handle feature-engineered data effectively in an ML pipeline
Microsoft Synapse Analytics активно развивает свою платформу и добавляет туда все больше продуктов.
Microsoft Research
SynapseML: A simple, multilingual, and massively parallel machine learning library - Microsoft Research
Today, we’re excited to announce the release of SynapseML (previously MMLSpark), an open-source library that simplifies the creation of massively scalable machine learning (ML) pipelines. Building production-ready distributed ML pipelines can be difficult…
Рады предложить вашему вниманию перевод статьи Тристана Хэнди «The Modern Data Stack: Past, Present, and Future». Она о современном стеке данных, если точнее, о его эволюции: автор рассматривает развитие аналитических решений с 2012 по 2020 год (статья прошлогодняя), даёт свою оценку происходящему и рассуждает о возможном будущем. Автор с более чем 20-летним опытом в области данных старается понять динамику продуктовой экосистемы в этой сфере.
Перевод подготовила Наташа Низамутдинова, стаж в области данных 0 лет, опыт в туризме 11 лет, с аналитикой — на этапе знакомства.
Перевод подготовила Наташа Низамутдинова, стаж в области данных 0 лет, опыт в туризме 11 лет, с аналитикой — на этапе знакомства.
Хабр
Современный стек данных: прошлое, настоящее и будущее
В этом посте представлен перевод статьи на dbt от Tristan Handy . Перевод подготовлен при поддержке сообщества аналитического курса DataLearn и телеграм-канала Инжиниринг Данных . Мои мысли о том, где...
👍1
Планирование работы, фаз проекта, спринта - это очень важная часть командной работы и достижения результата. Мне, как инженеру данных, все эти митинги по планированию, очень не нравятся, как и любые другие митинги с 3+ человека. Но без правильного планирования невозможно сделать проект вовремя. Очень хорошая статья обзор, как разные команды и компании занимаются планированием.
What planning is like at…
From sprint cadence to success metrics, here’s a snapshot of the planning process at Netflix, Mailchimp, Asana, LaunchDarkly, and more.
PS Можно даже сделать перевод - отличная статья на продуктовую тему. Есть желающие?
What planning is like at…
From sprint cadence to success metrics, here’s a snapshot of the planning process at Netflix, Mailchimp, Asana, LaunchDarkly, and more.
PS Можно даже сделать перевод - отличная статья на продуктовую тему. Есть желающие?
Increment
What planning is like at… – Increment: Planning
From sprint cadence to success metrics, here’s a snapshot of the planning process at Netflix, Mailchimp, Asana, LaunchDarkly, and more.
👍1
Great Expectations это новая (Паша в комментариях настоял) популярная библиотека для дата инжиниринга на питоне, библиотека служит для data quality задач. Новая статья про использование этой библиотеки вместе с Amazon Redshift.
Amazon
Provide data reliability in Amazon Redshift at scale using Great Expectations library | Amazon Web Services
Ensuring data reliability is one of the key objectives of maintaining data integrity and is crucial for building data trust across an organization. Data reliability means that the data is complete and accurate. It’s the catalyst for delivering trusted data…
🆎 Proba — новый сервис для проверки продуктовых гипотез в мобильных приложениях.
Развитие мобильного приложения невозможно без постоянной проверки новых гипотез. Это конвейер — протестировали, измерили, приняли/отклонили. Любому product-менеджеру, разработчику, аналитику, маркетологу хочется ускорить этот процесс. На проверку каждой гипотезы уходит несколько дней (часто и недель), плюс нужно позаботиться о статзначимости результата.
Мы запускаем сервис, который помогает мобильным продуктам автоматизировать этот процесс и проводить A/B-тесты быстрее и дешевле. Для этого мы реализовали алгоритмы автоматического распределения пользователей и оптимизации под выбранную целевую метрику. Помимо простой конверсии алгоритм может оптимизироваться на ARPU и количество совершённых событий. Уже в ходе эксперимента побеждающий вариант будет получать больше пользователей. Автоматическое распределение трафика работает на основе байесовской статистики.
🚀 Мы приглашаем вас попробовать наш сервис бесплатно и будем рады любой обратной связи — регистрируйтесь на proba.ai
📆 Также приглашаем на бесплатный вебинар «А/B-тесты в мобайле: как проверять гипотезы быстро и дёшево», который пройдёт 1 декабря в 16:00 МСК. Регистрация доступна здесь.
По всем вопросам: @annatch66
Развитие мобильного приложения невозможно без постоянной проверки новых гипотез. Это конвейер — протестировали, измерили, приняли/отклонили. Любому product-менеджеру, разработчику, аналитику, маркетологу хочется ускорить этот процесс. На проверку каждой гипотезы уходит несколько дней (часто и недель), плюс нужно позаботиться о статзначимости результата.
Мы запускаем сервис, который помогает мобильным продуктам автоматизировать этот процесс и проводить A/B-тесты быстрее и дешевле. Для этого мы реализовали алгоритмы автоматического распределения пользователей и оптимизации под выбранную целевую метрику. Помимо простой конверсии алгоритм может оптимизироваться на ARPU и количество совершённых событий. Уже в ходе эксперимента побеждающий вариант будет получать больше пользователей. Автоматическое распределение трафика работает на основе байесовской статистики.
🚀 Мы приглашаем вас попробовать наш сервис бесплатно и будем рады любой обратной связи — регистрируйтесь на proba.ai
📆 Также приглашаем на бесплатный вебинар «А/B-тесты в мобайле: как проверять гипотезы быстро и дёшево», который пройдёт 1 декабря в 16:00 МСК. Регистрация доступна здесь.
По всем вопросам: @annatch66
Бесплатный курс на 10 часов по анализу данных в Python - How to Analyze Data with Python, Pandas & Numpy
freeCodeCamp.org
How to Analyze Data with Python, Pandas & Numpy - 10 Hour Course
Data Analysis is an in-demand field but it can be hard to get into as a beginner. We've just released a 10-hour beginner-friendly video course to teach people how to analyze data with Python, Pandas, and Numpy. This course offers a coding-first intro...
Термин Data Observability становится все популярней.
Data Observability, an organization’s ability to fully understand the health of the data in their system, eliminates data downtime by applying best practices of DevOps Observability to data pipelines. Like its DevOps counterpart, Data Observability uses automated monitoring, alerting, and triaging to identify and evaluate data quality and discoverability issues, leading to healthier pipelines, more productive teams, and happier customers. (Из этой статьи
What is Data Observability?)
В facebook прошлел Data Observability Learning Summit 2021
И совсем недавно увидел продукт Datafold, компания созданная нашими основателями. И недавно они получили раунд инвестиций в 20 млн. Насколько я понял, у них была цель выйти на российский рынок, так как их сотрудник спамил дата народ на хабре и предлагал писать статьи на русском за денюшку. А может быть у них были другие цели. С одной стороны это круто, что есть еще один новый продукт с русскими корнями, а с другой стороны, зная сколько там дата всяких продуктов(The 2021 Machine Learning, AI and Data (MAD) Landscape), понимаешь какая высокая конкуренция.
Data Observability, an organization’s ability to fully understand the health of the data in their system, eliminates data downtime by applying best practices of DevOps Observability to data pipelines. Like its DevOps counterpart, Data Observability uses automated monitoring, alerting, and triaging to identify and evaluate data quality and discoverability issues, leading to healthier pipelines, more productive teams, and happier customers. (Из этой статьи
What is Data Observability?)
В facebook прошлел Data Observability Learning Summit 2021
И совсем недавно увидел продукт Datafold, компания созданная нашими основателями. И недавно они получили раунд инвестиций в 20 млн. Насколько я понял, у них была цель выйти на российский рынок, так как их сотрудник спамил дата народ на хабре и предлагал писать статьи на русском за денюшку. А может быть у них были другие цели. С одной стороны это круто, что есть еще один новый продукт с русскими корнями, а с другой стороны, зная сколько там дата всяких продуктов(The 2021 Machine Learning, AI and Data (MAD) Landscape), понимаешь какая высокая конкуренция.
Medium
What is Data Observability?
Hint: it’s not just data for DevOps.
Forwarded from Data1984
YouTube
Why You Should Become A Data Engineer And Not A Data Scientist - Picking The Right Data Career
There are a lot of data career choices.
You can become a data scientist, a data engineer or a data analyst to name a few.
But which one is right?
In this video I will talk about why you might want to become a data engineer instead of a data scientist.…
You can become a data scientist, a data engineer or a data analyst to name a few.
But which one is right?
In this video I will talk about why you might want to become a data engineer instead of a data scientist.…
через 5 мин начинаем:
https://youtu.be/CAdkL9vM6Do
https://youtu.be/CAdkL9vM6Do
YouTube
ADX(KUSTO): INTERACTIVE BIG DATA ANALYTICS / GOR HAYRAPETYAN
📌 Описание:
Мы рассмотрим как устроен Кусто и где его можно применить. Поговорим о том к какой категории баз данный относиться Кусто и как он отличается от других решений в своей категории. Также за счет каких решений Кусто эффективнее и быстрее. Напишем…
Мы рассмотрим как устроен Кусто и где его можно применить. Поговорим о том к какой категории баз данный относиться Кусто и как он отличается от других решений в своей категории. Также за счет каких решений Кусто эффективнее и быстрее. Напишем…
люблю читать про онлайн обучение. https://vc.ru/marketing/324935-nas-prodolzhayut-obmanyvat-servisy-onlayn-obrazovaniya-na-chernuyu-pyatnicu-v-2021
vc.ru
Нас продолжают обманывать сервисы онлайн-образования на «Чёрную пятницу» в 2021? — Маркетинг на vc.ru
В 2020 я сделал обзор Чёрной пятницы в популярных EdTech проектах: Skillbox, GeekBrains, Нетология, HTML Academy, SkillFactory, Hexlet, Я.Практикум. Мне стало интересно, как изменилась стоимость курсов и профессий за год, а также какие скидки дают нам образовательные…
Использование Slow Change Dimension Type 1, 2 в dbt.
Medium
Modelling Type 1 + 2 Slowly Changing Dimensions with dbt
If you ever had the trouble of trying to model different types of Slowly Changing Dimensions on a single dimension with dbt, continue reading on. If not, check out these resources to get an idea on…
Теперь как пользователь dbt, обязательно послушаю доклады на их конференции https://coalesce.getdbt.com/
Как я провожу собеседования на позицию дата инженера? Обычно в 3 этапа:
Этап 1: behavioral interview основаны на Amazon Leadership Principles
После Амазона, я стал использовать вопросы из behavioral interview. 3-4 вопроса, которые начинаются с фразы «Расскажи мне ситуацию, когда ты….». Такие вопросы очень хорошо помогают понять контекст, глубину и личностные качества кандидата. Чаще всего все тонут при использовании слова «МЫ» вместо «Я». То есть кандидат в команде, что-то делал, а сам не очень. Примеры вопросов:
⚓Tell me about the most complex problem you’ve ever worked on (Dive Deep)
⚓Tell me about a time when you took on something significant outside your area of responsibility, and why was that important? (Ownership)
⚓Tell me about a time when you were able to deliver an important project under a tight deadline. (Deliver Result)
⚓What’s the coolest thing you’ve learned on your own that you’ve then been able to apply in your job and perform your job further? (Learn and be Curious)
Этап 2: технический + концептуальная архитектура решения
Сначала я спрошу свои любимый вопросы:
⚓Чем отличается ETL и ELT?
⚓Чем отличается MPP и SMP?
⚓Чем отличается Data Warehouse и OLTP?
⚓Что такое Lake house?
⚓Какие методы для моделирования хранилища данных ты знаешь?
⚓Какие методы ты использовал для Data Quality в data pipelinese?
⚓Как ты будешь решать проблему производительности BI и/или ETL?
Далее можно сделать white boarding – то есть расшарить экран и порешать задачки на SQL. Python я не люблю спрашивать. Если мне нужен python, то скорей всего для Apache Spark. С Airflow я не работал. SQL для меня это язык №1 для работы с данными, все должны его знать на хорошем уровне.
И в конце можно поговорить про концептуальную архитектуру. Например, у нас есть такой-то бизнес, например облачный продукт. Бизнес-пользователи хотят знать базовые показатели/метрики. На входе есть несколько систем – Sales Force, Facebook, Google Analytics, OLTP (бэк енд). Как ты будешь строить аналитическое решение и какие инструменты будешь использовать.
Этап 3: домашнее задание
Я люблю давать полезные и интересные проекты. Например:
1. Запусти тестовый аккаунт Redshift/Big Query/Snowflake
2. Используй заданный data set (NY Taxi, GitHub или другие)
3. Построй ETL с помощью своего любимого инструмента, чтобы загрузить данные в хранилище данных и построить таблицу фактов
4. Подключи свой любимый BI инструмент и нарисуй дашборд
Такое задание позволяет оценить понимание end-to-end аналитическое решение и особенности знаний кандидата. Можно попросить использовать конкретный стек, и рассказать, как его скачать и установить.
PS По необходимости можно менять в сторону Spark, Streaming, BigData. Но как правило этого достаточно, чтобы понять насколько хороший специалист и насколько хороший у него кругозор.
Этап 1: behavioral interview основаны на Amazon Leadership Principles
После Амазона, я стал использовать вопросы из behavioral interview. 3-4 вопроса, которые начинаются с фразы «Расскажи мне ситуацию, когда ты….». Такие вопросы очень хорошо помогают понять контекст, глубину и личностные качества кандидата. Чаще всего все тонут при использовании слова «МЫ» вместо «Я». То есть кандидат в команде, что-то делал, а сам не очень. Примеры вопросов:
⚓Tell me about the most complex problem you’ve ever worked on (Dive Deep)
⚓Tell me about a time when you took on something significant outside your area of responsibility, and why was that important? (Ownership)
⚓Tell me about a time when you were able to deliver an important project under a tight deadline. (Deliver Result)
⚓What’s the coolest thing you’ve learned on your own that you’ve then been able to apply in your job and perform your job further? (Learn and be Curious)
Этап 2: технический + концептуальная архитектура решения
Сначала я спрошу свои любимый вопросы:
⚓Чем отличается ETL и ELT?
⚓Чем отличается MPP и SMP?
⚓Чем отличается Data Warehouse и OLTP?
⚓Что такое Lake house?
⚓Какие методы для моделирования хранилища данных ты знаешь?
⚓Какие методы ты использовал для Data Quality в data pipelinese?
⚓Как ты будешь решать проблему производительности BI и/или ETL?
Далее можно сделать white boarding – то есть расшарить экран и порешать задачки на SQL. Python я не люблю спрашивать. Если мне нужен python, то скорей всего для Apache Spark. С Airflow я не работал. SQL для меня это язык №1 для работы с данными, все должны его знать на хорошем уровне.
И в конце можно поговорить про концептуальную архитектуру. Например, у нас есть такой-то бизнес, например облачный продукт. Бизнес-пользователи хотят знать базовые показатели/метрики. На входе есть несколько систем – Sales Force, Facebook, Google Analytics, OLTP (бэк енд). Как ты будешь строить аналитическое решение и какие инструменты будешь использовать.
Этап 3: домашнее задание
Я люблю давать полезные и интересные проекты. Например:
1. Запусти тестовый аккаунт Redshift/Big Query/Snowflake
2. Используй заданный data set (NY Taxi, GitHub или другие)
3. Построй ETL с помощью своего любимого инструмента, чтобы загрузить данные в хранилище данных и построить таблицу фактов
4. Подключи свой любимый BI инструмент и нарисуй дашборд
Такое задание позволяет оценить понимание end-to-end аналитическое решение и особенности знаний кандидата. Можно попросить использовать конкретный стек, и рассказать, как его скачать и установить.
PS По необходимости можно менять в сторону Spark, Streaming, BigData. Но как правило этого достаточно, чтобы понять насколько хороший специалист и насколько хороший у него кругозор.
Day One Careers Blog
Amazon Interview Questions: The Ultimate Preparation Guide (With Example Stories)
Discover Amazon's Leadership Principles and ace behavioral questions with Day One Careers' expert guide, crafted by former Amazon senior leaders!
👍2
Хорошая статья про оконные функции от Databricks, рассказывают теорию и показывают примеры для SQL и PySpark.
Databricks
Introducing Window Functions in Spark SQL | Databricks Blog
In this blog post, we introduce the new window function feature that was added in Spark 1.4.
👍1
Forwarded from Евгений Воробьев
Всем привет! Готов еще один перевод, посвященный Apache Spark, в котором кратко описаны основные составляющие части фреймворка. Поддержите пожалуйста лайками и голосами)
https://habr.com/ru/post/592067/
https://habr.com/ru/post/592067/
Хабр
Apache Spark, объяснение ключевых терминов
Перевод Как отмечено в статье Survey shows huge popularity spike for Apache Spark : «Apache Spark - это Тейлор Свифт программного обеспечения в мире больших данных. Технология с открытым исходным...
Forwarded from Ilya Koshi
@dimoobraznii мой перевод наконец прорвался на хабр https://habr.com/ru/post/593327/
Из шапки заставили удалить ссылку на даталерн, только внизу осталась
Из шапки заставили удалить ссылку на даталерн, только внизу осталась
Хабр
От «data-driven» к «data-driving» в инжиниринге данных
Всем привет! Это мой дебют на хабре с переводом классной статьи по теме инжиниринга данных. Оригинал статьи: From Data Driven to Driving Data— The dysfunctions of Data Engineering Для тех кто уже...
👍1
ML-Engineering-Ebook-Final.pdf
3.4 MB
#whitepaper про ML engineering от Databricks. В документе выдержки из книги Machine Learning Engineering in Action
Tableau Evangelist (это такая роль в компании вендора, которая продвигает технологии и на своем примере показывает как это здорово использовать продукт) - Andy Cotgreave показал свои 4 любимые книги за 2021:
Atlas of the Invisible (James Cheshire and Oliver Uberti)
Living in Data (Jer Thorp)
How to Make the World Add Up (Tim Harford)
The Big Picture (Steve Wexler)
За последнюю книгу я не сомневаюсь, что она хорошая, Стив уже много раз был Tableau Zen Master и плохого не посоветует. Я его знаю лично, один раз он выступал для Amazon Tableau User Group, которую я вел, другой раз я был на его выступлении в Boston User Group и это было как в театре!
Источник https://www.linkedin.com/pulse/my-favourite-data-books-year-andy-cotgreave/
Atlas of the Invisible (James Cheshire and Oliver Uberti)
Living in Data (Jer Thorp)
How to Make the World Add Up (Tim Harford)
The Big Picture (Steve Wexler)
За последнюю книгу я не сомневаюсь, что она хорошая, Стив уже много раз был Tableau Zen Master и плохого не посоветует. Я его знаю лично, один раз он выступал для Amazon Tableau User Group, которую я вел, другой раз я был на его выступлении в Boston User Group и это было как в театре!
Источник https://www.linkedin.com/pulse/my-favourite-data-books-year-andy-cotgreave/