А вот и про Airflow на русском, очень понятно написано, что такое DAG и Airflow. https://khashtamov.com/ru/apache-airflow-introduction/
Khashtamov
Введение в Apache Airflow
Также по теме Airflow:Apache Airflow и XComTaskFlow API в Apache Airflow 2.0Apache Airflow — это продвинутый workflow менеджер и незаменимый инструмент в арсенале современного дата инженера…
А вот квадрант по Data Science. Я знаю хорошо про DataBricks (Spark) и Alteryx. SAS хоть и лидер, но дорогой и неудобный. https://www.alteryx.com/third-party-content/gartner-2020-mq-data-science-machine-learning-thank-you
Недавно я скидывал статью на русском про Airflow. Там на хорошо было написано, что такое Directed Acyclic Graphs (DAG). Для тех кто любит углубиться в детали я нашел paper.
Все больше и больше постов про имлементацию моделей. (data science, ML, AI, не важно каких). Вот еще одна с использование AWS SageMaker (вычислительные мощности и фреймфорк + pyhton notebooks), Python, контейнер (Docker) и MLFlow (для обеспечения цикла разрботки, например dev-prod). Лично я хочу в этом разобраться, я писал про свою задача для оттока клиентов Alexa, работая с DataScienеtist я масштабирую модель, автоматизирую data pipelines. Остался последний элемент, все это сделать и использование best practices.
Medium
Deploying Models to Production with Mlflow and Amazon Sagemaker
As data science continues to mature in 2019, there is increasing demand for data scientists to move beyond the notebook. matplotlib and…
Screenshot_20200220-152210.png
393.5 KB
Классная вакансия в Авито https://m.avito.ru/company/job/data-analyst
О визуализации данных на понятном языке. Почему столбиковые диаграммы строятся только от нуля, как перестать исппользовать чудовищное стандартное оформление из Экселя, почему даже у президента России графики как из 90-х. Разборы неудачных графиков и диаграмм, и события из мира датавиз в канале @chartomojka. Ведущий — преподаватель визуализации данных в Высшей школе экономики, автор книги "Графики, которые убеждают всех" Александр Богачев.
Screenshot_20200223-195635~2.png
368.9 KB
Согласно отчету dice, data engineer #1 вакансия по востребованности. В прошлом году это был data scientist, а до него был big data specialist. А ещё где-то был специалист по визуализации. https://techhub.dice.com/Dice-2020-Tech-Job-Report.html
Planning a Power BI Enterprise Deployment.docx
11.9 MB
Отличный документ про планирование и внедрение Power BI. Есть ли у вас еще интересные материалы про Data Governance для PowerBI?
Март напряженный:
4 Марта Snowflake Data Breakfast и потом Snowflake User Group. Заняло много времени, чтобы пробиться к Snowflake. Получилось через community. Я буду там выступать, и договорились провести user groups в Торонто, Калгари и Монреале, и должны все оплатить за перелеты. Юзер группы это круто, где есть доступ к аудитории, там и клиенты. Я буду рассказывать про Cloud Analytics Fundamentals + приколы про Amazon Redshift, который 128 нод.
11 Марта - Vancouver User Group, я теперь и в Виктории, и в Ванкувере являюсь администратором. Долго пробивался к ним, теперь есть доступ ко всей аудитории и заодно я смогу выступать там. Я буду рассказывать про Tableau Prep.
17 Марта - конференция Microsoft - SQL Saturday, я сделал Rock Your Data спонсором (всего за 500$) и буду тоже выступать про Azure Data Platform.
Еще я должен подготовиться к собеседованию в University of Victoria, я подался на преподавателя курса по Data Analytics, это будет финальная презентация. Денег там мало платят, но зато хорошо для связей.
Несмотря на такое большое кол-во мероприятий, сложно все это монетизировать, но мы не сдаемся.
Кстати я видел есть в Москве официальная Tableau User Group, если в апреле приеду на конференцию, то нужно будет организовать ивент.
Про курс обещанный я не забыл. Думаю, вот на каком фоне видео записывать, надо поторопиться, пока загар не сошел))
4 Марта Snowflake Data Breakfast и потом Snowflake User Group. Заняло много времени, чтобы пробиться к Snowflake. Получилось через community. Я буду там выступать, и договорились провести user groups в Торонто, Калгари и Монреале, и должны все оплатить за перелеты. Юзер группы это круто, где есть доступ к аудитории, там и клиенты. Я буду рассказывать про Cloud Analytics Fundamentals + приколы про Amazon Redshift, который 128 нод.
11 Марта - Vancouver User Group, я теперь и в Виктории, и в Ванкувере являюсь администратором. Долго пробивался к ним, теперь есть доступ ко всей аудитории и заодно я смогу выступать там. Я буду рассказывать про Tableau Prep.
17 Марта - конференция Microsoft - SQL Saturday, я сделал Rock Your Data спонсором (всего за 500$) и буду тоже выступать про Azure Data Platform.
Еще я должен подготовиться к собеседованию в University of Victoria, я подался на преподавателя курса по Data Analytics, это будет финальная презентация. Денег там мало платят, но зато хорошо для связей.
Несмотря на такое большое кол-во мероприятий, сложно все это монетизировать, но мы не сдаемся.
Кстати я видел есть в Москве официальная Tableau User Group, если в апреле приеду на конференцию, то нужно будет организовать ивент.
Про курс обещанный я не забыл. Думаю, вот на каком фоне видео записывать, надо поторопиться, пока загар не сошел))
Снова и снова пишут про data literacy. Идея в том, что руководитель в любой оранизации должен говорить на языке данных, должен понимать данные и уметь использовать базовые инструменты для работы с данными (отчет, дашборд, визуализация)
Forbes
Does Your Company ‘Speak’ Data Yet?
Data literacy is much like any other form of literacy i.e. it expresses our human ability to understand data and interact with it in the same way as we might exhibit a proficiency in human language competencies, computer coding, civic literacy, financial…
Если вы работаете с Big Data, то вы часто работаете с продуктами Apache (Hadoop, Hive, Kafka). Так же вы слышали про Data Lake, особенно в контексте облака, где много инструментов, чтобы быстро его создать. Когда мы храним данные в озере данных, или вообще работает с большими данными, важно использовать правильный формат данных. Вот хорошая статья про Apache Parquet. Отличная компрессия (10x) и возможность партиционирования, сделала это формат лидером.
Medium
Apache Parquet: How to be a hero with the open-source columnar data format
Apache Parquet file format for Google BigQuery, Azure Data Lakes, Amazon Athena, and Redshift Spectrum.
Я писал уже, что Redshift выпустил новый кластер RA3. Главная фишка - это разделение compute/storage. В качестве основного storage теперь S3. Очень напоминает Snowflake. Я написал не большой пост про это https://medium.com/rock-your-data/meet-a-new-generation-of-redshift-data-platform-ra3-e65544920866
Medium
Meet a new generation of Redshift Data Platform — RA3
At the last Re:invent 2019, AWS introduced us brand new Redshift cluster RA3. Let’s see, what is this and how can we benefit from it.
A group of ex-NSA and Amazon engineers are building a 'GitHub for data' https://techcrunch.com/2020/02/20/gretel-nsa-amazon-github-data/
Data-for-Breakfast-Master-Deck-Q1-2020_FINAL.pdf
16.7 MB
Самая свежая презентация про Snowflake.