Инжиниринг Данных

А вот и про Airflow на русском, очень понятно написано, что такое DAG и Airflow. https://khashtamov.com/ru/apache-airflow-introduction/

Khashtamov

Введение в Apache Airflow

Также по теме Airflow:Apache Airflow и XComTaskFlow API в Apache Airflow 2.0Apache Airflow — это продвинутый workflow менеджер и незаменимый инструмент в арсенале современного дата инженера…

2.53K views20:18

Add a comment

Инжиниринг Данных

А вот квадрант по Data Science. Я знаю хорошо про DataBricks (Spark) и Alteryx. SAS хоть и лидер, но дорогой и неудобный. https://www.alteryx.com/third-party-content/gartner-2020-mq-data-science-machine-learning-thank-you

1.63K views20:56

3 comments

Инжиниринг Данных

Новую книгу начал - flawless consulting, 1981 год, фундаментальные знания про консалтинг и про взаимодействия клиента и консультанта. Кстати, работая BI разработчиком или аналитиком, мы тоже являемся консультантом для наших клиентов (flawless это значит безупречный)

1.71K views03:30

Add a comment

Инжиниринг Данных

Как обычно все круто разложено https://vas3k.ru/blog/augmented_reality/

vas3k.blog

Дополненная Реальность

Большой пост об устройстве AR. Какие железки, камеры и алгоритмы мы используем для стабильного трекинга, как предсказываем освещение на сцене, как вырезаем людей, и куда это всё вообще катится.

2.04K views12:29

Add a comment

Инжиниринг Данных

Недавно я скидывал статью на русском про Airflow. Там на хорошо было написано, что такое Directed Acyclic Graphs (DAG). Для тех кто любит углубиться в детали я нашел paper.

1.46K views17:54

Add a comment

Инжиниринг Данных

DAGs with NO TEARS, Carnegie Mellon University.pdf

1.4 MB

1.7K views17:54

1 comment

Инжиниринг Данных

Все больше и больше постов про имлементацию моделей. (data science, ML, AI, не важно каких). Вот еще одна с использование AWS SageMaker (вычислительные мощности и фреймфорк + pyhton notebooks), Python, контейнер (Docker) и MLFlow (для обеспечения цикла разрботки, например dev-prod). Лично я хочу в этом разобраться, я писал про свою задача для оттока клиентов Alexa, работая с DataScienеtist я масштабирую модель, автоматизирую data pipelines. Остался последний элемент, все это сделать и использование best practices.

Medium

Deploying Models to Production with Mlflow and Amazon Sagemaker

As data science continues to mature in 2019, there is increasing demand for data scientists to move beyond the notebook. matplotlib and…

1.7K viewsedited 19:24

Add a comment

Инжиниринг Данных

Список 21 open source для визуализации

Solutionsreview

The Ultimate List of 21 Free and Open Source Data Visualization Tools

Solutions Review has compiled this up-to-date list of 21 free and open source data visualization tools you should consider using.

2.09K views20:38

Add a comment

Инжиниринг Данных

Screenshot_20200220-152210.png

393.5 KB

Классная вакансия в Авито https://m.avito.ru/company/job/data-analyst

2.54K viewsedited 21:22

4 comments

Инжиниринг Данных

О визуализации данных на понятном языке. Почему столбиковые диаграммы строятся только от нуля, как перестать исппользовать чудовищное стандартное оформление из Экселя, почему даже у президента России графики как из 90-х. Разборы неудачных графиков и диаграмм, и события из мира датавиз в канале @chartomojka. Ведущий — преподаватель визуализации данных в Высшей школе экономики, автор книги "Графики, которые убеждают всех" Александр Богачев.

2.15K views18:59

Add a comment

Инжиниринг Данных

Столько классных apps, которые интегрируются с Wordpress, но еще больше креативных людей, из Виннипега🙊🙈

1.78K viewsedited 01:52

Add a comment

Инжиниринг Данных

Screenshot_20200223-195635~2.png

368.9 KB

Согласно отчету dice, data engineer #1 вакансия по востребованности. В прошлом году это был data scientist, а до него был big data specialist. А ещё где-то был специалист по визуализации. https://techhub.dice.com/Dice-2020-Tech-Job-Report.html

2.49K viewsedited 03:58

Add a comment

Инжиниринг Данных

Planning a Power BI Enterprise Deployment.docx

11.9 MB

Отличный документ про планирование и внедрение Power BI. Есть ли у вас еще интересные материалы про Data Governance для PowerBI?

2.41K viewsedited 18:31

Add a comment

Инжиниринг Данных

В коллекцию картинок. В общем устал я от GIMP, где в ручную надо все делать, и сделал теперь в canva. Получилось классно.

1.98K viewsedited 22:34

Add a comment

Инжиниринг Данных

Обожаю эту фотографию Ванкувера, везде ее вставляю и оттенок оранжевый

1.52K viewsedited 05:11

Add a comment

Инжиниринг Данных

Март напряженный:
4 Марта Snowflake Data Breakfast и потом Snowflake User Group. Заняло много времени, чтобы пробиться к Snowflake. Получилось через community. Я буду там выступать, и договорились провести user groups в Торонто, Калгари и Монреале, и должны все оплатить за перелеты. Юзер группы это круто, где есть доступ к аудитории, там и клиенты. Я буду рассказывать про Cloud Analytics Fundamentals + приколы про Amazon Redshift, который 128 нод.

11 Марта - Vancouver User Group, я теперь и в Виктории, и в Ванкувере являюсь администратором. Долго пробивался к ним, теперь есть доступ ко всей аудитории и заодно я смогу выступать там. Я буду рассказывать про Tableau Prep.

17 Марта - конференция Microsoft - SQL Saturday, я сделал Rock Your Data спонсором (всего за 500$) и буду тоже выступать про Azure Data Platform.

Еще я должен подготовиться к собеседованию в University of Victoria, я подался на преподавателя курса по Data Analytics, это будет финальная презентация. Денег там мало платят, но зато хорошо для связей.

Несмотря на такое большое кол-во мероприятий, сложно все это монетизировать, но мы не сдаемся.

Кстати я видел есть в Москве официальная Tableau User Group, если в апреле приеду на конференцию, то нужно будет организовать ивент.

Про курс обещанный я не забыл. Думаю, вот на каком фоне видео записывать, надо поторопиться, пока загар не сошел))

1.81K views05:25

6 comments

Инжиниринг Данных

Снова и снова пишут про data literacy. Идея в том, что руководитель в любой оранизации должен говорить на языке данных, должен понимать данные и уметь использовать базовые инструменты для работы с данными (отчет, дашборд, визуализация)

Forbes

Does Your Company ‘Speak’ Data Yet?

Data literacy is much like any other form of literacy i.e. it expresses our human ability to understand data and interact with it in the same way as we might exhibit a proficiency in human language competencies, computer coding, civic literacy, financial…

1.54K views21:55

Add a comment

Инжиниринг Данных

Если вы работаете с Big Data, то вы часто работаете с продуктами Apache (Hadoop, Hive, Kafka). Так же вы слышали про Data Lake, особенно в контексте облака, где много инструментов, чтобы быстро его создать. Когда мы храним данные в озере данных, или вообще работает с большими данными, важно использовать правильный формат данных. Вот хорошая статья про Apache Parquet. Отличная компрессия (10x) и возможность партиционирования, сделала это формат лидером.

Medium

Apache Parquet: How to be a hero with the open-source columnar data format

Apache Parquet file format for Google BigQuery, Azure Data Lakes, Amazon Athena, and Redshift Spectrum.

2.45K views23:54

Add a comment

Инжиниринг Данных

Я писал уже, что Redshift выпустил новый кластер RA3. Главная фишка - это разделение compute/storage. В качестве основного storage теперь S3. Очень напоминает Snowflake. Я написал не большой пост про это https://medium.com/rock-your-data/meet-a-new-generation-of-redshift-data-platform-ra3-e65544920866

Medium

Meet a new generation of Redshift Data Platform — RA3

At the last Re:invent 2019, AWS introduced us brand new Redshift cluster RA3. Let’s see, what is this and how can we benefit from it.

1.43K views21:41

Add a comment

Инжиниринг Данных

A group of ex-NSA and Amazon engineers are building a 'GitHub for data' https://techcrunch.com/2020/02/20/gretel-nsa-amazon-github-data/

1.36K viewsedited 23:46

Add a comment

Инжиниринг Данных

Data-for-Breakfast-Master-Deck-Q1-2020_FINAL.pdf

16.7 MB