Инжиниринг Данных

Когда мы говорил об аналитики, то часто мы говорим о том, что вверху айсберга. Всегда хорошо понимать весь цикл потока данных, от системы источника, до показателей и инсайтов.

Согласно AWS Big Data решение состоит из 4х основных элементов:
1) Сбор данных (инструменты по сбору данных и их транспортировки).
2) Хранение данных (базы данных SQL/NoSQL, файловые хранилища)
3) Обработка и анализ данных (SQL, Redshift, SageMaker)
4) Визуализация (QuicksSght, Elastic Search Service).

Я приложил картинку, где можно посмотреть какие сервисы AWS, куда попадают.

1.64K views22:39

Add a comment

Инжиниринг Данных

А вот тот же framework, но уже с различными решения

1.57K views22:40

Add a comment

Инжиниринг Данных

У меня не очень полулось влезть в консалтинг партнеры для Snowflake, но зато, как обычно получлось через Community. Snowflake присвоил мне статус Super Data Hero - это максимальный уровень в community. Не уверен, что это как-то поможет, но еще раз говорит что активное участие в сообществах всегда благотворно влияет на нетворкинг и позволяет создавать дополнительные возможности.

1.56K views06:02

Add a comment

Инжиниринг Данных

Детальная статья про собеседование в Амазон на русском. Все этапы описаны очень подробно. Единственное у автора 15 лет в Microsoft до работы в AWS, что явно помогло ему получить рабочую визу.

vc.ru

О собеседовании в Amazon: какие вопросы будут задавать на интервью и что нужно знать заранее — Карьера на vc.ru

Альберт Хабибрахимов Карьера 20.12.2019

1.67K views16:10

Add a comment

Инжиниринг Данных

Сегодня был Webinar на котором показали архитектуру платформы данных на базе Google Cloud Platform и Snowflake

👍1

1.57K views16:27

Add a comment

Инжиниринг Данных

Если вы вдруг захотите написать книгу пока сидите дома, то вот вам презентация 2016 года, где как раз про то: как написать книгу https://www.slideshare.net/dimoobraznii/my-experience-of-writing-technical-books-61378068

www.slideshare.net

My experience of writing technical books

My experience of writing technical books - Download as a PDF or view online for free

1.6K views21:25

Add a comment

Инжиниринг Данных

Очень долгое время я особо не углублялся в Python, использовал его постолько посколько для Spark (PySpark), для ELT/ETL и для задач data quality.

Вчера я пообщался с VP Sales plotly. Это Канадская компания, у которой есть 2 opensource решения (библиотека визуализаций plotly и Dash - фреймворк для аналитического решения). Монетизация через Enterprise Dash. То есть условная компания, у которой уже есть Tableau/PowerBI или любой другой традиционный инструмент, платформа данных, уперлась в своем развитие. Лицензии на BI продукты дорогие, data scientist не могу правильно презентовать свою работу, но они отлично знаю Python и они создают BI решение с элементами BI/AI/ML полностью кастомизированное. То есть такая эволюция от традиционных BI решений к Аналитическим кастомизированным решениям.

VP Sales был Country Manager Tableau в Канаде и создавал Sales процессы в Канаде. После того как SalesForce поглотил Tableau, многие вещи испортились и он присоединился к этой компании. Мы с ним относительно хорошо общаемся, и решили попробовать посотрудничать. Я сам никогда не создавал web аналитические решения, так что обложился книгами по python и попробую что-нибудь сделать. Возможно это новая ниша и новый рынок, на котором не высокая конкуренция. Все эти решения работают в облаке (AWS/Azure/GCP) и берут данные из data platforms, так что интересно будет проверить эту гипотезу.

PS Самый популярные библиотеки python для анализа данных:
NumPy (Numerical Python) - библиотека для работы с массивом данных, линейной алгебры и прочей матемтиматики

Pandas (произошел от panel data, термин в эконометрике для многомерных структур)- библиотека для работы со структурированными данными через DataFrame (таблица). В нем мы можем трансформировать наши данные.

matplotlib - библиотека для создание графиков и 2х мерной визуализации.

IPython - продвинутая среда для Python

SciPy - набор пакетов для наукоемких вычислений. Вместе NumPy и SciPy заменяют MATLAB (ну почти).

scikit-learn - библиотека для ML

statsmodels - статистический пакет

А вам достаточно коробочного BI решения или вы пошли дальше и внедряете custom решение на R/Python?

Plotly

Data Apps for Production | Plotly

Discover data applications for production with Plotly. Put data and AI into action with scalable, interactive data apps for your organization.

1.87K viewsedited 06:30

15 comments

Инжиниринг Данных

Think Python, 2nd Edition.pdf

3.2 MB

Классная книга, которая учит не просто Python, но и дает контекст, чтобы мы могли думать как программист, когда пишем код.

2.34K views19:35

1 comment

Инжиниринг Данных

Мощный заголовок - https://goodstrat.com/2020/04/15/bullshit-at-the-data-lakehouse/

GOOD STRATEGY

Bullshit at the Data Lakehouse

Martyn Richard Jones San Martiño de Bandoxa 15th April 2020 ADVERT: LAUGHING@BIGDATA – THE GREATEST DATA STORY EVER TOLD! laughing@bigdata A new ebook about Agile, AI, data, deep le…

1.58K views21:53

Add a comment

Инжиниринг Данных

Apache Super Set - open source BI, интересный пост и пример работы инструмента https://preset.io/blog/2020-04-15-github-community-dashboard/

preset.io

Open Sourcing a GitHub Engagement Dashboard

Build a GitHub community dashboard: extract data from the GitHub API, load it into a database, and visualize with Superset.

1.7K views00:50

Add a comment

Инжиниринг Данных

https://m.habr.com/ru/company/mailru/blog/493356/

Хабр

Видео @Databases Meetup: безопасность СУБД, Tarantool в IoT, Greenplum для аналитики Big Data

28 февраля прошел митап @Databases, организованный Mail.ru Cloud Solutions. Более 300 участников собрались в Mail.ru Group, чтобы обсудить актуальные проблемы современных производительных баз...

1.53K views16:06

Add a comment

Инжиниринг Данных

Про Data Engineer и Data Scientist на русском от нетологии:
1) Data Engineer и Data Scientist: какая вообще разница?
2) Data Engineer и Data Scientist: что умеют и сколько зарабатывают

Контент хороший, единственное я не знаю как с этим обстоят делат на отечественном рынке. На hh я видел вакансии data engineer, но немного. Чаще это про BigData инженера или про ETL разработчика (их тоже можно назвать data engineer).

Как у вас дела обстоят со зрелостью рынка для позиции Data Engineer и насколько совпадает/отличается описание с международными понятиями?

Хабр

Data Engineer и Data Scientist: какая вообще разница?

Профессии Data Scientist и Data Engineer часто путают. У каждой компании своя специфика работы с данными, разные цели их анализа и разное представление, кто из специалистов какой частью работы должен...

1.69K views16:53

Add a comment

Инжиниринг Данных

Не пропустите 20 апреля, презентацию от меня. Сижу рисую слайды для вас, от души;) https://netology.ru/free-lessons/kak-razvivatsya-v-data-engineering-v-rossii-i-zagranicej

1.5K viewsedited 22:30

Add a comment

Инжиниринг Данных

ML Well Architected Stack от AWS https://d1.awsstatic.com/whitepapers/architecture/wellarchitected-Machine-Learning-Lens.pdf

1.54K views03:31

1.63K views03:31

Screenshot_20200414-102937.png

373.2 KB

Чувак все классно написал, про то, что все модели перестали работать и все прогнозы на свалку. И вообще теперь большая дыра в данных у всех и пока не очень понятно как дальше будущее предсказывать

2.1K viewsedited 19:51

3 comments

Инжиниринг Данных

Интересная статья про иммиграцию, аж 2011. Конечно, многое поменялось. Но раздел "мифы" очень полезный. https://habr.com/ru/post/285400/

1.56K viewsedited 23:17

Инжиниринг Данных

Обзор отечественных BI

1.65K views01:45

13 comments

Инжиниринг Данных

Пишут, что хорошая книга. Что для data engineer, что для data science без CS никуда. А вы что посоветуете?

1.81K views18:39

1.57K views15:32

Меня спросили, как сравнивать 2 списка текста. Для контекста расскажу про один из проектов. У нас был marketplace с 350млн наименованиями товаров (б/у книги). Одну и туже книгу могут назвать по разному (с сокращение, без, 1 автор или несколько, и много других вариаций, так как все книги загружались продавцами).

Задача была понять, так сколько у нас реально уникальных книг. Можно взять "наименование книги" и "автора" и уже пытаться искать идеальный кейс. На хабре попалась статья про метода и алгоритмы, которые это делают.

Я использовал сначало Hadoop+Hive (AWS EMR), то есть весь расчет на SQL. А затем Hadoop+Spark.

Хабр

Нечёткий поиск в тексте и словаре

Введение Алгоритмы нечеткого поиска (также известного как поиск по сходству или fuzzy string search ) являются основой систем проверки орфографии и полноценных поисковых систем вроде Google или...

1.62K viewsedited 19:07

Add a comment

About

Blog

Apps

Platform