У меня не очень полулось влезть в консалтинг партнеры для Snowflake, но зато, как обычно получлось через Community. Snowflake присвоил мне статус Super Data Hero - это максимальный уровень в community. Не уверен, что это как-то поможет, но еще раз говорит что активное участие в сообществах всегда благотворно влияет на нетворкинг и позволяет создавать дополнительные возможности.
Детальная статья про собеседование в Амазон на русском. Все этапы описаны очень подробно. Единственное у автора 15 лет в Microsoft до работы в AWS, что явно помогло ему получить рабочую визу.
vc.ru
О собеседовании в Amazon: какие вопросы будут задавать на интервью и что нужно знать заранее — Карьера на vc.ru
Альберт Хабибрахимов Карьера 20.12.2019
Если вы вдруг захотите написать книгу пока сидите дома, то вот вам презентация 2016 года, где как раз про то: как написать книгу https://www.slideshare.net/dimoobraznii/my-experience-of-writing-technical-books-61378068
www.slideshare.net
My experience of writing technical books
My experience of writing technical books - Download as a PDF or view online for free
Очень долгое время я особо не углублялся в Python, использовал его постолько посколько для Spark (PySpark), для ELT/ETL и для задач data quality.
Вчера я пообщался с VP Sales plotly. Это Канадская компания, у которой есть 2 opensource решения (библиотека визуализаций plotly и Dash - фреймворк для аналитического решения). Монетизация через Enterprise Dash. То есть условная компания, у которой уже есть Tableau/PowerBI или любой другой традиционный инструмент, платформа данных, уперлась в своем развитие. Лицензии на BI продукты дорогие, data scientist не могу правильно презентовать свою работу, но они отлично знаю Python и они создают BI решение с элементами BI/AI/ML полностью кастомизированное. То есть такая эволюция от традиционных BI решений к Аналитическим кастомизированным решениям.
VP Sales был Country Manager Tableau в Канаде и создавал Sales процессы в Канаде. После того как SalesForce поглотил Tableau, многие вещи испортились и он присоединился к этой компании. Мы с ним относительно хорошо общаемся, и решили попробовать посотрудничать. Я сам никогда не создавал web аналитические решения, так что обложился книгами по python и попробую что-нибудь сделать. Возможно это новая ниша и новый рынок, на котором не высокая конкуренция. Все эти решения работают в облаке (AWS/Azure/GCP) и берут данные из data platforms, так что интересно будет проверить эту гипотезу.
PS Самый популярные библиотеки python для анализа данных:
NumPy (Numerical Python) - библиотека для работы с массивом данных, линейной алгебры и прочей матемтиматики
Pandas (произошел от panel data, термин в эконометрике для многомерных структур)- библиотека для работы со структурированными данными через DataFrame (таблица). В нем мы можем трансформировать наши данные.
matplotlib - библиотека для создание графиков и 2х мерной визуализации.
IPython - продвинутая среда для Python
SciPy - набор пакетов для наукоемких вычислений. Вместе NumPy и SciPy заменяют MATLAB (ну почти).
scikit-learn - библиотека для ML
statsmodels - статистический пакет
А вам достаточно коробочного BI решения или вы пошли дальше и внедряете custom решение на R/Python?
Вчера я пообщался с VP Sales plotly. Это Канадская компания, у которой есть 2 opensource решения (библиотека визуализаций plotly и Dash - фреймворк для аналитического решения). Монетизация через Enterprise Dash. То есть условная компания, у которой уже есть Tableau/PowerBI или любой другой традиционный инструмент, платформа данных, уперлась в своем развитие. Лицензии на BI продукты дорогие, data scientist не могу правильно презентовать свою работу, но они отлично знаю Python и они создают BI решение с элементами BI/AI/ML полностью кастомизированное. То есть такая эволюция от традиционных BI решений к Аналитическим кастомизированным решениям.
VP Sales был Country Manager Tableau в Канаде и создавал Sales процессы в Канаде. После того как SalesForce поглотил Tableau, многие вещи испортились и он присоединился к этой компании. Мы с ним относительно хорошо общаемся, и решили попробовать посотрудничать. Я сам никогда не создавал web аналитические решения, так что обложился книгами по python и попробую что-нибудь сделать. Возможно это новая ниша и новый рынок, на котором не высокая конкуренция. Все эти решения работают в облаке (AWS/Azure/GCP) и берут данные из data platforms, так что интересно будет проверить эту гипотезу.
PS Самый популярные библиотеки python для анализа данных:
NumPy (Numerical Python) - библиотека для работы с массивом данных, линейной алгебры и прочей матемтиматики
Pandas (произошел от panel data, термин в эконометрике для многомерных структур)- библиотека для работы со структурированными данными через DataFrame (таблица). В нем мы можем трансформировать наши данные.
matplotlib - библиотека для создание графиков и 2х мерной визуализации.
IPython - продвинутая среда для Python
SciPy - набор пакетов для наукоемких вычислений. Вместе NumPy и SciPy заменяют MATLAB (ну почти).
scikit-learn - библиотека для ML
statsmodels - статистический пакет
А вам достаточно коробочного BI решения или вы пошли дальше и внедряете custom решение на R/Python?
Plotly
Data Apps for Production | Plotly
Discover data applications for production with Plotly. Put data and AI into action with scalable, interactive data apps for your organization.
Think Python, 2nd Edition.pdf
3.2 MB
Классная книга, которая учит не просто Python, но и дает контекст, чтобы мы могли думать как программист, когда пишем код.
Мощный заголовок - https://goodstrat.com/2020/04/15/bullshit-at-the-data-lakehouse/
GOOD STRATEGY
Bullshit at the Data Lakehouse
Martyn Richard Jones San Martiño de Bandoxa 15th April 2020 ADVERT: LAUGHING@BIGDATA – THE GREATEST DATA STORY EVER TOLD! laughing@bigdata A new ebook about Agile, AI, data, deep le…
Apache Super Set - open source BI, интересный пост и пример работы инструмента https://preset.io/blog/2020-04-15-github-community-dashboard/
preset.io
Open Sourcing a GitHub Engagement Dashboard
Build a GitHub community dashboard: extract data from the GitHub API, load it into a database, and visualize with Superset.
Про Data Engineer и Data Scientist на русском от нетологии:
1) Data Engineer и Data Scientist: какая вообще разница?
2) Data Engineer и Data Scientist: что умеют и сколько зарабатывают
Контент хороший, единственное я не знаю как с этим обстоят делат на отечественном рынке. На hh я видел вакансии data engineer, но немного. Чаще это про BigData инженера или про ETL разработчика (их тоже можно назвать data engineer).
Как у вас дела обстоят со зрелостью рынка для позиции Data Engineer и насколько совпадает/отличается описание с международными понятиями?
1) Data Engineer и Data Scientist: какая вообще разница?
2) Data Engineer и Data Scientist: что умеют и сколько зарабатывают
Контент хороший, единственное я не знаю как с этим обстоят делат на отечественном рынке. На hh я видел вакансии data engineer, но немного. Чаще это про BigData инженера или про ETL разработчика (их тоже можно назвать data engineer).
Как у вас дела обстоят со зрелостью рынка для позиции Data Engineer и насколько совпадает/отличается описание с международными понятиями?
Хабр
Data Engineer и Data Scientist: какая вообще разница?
Профессии Data Scientist и Data Engineer часто путают. У каждой компании своя специфика работы с данными, разные цели их анализа и разное представление, кто из специалистов какой частью работы должен...
Не пропустите 20 апреля, презентацию от меня. Сижу рисую слайды для вас, от души;) https://netology.ru/free-lessons/kak-razvivatsya-v-data-engineering-v-rossii-i-zagranicej
ML Well Architected Stack от AWS https://d1.awsstatic.com/whitepapers/architecture/wellarchitected-Machine-Learning-Lens.pdf
Screenshot_20200414-102937.png
373.2 KB
Чувак все классно написал, про то, что все модели перестали работать и все прогнозы на свалку. И вообще теперь большая дыра в данных у всех и пока не очень понятно как дальше будущее предсказывать
Интересная статья про иммиграцию, аж 2011. Конечно, многое поменялось. Но раздел "мифы" очень полезный. https://habr.com/ru/post/285400/
Пишут, что хорошая книга. Что для data engineer, что для data science без CS никуда. А вы что посоветуете?
Меня спросили, как сравнивать 2 списка текста. Для контекста расскажу про один из проектов. У нас был marketplace с 350млн наименованиями товаров (б/у книги). Одну и туже книгу могут назвать по разному (с сокращение, без, 1 автор или несколько, и много других вариаций, так как все книги загружались продавцами).
Задача была понять, так сколько у нас реально уникальных книг. Можно взять "наименование книги" и "автора" и уже пытаться искать идеальный кейс. На хабре попалась статья про метода и алгоритмы, которые это делают.
Я использовал сначало Hadoop+Hive (AWS EMR), то есть весь расчет на SQL. А затем Hadoop+Spark.
Задача была понять, так сколько у нас реально уникальных книг. Можно взять "наименование книги" и "автора" и уже пытаться искать идеальный кейс. На хабре попалась статья про метода и алгоритмы, которые это делают.
Я использовал сначало Hadoop+Hive (AWS EMR), то есть весь расчет на SQL. А затем Hadoop+Spark.
Хабр
Нечёткий поиск в тексте и словаре
Введение Алгоритмы нечеткого поиска (также известного как поиск по сходству или fuzzy string search ) являются основой систем проверки орфографии и полноценных поисковых систем вроде Google или...
Презентация про Data Engineering. Пришло 50 человек, что говорит о зрелости рынка и об интересе к вакансии, точнее его отсутствия. https://docs.google.com/presentation/d/1_UysT1KWOaPczXgZ3V5DX_-E4pWIQz5dIndEnqS0UsI/edit#slide=id.gc6f9544c1_0_53
Google Docs
Нетология | про дата инжинеринг
Как развиваться в Data Engineering: в России и за границей Дмитрий Аношин, Data Engineer, Amazon Alexa