Не пропустите 20 апреля, презентацию от меня. Сижу рисую слайды для вас, от души;) https://netology.ru/free-lessons/kak-razvivatsya-v-data-engineering-v-rossii-i-zagranicej
ML Well Architected Stack от AWS https://d1.awsstatic.com/whitepapers/architecture/wellarchitected-Machine-Learning-Lens.pdf
Screenshot_20200414-102937.png
373.2 KB
Чувак все классно написал, про то, что все модели перестали работать и все прогнозы на свалку. И вообще теперь большая дыра в данных у всех и пока не очень понятно как дальше будущее предсказывать
Интересная статья про иммиграцию, аж 2011. Конечно, многое поменялось. Но раздел "мифы" очень полезный. https://habr.com/ru/post/285400/
Пишут, что хорошая книга. Что для data engineer, что для data science без CS никуда. А вы что посоветуете?
Меня спросили, как сравнивать 2 списка текста. Для контекста расскажу про один из проектов. У нас был marketplace с 350млн наименованиями товаров (б/у книги). Одну и туже книгу могут назвать по разному (с сокращение, без, 1 автор или несколько, и много других вариаций, так как все книги загружались продавцами).
Задача была понять, так сколько у нас реально уникальных книг. Можно взять "наименование книги" и "автора" и уже пытаться искать идеальный кейс. На хабре попалась статья про метода и алгоритмы, которые это делают.
Я использовал сначало Hadoop+Hive (AWS EMR), то есть весь расчет на SQL. А затем Hadoop+Spark.
Задача была понять, так сколько у нас реально уникальных книг. Можно взять "наименование книги" и "автора" и уже пытаться искать идеальный кейс. На хабре попалась статья про метода и алгоритмы, которые это делают.
Я использовал сначало Hadoop+Hive (AWS EMR), то есть весь расчет на SQL. А затем Hadoop+Spark.
Хабр
Нечёткий поиск в тексте и словаре
Введение Алгоритмы нечеткого поиска (также известного как поиск по сходству или fuzzy string search ) являются основой систем проверки орфографии и полноценных поисковых систем вроде Google или...
Презентация про Data Engineering. Пришло 50 человек, что говорит о зрелости рынка и об интересе к вакансии, точнее его отсутствия. https://docs.google.com/presentation/d/1_UysT1KWOaPczXgZ3V5DX_-E4pWIQz5dIndEnqS0UsI/edit#slide=id.gc6f9544c1_0_53
Google Docs
Нетология | про дата инжинеринг
Как развиваться в Data Engineering: в России и за границей Дмитрий Аношин, Data Engineer, Amazon Alexa
Товарищ очень классно и по современному описал, что такое современный дашборд. С картинками!
Картинки из вебинара ML на Snowflake. На самом деле не важно, какая у вас платформа или хранилище данных, цикл примерно одинаковый. Мне кажется если вы можете разбираться в таких диаграммах, то вы уже не новичок в инжиниринг данных. Как вы считаете полезный скин уметь рисовать архитектурные диаграммы и умение в них разбираться? У вас есть примеры диаграмм? Поделитесь.
Классика! Это наверно самый популярный вопрос на собеседованиях, в чем разница архитектур при построении DW. Я всегда говорю: "Ну Кимбал это побыстрому, построим витрины (datamart) и для каждого департамента/процесса своя схема звездва (dimensional modelling). Но сложно масштабировать и потом приходиться все переделывать. А вот Инмон наоборот, там есть большая модель данных в 3й нормальной форме, и она легко масштабируется, но долго делается. А еще есть Data Vault моделирование..."
А вы чем пользуетесь? Я если честно ничем🙈
А вы чем пользуетесь? Я если честно ничем🙈
TDAN.com
Data Warehouse Design – Inmon versus Kimball
Introduction We are living in the age of a data revolution, and more corporations are realizing that to lead—or in some cases, to survive—they need to harness their data wealth effectively. The data warehouse, due to its unique proposition as the integrated…
Ивент про пересечение дизайна и data science от quantum black https://events.quantumblack.com/quantumblackmeetup
Quantumblack
Unlocking greater value when data scientists and designers work together
Have you ever thought about applying design to an advanced analytics project but are not sure how to make the case for it or do it most effectively? On 23rd April we will be hosting a nation-wide virtual Meetup. We have also excitingly extended the invite…
Modern Data Platform Architecture 04-20-2020.pptx
10.5 MB
Супер презентация от Matillion и DataMeaning (BI консалтинг), где картинки про legacy архитектуру и modern. Файл в power point, а это значит его можно растащить по своим презентациям.
А вот про современный дашборд для мобильных устройств. Никогда не внедрил в итоге аналитику на мобильных устройствам. Все время какие-то проблемы с устройствами, доступом, VPN или лицензиями. Звучало круто в 2012 - дашборд на телефоне, а реализация так себе. Кто-нибудь внедрил мобильные устройства?
Viz Zen Data
How to Create Halos Around Bar Charts
Modern Dashboards Modern dashboard designs are all the rage right now. The design layout and functionality often take concepts from web design and mobile application user experience (UX) and user i…