Screenshot_20200414-102937.png
373.2 KB
Чувак все классно написал, про то, что все модели перестали работать и все прогнозы на свалку. И вообще теперь большая дыра в данных у всех и пока не очень понятно как дальше будущее предсказывать
Интересная статья про иммиграцию, аж 2011. Конечно, многое поменялось. Но раздел "мифы" очень полезный. https://habr.com/ru/post/285400/
Пишут, что хорошая книга. Что для data engineer, что для data science без CS никуда. А вы что посоветуете?
Меня спросили, как сравнивать 2 списка текста. Для контекста расскажу про один из проектов. У нас был marketplace с 350млн наименованиями товаров (б/у книги). Одну и туже книгу могут назвать по разному (с сокращение, без, 1 автор или несколько, и много других вариаций, так как все книги загружались продавцами).
Задача была понять, так сколько у нас реально уникальных книг. Можно взять "наименование книги" и "автора" и уже пытаться искать идеальный кейс. На хабре попалась статья про метода и алгоритмы, которые это делают.
Я использовал сначало Hadoop+Hive (AWS EMR), то есть весь расчет на SQL. А затем Hadoop+Spark.
Задача была понять, так сколько у нас реально уникальных книг. Можно взять "наименование книги" и "автора" и уже пытаться искать идеальный кейс. На хабре попалась статья про метода и алгоритмы, которые это делают.
Я использовал сначало Hadoop+Hive (AWS EMR), то есть весь расчет на SQL. А затем Hadoop+Spark.
Хабр
Нечёткий поиск в тексте и словаре
Введение Алгоритмы нечеткого поиска (также известного как поиск по сходству или fuzzy string search ) являются основой систем проверки орфографии и полноценных поисковых систем вроде Google или...
Презентация про Data Engineering. Пришло 50 человек, что говорит о зрелости рынка и об интересе к вакансии, точнее его отсутствия. https://docs.google.com/presentation/d/1_UysT1KWOaPczXgZ3V5DX_-E4pWIQz5dIndEnqS0UsI/edit#slide=id.gc6f9544c1_0_53
Google Docs
Нетология | про дата инжинеринг
Как развиваться в Data Engineering: в России и за границей Дмитрий Аношин, Data Engineer, Amazon Alexa
Товарищ очень классно и по современному описал, что такое современный дашборд. С картинками!
Картинки из вебинара ML на Snowflake. На самом деле не важно, какая у вас платформа или хранилище данных, цикл примерно одинаковый. Мне кажется если вы можете разбираться в таких диаграммах, то вы уже не новичок в инжиниринг данных. Как вы считаете полезный скин уметь рисовать архитектурные диаграммы и умение в них разбираться? У вас есть примеры диаграмм? Поделитесь.
Классика! Это наверно самый популярный вопрос на собеседованиях, в чем разница архитектур при построении DW. Я всегда говорю: "Ну Кимбал это побыстрому, построим витрины (datamart) и для каждого департамента/процесса своя схема звездва (dimensional modelling). Но сложно масштабировать и потом приходиться все переделывать. А вот Инмон наоборот, там есть большая модель данных в 3й нормальной форме, и она легко масштабируется, но долго делается. А еще есть Data Vault моделирование..."
А вы чем пользуетесь? Я если честно ничем🙈
А вы чем пользуетесь? Я если честно ничем🙈
TDAN.com
Data Warehouse Design – Inmon versus Kimball
Introduction We are living in the age of a data revolution, and more corporations are realizing that to lead—or in some cases, to survive—they need to harness their data wealth effectively. The data warehouse, due to its unique proposition as the integrated…
Ивент про пересечение дизайна и data science от quantum black https://events.quantumblack.com/quantumblackmeetup
Quantumblack
Unlocking greater value when data scientists and designers work together
Have you ever thought about applying design to an advanced analytics project but are not sure how to make the case for it or do it most effectively? On 23rd April we will be hosting a nation-wide virtual Meetup. We have also excitingly extended the invite…
Modern Data Platform Architecture 04-20-2020.pptx
10.5 MB
Супер презентация от Matillion и DataMeaning (BI консалтинг), где картинки про legacy архитектуру и modern. Файл в power point, а это значит его можно растащить по своим презентациям.
А вот про современный дашборд для мобильных устройств. Никогда не внедрил в итоге аналитику на мобильных устройствам. Все время какие-то проблемы с устройствами, доступом, VPN или лицензиями. Звучало круто в 2012 - дашборд на телефоне, а реализация так себе. Кто-нибудь внедрил мобильные устройства?
Viz Zen Data
How to Create Halos Around Bar Charts
Modern Dashboards Modern dashboard designs are all the rage right now. The design layout and functionality often take concepts from web design and mobile application user experience (UX) and user i…
Маленький пост на medium от нашего BI Intern. Она выделила 4 пункта:
1) Weekly Business Review - еженедельные встречи и обсуждения метрик и бизнеса, по сути смотрят на дашборды и смотрят на данные.🤠
2) Data Democratization - значит все решения принимаются на основе данных.🤗
3) Data Engineering - без него никуда!🧐
4) Applied statistics and data modeling - это так классно у нас называется data science. 🤖
И она еще цитату хорошую использовала, которую взяла у Безоса, а безос взял у Theodor Seuss Geisel: "В вашей голове находится мозг. В ботинках — ноги. Вы сами можете управлять, в каком направлении двигаться. Вы сами за себя. И вы знаете то, что вы знаете. И только ВЫ можете решать, куда вам идти."
Я пошутил, другая его цитата на само деле: "When something bad happens you have three choices. You can either let it define you, let it destroy you, or you can let it strengthen you."💪🦵
1) Weekly Business Review - еженедельные встречи и обсуждения метрик и бизнеса, по сути смотрят на дашборды и смотрят на данные.🤠
2) Data Democratization - значит все решения принимаются на основе данных.🤗
3) Data Engineering - без него никуда!🧐
4) Applied statistics and data modeling - это так классно у нас называется data science. 🤖
И она еще цитату хорошую использовала, которую взяла у Безоса, а безос взял у Theodor Seuss Geisel: "В вашей голове находится мозг. В ботинках — ноги. Вы сами можете управлять, в каком направлении двигаться. Вы сами за себя. И вы знаете то, что вы знаете. И только ВЫ можете решать, куда вам идти."
Я пошутил, другая его цитата на само деле: "When something bad happens you have three choices. You can either let it define you, let it destroy you, or you can let it strengthen you."💪🦵
Medium
What does Business Intelligence Engineer do in Amazon?
Lately, I am often asked by this question from my LinkedIn connections. So I decided to share what I know based on my three years of BIE…
Про мой любимый Amazon Leadership Principle - Think Big:
"The common question that gets asked in business is, 'why?' That's a good question, but an equally valid question is, 'why not?'" - Jeff Bezos
"You can do the math 15 different ways, and every time the math tells you that you shouldn’t lower prices because you’re going to make less money. That’s undoubtedly true in the current quarter, in the current year. But it’s probably not true over a 10-year period, when the benefit is going to increase the frequency with which your customers shop with you, the fraction of their purchases they do with you as opposed to other places. Their overall satisfaction is going to go up." - Jeff Bezos
"All of the things that we put a lot of energy into have to be durable in time. Not every company follows this principle, and I believe it’s always a mistake. If you base your strategies on things that are transient, then you have to change your strategy too frequently." - Jeff Bezos
"At the heart of what we're doing is trying to think big on behalf of customers" - Adam Selipsky
"The common question that gets asked in business is, 'why?' That's a good question, but an equally valid question is, 'why not?'" - Jeff Bezos
"You can do the math 15 different ways, and every time the math tells you that you shouldn’t lower prices because you’re going to make less money. That’s undoubtedly true in the current quarter, in the current year. But it’s probably not true over a 10-year period, when the benefit is going to increase the frequency with which your customers shop with you, the fraction of their purchases they do with you as opposed to other places. Their overall satisfaction is going to go up." - Jeff Bezos
"All of the things that we put a lot of energy into have to be durable in time. Not every company follows this principle, and I believe it’s always a mistake. If you base your strategies on things that are transient, then you have to change your strategy too frequently." - Jeff Bezos
"At the heart of what we're doing is trying to think big on behalf of customers" - Adam Selipsky