Инжиниринг Данных
23.5K subscribers
1.99K photos
55 videos
193 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Screenshot_20200414-102937.png
373.2 KB
Чувак все классно написал, про то, что все модели перестали работать и все прогнозы на свалку. И вообще теперь большая дыра в данных у всех и пока не очень понятно как дальше будущее предсказывать
Интересная статья про иммиграцию, аж 2011. Конечно, многое поменялось. Но раздел "мифы" очень полезный. https://habr.com/ru/post/285400/
Обзор отечественных BI
Пишут, что хорошая книга. Что для data engineer, что для data science без CS никуда. А вы что посоветуете?
Меня спросили, как сравнивать 2 списка текста. Для контекста расскажу про один из проектов. У нас был marketplace с 350млн наименованиями товаров (б/у книги). Одну и туже книгу могут назвать по разному (с сокращение, без, 1 автор или несколько, и много других вариаций, так как все книги загружались продавцами).

Задача была понять, так сколько у нас реально уникальных книг. Можно взять "наименование книги" и "автора" и уже пытаться искать идеальный кейс. На хабре попалась статья про метода и алгоритмы, которые это делают.

Я использовал сначало Hadoop+Hive (AWS EMR), то есть весь расчет на SQL. А затем Hadoop+Spark.
Open Source рисовалка диаграмм https://github.com/jgraph/drawio
Товарищ очень классно и по современному описал, что такое современный дашборд. С картинками!
Чистое золото картинка
Картинки из вебинара ML на Snowflake. На самом деле не важно, какая у вас платформа или хранилище данных, цикл примерно одинаковый. Мне кажется если вы можете разбираться в таких диаграммах, то вы уже не новичок в инжиниринг данных. Как вы считаете полезный скин уметь рисовать архитектурные диаграммы и умение в них разбираться? У вас есть примеры диаграмм? Поделитесь.
Классика! Это наверно самый популярный вопрос на собеседованиях, в чем разница архитектур при построении DW. Я всегда говорю: "Ну Кимбал это побыстрому, построим витрины (datamart) и для каждого департамента/процесса своя схема звездва (dimensional modelling). Но сложно масштабировать и потом приходиться все переделывать. А вот Инмон наоборот, там есть большая модель данных в 3й нормальной форме, и она легко масштабируется, но долго делается. А еще есть Data Vault моделирование..."

А вы чем пользуетесь? Я если честно ничем🙈
Modern Data Platform Architecture 04-20-2020.pptx
10.5 MB
Супер презентация от Matillion и DataMeaning (BI консалтинг), где картинки про legacy архитектуру и modern. Файл в power point, а это значит его можно растащить по своим презентациям.
А вот про современный дашборд для мобильных устройств. Никогда не внедрил в итоге аналитику на мобильных устройствам. Все время какие-то проблемы с устройствами, доступом, VPN или лицензиями. Звучало круто в 2012 - дашборд на телефоне, а реализация так себе. Кто-нибудь внедрил мобильные устройства?
Маленький пост на medium от нашего BI Intern. Она выделила 4 пункта:
1) Weekly Business Review - еженедельные встречи и обсуждения метрик и бизнеса, по сути смотрят на дашборды и смотрят на данные.🤠
2) Data Democratization - значит все решения принимаются на основе данных.🤗
3) Data Engineering - без него никуда!🧐
4) Applied statistics and data modeling - это так классно у нас называется data science. 🤖

И она еще цитату хорошую использовала, которую взяла у Безоса, а безос взял у Theodor Seuss Geisel: "В вашей голове находится мозг. В ботинках — ноги. Вы сами можете управлять, в каком направлении двигаться. Вы сами за себя. И вы знаете то, что вы знаете. И только ВЫ можете решать, куда вам идти."

Я пошутил, другая его цитата на само деле: "When something bad happens you have three choices. You can either let it define you, let it destroy you, or you can let it strengthen you."💪🦵
Про мой любимый Amazon Leadership Principle - Think Big:
"The common question that gets asked in business is, 'why?' That's a good question, but an equally valid question is, 'why not?'" - Jeff Bezos

"You can do the math 15 different ways, and every time the math tells you that you shouldn’t lower prices because you’re going to make less money. That’s undoubtedly true in the current quarter, in the current year. But it’s probably not true over a 10-year period, when the benefit is going to increase the frequency with which your customers shop with you, the fraction of their purchases they do with you as opposed to other places. Their overall satisfaction is going to go up." - Jeff Bezos

"All of the things that we put a lot of energy into have to be durable in time. Not every company follows this principle, and I believe it’s always a mistake. If you base your strategies on things that are transient, then you have to change your strategy too frequently." - Jeff Bezos

"At the heart of what we're doing is trying to think big on behalf of customers" - Adam Selipsky