Инжиниринг Данных
23.5K subscribers
1.99K photos
55 videos
193 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Меня спросили, как сравнивать 2 списка текста. Для контекста расскажу про один из проектов. У нас был marketplace с 350млн наименованиями товаров (б/у книги). Одну и туже книгу могут назвать по разному (с сокращение, без, 1 автор или несколько, и много других вариаций, так как все книги загружались продавцами).

Задача была понять, так сколько у нас реально уникальных книг. Можно взять "наименование книги" и "автора" и уже пытаться искать идеальный кейс. На хабре попалась статья про метода и алгоритмы, которые это делают.

Я использовал сначало Hadoop+Hive (AWS EMR), то есть весь расчет на SQL. А затем Hadoop+Spark.
Open Source рисовалка диаграмм https://github.com/jgraph/drawio
Товарищ очень классно и по современному описал, что такое современный дашборд. С картинками!
Чистое золото картинка
Картинки из вебинара ML на Snowflake. На самом деле не важно, какая у вас платформа или хранилище данных, цикл примерно одинаковый. Мне кажется если вы можете разбираться в таких диаграммах, то вы уже не новичок в инжиниринг данных. Как вы считаете полезный скин уметь рисовать архитектурные диаграммы и умение в них разбираться? У вас есть примеры диаграмм? Поделитесь.
Классика! Это наверно самый популярный вопрос на собеседованиях, в чем разница архитектур при построении DW. Я всегда говорю: "Ну Кимбал это побыстрому, построим витрины (datamart) и для каждого департамента/процесса своя схема звездва (dimensional modelling). Но сложно масштабировать и потом приходиться все переделывать. А вот Инмон наоборот, там есть большая модель данных в 3й нормальной форме, и она легко масштабируется, но долго делается. А еще есть Data Vault моделирование..."

А вы чем пользуетесь? Я если честно ничем🙈
Modern Data Platform Architecture 04-20-2020.pptx
10.5 MB
Супер презентация от Matillion и DataMeaning (BI консалтинг), где картинки про legacy архитектуру и modern. Файл в power point, а это значит его можно растащить по своим презентациям.
А вот про современный дашборд для мобильных устройств. Никогда не внедрил в итоге аналитику на мобильных устройствам. Все время какие-то проблемы с устройствами, доступом, VPN или лицензиями. Звучало круто в 2012 - дашборд на телефоне, а реализация так себе. Кто-нибудь внедрил мобильные устройства?
Маленький пост на medium от нашего BI Intern. Она выделила 4 пункта:
1) Weekly Business Review - еженедельные встречи и обсуждения метрик и бизнеса, по сути смотрят на дашборды и смотрят на данные.🤠
2) Data Democratization - значит все решения принимаются на основе данных.🤗
3) Data Engineering - без него никуда!🧐
4) Applied statistics and data modeling - это так классно у нас называется data science. 🤖

И она еще цитату хорошую использовала, которую взяла у Безоса, а безос взял у Theodor Seuss Geisel: "В вашей голове находится мозг. В ботинках — ноги. Вы сами можете управлять, в каком направлении двигаться. Вы сами за себя. И вы знаете то, что вы знаете. И только ВЫ можете решать, куда вам идти."

Я пошутил, другая его цитата на само деле: "When something bad happens you have three choices. You can either let it define you, let it destroy you, or you can let it strengthen you."💪🦵
Про мой любимый Amazon Leadership Principle - Think Big:
"The common question that gets asked in business is, 'why?' That's a good question, but an equally valid question is, 'why not?'" - Jeff Bezos

"You can do the math 15 different ways, and every time the math tells you that you shouldn’t lower prices because you’re going to make less money. That’s undoubtedly true in the current quarter, in the current year. But it’s probably not true over a 10-year period, when the benefit is going to increase the frequency with which your customers shop with you, the fraction of their purchases they do with you as opposed to other places. Their overall satisfaction is going to go up." - Jeff Bezos

"All of the things that we put a lot of energy into have to be durable in time. Not every company follows this principle, and I believe it’s always a mistake. If you base your strategies on things that are transient, then you have to change your strategy too frequently." - Jeff Bezos

"At the heart of what we're doing is trying to think big on behalf of customers" - Adam Selipsky
Мне тут скинули ссылку, может кому интересно, 25 апреля https://ozonmasters.ru/
Ozon Masters - это программа обучения в области анализа данных.
Мы предлагаем два направления: теоретическое с уклоном в программирование Data Science и Data Engineering и сфокусированное на практических кейсах Business Intelligence.
Наша линейка курсов соответствует программам подготовки в области машинного обучения и бизнес-аналитики ведущих университетов мира.

Если кто уже проходил школу, напишите отзыв, как прошло? И вообще это бесплатно или нет?🙈
На последнем вебинара про дата инжиниринг я упомянул термин, который я открыл для себя недавно - "поле искажения реальности", я услышал его в книге про Стив Джобса.

Я упомянул это в контесте прохождения собеседования и устройства на работу. Раньше я говорил fake it till you make it. Что звучала немного грубовато - приврать (в лучшем случае). Теперь же мы можем использовать почти научный способ из сериала Звездный путь - поле искажения реальности. Это значит нам надо верить в то, что мы говорим. Тут подробней. Для datalearn.ru я думал про создания маленького интенсива по поиску работы и использованию выше упомянутых методов;)
А у меня был блог с 2013 по 2016 https://techbusinessintelligence.blogspot.com/ там много про SAP BusinessOnjects. Я его писал с одной целью, ссылочку вставить в резюме.