Инжиниринг Данных
23.5K subscribers
1.98K photos
55 videos
193 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Ещё одна бесплатная книга про ML
https://dafriedman97.github.io/mlbook/content/introduction.html
Вот это я понимаю правильный подход!) - "Глава Netflix объяснил, почему нельзя платить сотрудникам премии по KPI"
Оч крутые новости, благодаря рекламе в канале можно сделать маленькое доброе дело. На картинке перевод 10т рублей в фонд "измени одну жизнь". Это фонд записывает видео для детей сирот, чтобы помочь им найти родителей. А скоро я опубликую рекламу, а вы с ней обязательно ознакомьтесь🙏
Всем привет! Команда аналитики Яндекс.Практикума ищет маркетингового аналитика.

Яндекс.Практикум — сервис онлайн-образования. Мы помогаем людям расти — на работе и в жизни. Студенты могут освоить новую специальность, заговорить на иностранном языке и получать удовольствие от того, чем занимаются — каждый день.

Выпускники Практикума могут работать python- и веб-разработчиками, аналитиками данных, инженерами по тестированию и специалистами по Data Science. В апреле 2020 года мы запустили Флоу — курсы английского языка от Яндекс.Практикума. Готовим курсы по интернет-маркетингу и дизайну интерфейсов.

Наш девиз: «Каждый может». Каждый может менять свою жизнь, каждый может научиться новому, каждый может начать сегодня. Даже если раньше не получалось. Если вы считаете так же — вы уже часть нашей команды.

Описание задач и требования по ссылке: https://www.notion.so/praktikum/23b04bb891b641bab2114cb2156f24d8
Бонус: Яндекс.Станция Мини за полезную рекомендацию (если человек по вашей рекомендации станет частью команды).
Авто книги Designing Data-Intensive Applications является создателем Apache Kafka
Еще одна крутая книга от 2003 года
Основные темы затронуты в этой книге:
Ах, откуда столько информации? Это principal engineer дает презентацию в нашем орге.
Очень прикольная мысль, Первое решение, которое создается как правило MVP, прототип которые делаем минимум вещей.

Вторая версия решения, это самое ужасное, что можно сделать.

А вот третья версия решения, уже ничего.
Классную штуку я нашел:
What is a Data Engineering Immersion Day?

Data Engineering Immersion Day has hands-on lab and modules focus on ingestion, hydration, exploration, and consumption of the data lake in AWS.


Introduction
Lab: Clickstream Anomaly Detection
Lab: DMS with ingestion
Lab: Transforming data with Glue
Lab: Athena and QuickSight
Lab: AI ML using Sagemaker
Lab: Data Lake Automation


https://aws-dataengineering-day.workshop.aws/
В 2013 году я был в книжном на Арбате. Там был компьютер, где можно было посмотреть книги. При мне кто-то искал книгу. И мне стало интересно, что за книгу искали и я решил купить ее тоже. Тогда я мечтал жить у океана и работать в Амазоне, я думал это просто нереально. Может и правда мысли материализуются? Как вы думаете?
Свежий отчет по сравнению облачных хранилищ от Fivetran (облачный ETL, главный конкурент Matillion по Snowflake, Synapse, Redshift, BigQuery).

Я думаю, что на сегодняшний день уже performance это не главное. Показывать у кого быстрей отработает запрос не актуально. Цена, безопасность, интеграция с облачными сервисами и надежность - это важнее.
Крутая визуализация в табло с использования parameter actions. График превращается, график превращается в... https://public.tableau.com/profile/tam.s.varga#!/vizhome/SchoolWorkforceGenderGap/SchoolWorkforceGenderGap
Статья описывает 3 возможных сценария для Spark на AWS.
1) Запустить EMR (Hadoop) и включить в нем Spark. Я такое делал. EMR использует EC2 (виртуальные машины) для вычислений и Spark для логики. Данные можно все хранить на S3, Hadoop FS не используется.
2) Использовать Glue (это такой AWS ETL, который внутри имеет Spark, можно двигать данные и трансформировать. Минимум интерфейса). ДЛя него не нужны виртуальные машины, потому что это serverless (SaaS) решение.
3) Использовать контейнеры на AWS Fargate. Это я не пробовал.

На Азуре будет:
1) HDInsight+Spark или лучше использовать DataBricks
2) Azure Data Factory (но там уже нужно использовать HDInsight или Databricks в качестве вычислений.)
3) Контейнеры на Azure.

Также и на Google Cloud. Я не знаю названий сервисов.

Когда такие возможности появятся у яндекс облака и mail облака, тогда можно уже строить решения на отечественном облаке.

====
Как вы полняли, один из ключевых навыков, это понимать назначение инструмента. Аналитическое решение это как конструктор из блоков. Нужно представлять архитектуру и правильно выбирать компоненты. Именно поэтому на datalearn мы рисовали смешные архитектуры в модуле 1 и потом будем усложнять их. Очень важно понимать, какое решение, для какой ситуации. А как кодить на spark или писать SQL/Python уже можно в процессе работы подтянуть. Но вы должны понимать, когда и почему Spark, а когда это "по воробьям из пушки".

Мы рассмотрим эти варианты 1 и 2 на datalearn.
Snowflake вышел на биржу и стал публичной компаний. Это просто "пушка" а не хранилище данных. Захватили весь рынок Северной Америке это точно и в Европе тоже. Прикупить их акцией если сможете.

Кстати Rock your data стала первым партнёром Snowflake в Канаде ещё в 2017. Я написал первую книгу про snowflake с Apress и стал первым Super Data Hero в Канаде (это топ награда за участие в комьюнити). Ещё в 2018 году я делал воркшоп на матемаркетинге про Snowflake (никто не слышал про них). А теперь они вон как высоко поднялись и реально приносят пользу. К сожалению все свои достижения со Snowflake я не смог монетизировать или масштабировать. Книжки пылятся на полке, а snowflake внедряют в Канаде большие компании с 10+ летней историей на рынке. Это значит, что я не умею или не хочу продавать🙄