Ещё одна бесплатная книга про ML
https://dafriedman97.github.io/mlbook/content/introduction.html
https://dafriedman97.github.io/mlbook/content/introduction.html
Вот это я понимаю правильный подход!) - "Глава Netflix объяснил, почему нельзя платить сотрудникам премии по KPI"
Оч крутые новости, благодаря рекламе в канале можно сделать маленькое доброе дело. На картинке перевод 10т рублей в фонд "измени одну жизнь". Это фонд записывает видео для детей сирот, чтобы помочь им найти родителей. А скоро я опубликую рекламу, а вы с ней обязательно ознакомьтесь🙏
Всем привет! Команда аналитики Яндекс.Практикума ищет маркетингового аналитика.
Яндекс.Практикум — сервис онлайн-образования. Мы помогаем людям расти — на работе и в жизни. Студенты могут освоить новую специальность, заговорить на иностранном языке и получать удовольствие от того, чем занимаются — каждый день.
Выпускники Практикума могут работать python- и веб-разработчиками, аналитиками данных, инженерами по тестированию и специалистами по Data Science. В апреле 2020 года мы запустили Флоу — курсы английского языка от Яндекс.Практикума. Готовим курсы по интернет-маркетингу и дизайну интерфейсов.
Наш девиз: «Каждый может». Каждый может менять свою жизнь, каждый может научиться новому, каждый может начать сегодня. Даже если раньше не получалось. Если вы считаете так же — вы уже часть нашей команды.
Описание задач и требования по ссылке: https://www.notion.so/praktikum/23b04bb891b641bab2114cb2156f24d8
Бонус: Яндекс.Станция Мини за полезную рекомендацию (если человек по вашей рекомендации станет частью команды).
Яндекс.Практикум — сервис онлайн-образования. Мы помогаем людям расти — на работе и в жизни. Студенты могут освоить новую специальность, заговорить на иностранном языке и получать удовольствие от того, чем занимаются — каждый день.
Выпускники Практикума могут работать python- и веб-разработчиками, аналитиками данных, инженерами по тестированию и специалистами по Data Science. В апреле 2020 года мы запустили Флоу — курсы английского языка от Яндекс.Практикума. Готовим курсы по интернет-маркетингу и дизайну интерфейсов.
Наш девиз: «Каждый может». Каждый может менять свою жизнь, каждый может научиться новому, каждый может начать сегодня. Даже если раньше не получалось. Если вы считаете так же — вы уже часть нашей команды.
Описание задач и требования по ссылке: https://www.notion.so/praktikum/23b04bb891b641bab2114cb2156f24d8
Бонус: Яндекс.Станция Мини за полезную рекомендацию (если человек по вашей рекомендации станет частью команды).
Practicum on Notion
Маркетинговый аналитик в Яндекс.Практикум | Notion
Яндекс.Практикум — сервис онлайн-образования. Мы помогаем людям расти — на работе и в жизни. Студенты могут освоить новую специальность, заговорить на иностранном языке и получать удовольствие от того, чем занимаются — каждый день.
Ах, откуда столько информации? Это principal engineer дает презентацию в нашем орге.
Классную штуку я нашел:
What is a Data Engineering Immersion Day?
Data Engineering Immersion Day has hands-on lab and modules focus on ingestion, hydration, exploration, and consumption of the data lake in AWS.
Introduction
Lab: Clickstream Anomaly Detection
Lab: DMS with ingestion
Lab: Transforming data with Glue
Lab: Athena and QuickSight
Lab: AI ML using Sagemaker
Lab: Data Lake Automation
https://aws-dataengineering-day.workshop.aws/
What is a Data Engineering Immersion Day?
Data Engineering Immersion Day has hands-on lab and modules focus on ingestion, hydration, exploration, and consumption of the data lake in AWS.
Introduction
Lab: Clickstream Anomaly Detection
Lab: DMS with ingestion
Lab: Transforming data with Glue
Lab: Athena and QuickSight
Lab: AI ML using Sagemaker
Lab: Data Lake Automation
https://aws-dataengineering-day.workshop.aws/
Класс! Microsoft создаёт подводный датацентр.
Microsoft
Microsoft finds underwater datacenters are reliable, practical and use energy sustainably | Innovation Stories
Microsoft retrieved the Northern Isles underwater datacenter from the seafloor off Scotland's Orkney Islands. Project Natick is proving the concept of underwater datacenters is feasible as well as logistically, environmentally and economically practical.
В 2013 году я был в книжном на Арбате. Там был компьютер, где можно было посмотреть книги. При мне кто-то искал книгу. И мне стало интересно, что за книгу искали и я решил купить ее тоже. Тогда я мечтал жить у океана и работать в Амазоне, я думал это просто нереально. Может и правда мысли материализуются? Как вы думаете?
Свежий отчет по сравнению облачных хранилищ от Fivetran (облачный ETL, главный конкурент Matillion по Snowflake, Synapse, Redshift, BigQuery).
Я думаю, что на сегодняшний день уже performance это не главное. Показывать у кого быстрей отработает запрос не актуально. Цена, безопасность, интеграция с облачными сервисами и надежность - это важнее.
Я думаю, что на сегодняшний день уже performance это не главное. Показывать у кого быстрей отработает запрос не актуально. Цена, безопасность, интеграция с облачными сервисами и надежность - это важнее.
Fivetran
Cloud Data Warehouse Benchmark | Blog | Fivetran
Our newest benchmark compares price, performance and differentiated features for Redshift, Snowflake, BigQuery, Databricks and Synapse.
Крутая визуализация в табло с использования parameter actions. График превращается, график превращается в... https://public.tableau.com/profile/tam.s.varga#!/vizhome/SchoolWorkforceGenderGap/SchoolWorkforceGenderGap
Статья описывает 3 возможных сценария для Spark на AWS.
1) Запустить EMR (Hadoop) и включить в нем Spark. Я такое делал. EMR использует EC2 (виртуальные машины) для вычислений и Spark для логики. Данные можно все хранить на S3, Hadoop FS не используется.
2) Использовать Glue (это такой AWS ETL, который внутри имеет Spark, можно двигать данные и трансформировать. Минимум интерфейса). ДЛя него не нужны виртуальные машины, потому что это serverless (SaaS) решение.
3) Использовать контейнеры на AWS Fargate. Это я не пробовал.
На Азуре будет:
1) HDInsight+Spark или лучше использовать DataBricks
2) Azure Data Factory (но там уже нужно использовать HDInsight или Databricks в качестве вычислений.)
3) Контейнеры на Azure.
Также и на Google Cloud. Я не знаю названий сервисов.
Когда такие возможности появятся у яндекс облака и mail облака, тогда можно уже строить решения на отечественном облаке.
====
Как вы полняли, один из ключевых навыков, это понимать назначение инструмента. Аналитическое решение это как конструктор из блоков. Нужно представлять архитектуру и правильно выбирать компоненты. Именно поэтому на datalearn мы рисовали смешные архитектуры в модуле 1 и потом будем усложнять их. Очень важно понимать, какое решение, для какой ситуации. А как кодить на spark или писать SQL/Python уже можно в процессе работы подтянуть. Но вы должны понимать, когда и почему Spark, а когда это "по воробьям из пушки".
Мы рассмотрим эти варианты 1 и 2 на datalearn.
1) Запустить EMR (Hadoop) и включить в нем Spark. Я такое делал. EMR использует EC2 (виртуальные машины) для вычислений и Spark для логики. Данные можно все хранить на S3, Hadoop FS не используется.
2) Использовать Glue (это такой AWS ETL, который внутри имеет Spark, можно двигать данные и трансформировать. Минимум интерфейса). ДЛя него не нужны виртуальные машины, потому что это serverless (SaaS) решение.
3) Использовать контейнеры на AWS Fargate. Это я не пробовал.
На Азуре будет:
1) HDInsight+Spark или лучше использовать DataBricks
2) Azure Data Factory (но там уже нужно использовать HDInsight или Databricks в качестве вычислений.)
3) Контейнеры на Azure.
Также и на Google Cloud. Я не знаю названий сервисов.
Когда такие возможности появятся у яндекс облака и mail облака, тогда можно уже строить решения на отечественном облаке.
====
Как вы полняли, один из ключевых навыков, это понимать назначение инструмента. Аналитическое решение это как конструктор из блоков. Нужно представлять архитектуру и правильно выбирать компоненты. Именно поэтому на datalearn мы рисовали смешные архитектуры в модуле 1 и потом будем усложнять их. Очень важно понимать, какое решение, для какой ситуации. А как кодить на spark или писать SQL/Python уже можно в процессе работы подтянуть. Но вы должны понимать, когда и почему Spark, а когда это "по воробьям из пушки".
Мы рассмотрим эти варианты 1 и 2 на datalearn.
Medium
Running Apache Spark on AWS
By Mariusz Strzelecki
Snowflake вышел на биржу и стал публичной компаний. Это просто "пушка" а не хранилище данных. Захватили весь рынок Северной Америке это точно и в Европе тоже. Прикупить их акцией если сможете.
Кстати Rock your data стала первым партнёром Snowflake в Канаде ещё в 2017. Я написал первую книгу про snowflake с Apress и стал первым Super Data Hero в Канаде (это топ награда за участие в комьюнити). Ещё в 2018 году я делал воркшоп на матемаркетинге про Snowflake (никто не слышал про них). А теперь они вон как высоко поднялись и реально приносят пользу. К сожалению все свои достижения со Snowflake я не смог монетизировать или масштабировать. Книжки пылятся на полке, а snowflake внедряют в Канаде большие компании с 10+ летней историей на рынке. Это значит, что я не умею или не хочу продавать🙄
Кстати Rock your data стала первым партнёром Snowflake в Канаде ещё в 2017. Я написал первую книгу про snowflake с Apress и стал первым Super Data Hero в Канаде (это топ награда за участие в комьюнити). Ещё в 2018 году я делал воркшоп на матемаркетинге про Snowflake (никто не слышал про них). А теперь они вон как высоко поднялись и реально приносят пользу. К сожалению все свои достижения со Snowflake я не смог монетизировать или масштабировать. Книжки пылятся на полке, а snowflake внедряют в Канаде большие компании с 10+ летней историей на рынке. Это значит, что я не умею или не хочу продавать🙄