Инжиниринг Данных
23.5K subscribers
1.98K photos
55 videos
192 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
На хабр, мне написал Максим, автор подкастов про DWH. Он зачитатет статью про data lake. У него уже несколько выпусков есть, классно получается и главное от души👌
Интересный момент, многие слышали про GPU? Попалась статья (короткая) на хабр, про Big Data с GPU. Там есть описание некскольких коммерческих решений, из которых я только знаю Kinetica. Благодаря развитию и демократизации технологий, мы можем теперь попробовать запустить наше классическое решение на виртуальной машине с GPU. И мы получим, серьезные вычислительные мощности. Обычно мы используем такие инстансы для ML/DL. Но что, если попробовать запустить open source Spark или Pentaho Data Integration (ETL) или может BI? Если кто пробовал запускать традиционные решения на GPU, расскажите про ваш опыт. Я бы хотел запустить ETL на GPU, и проверить насколько быстрей трансформации. Но проблама с передачей данных по сети никогда не уйдет.
#book
Мне подсунули книжку автора "Богатый папа, бедный папа" Когда я давно читал (точнее слушал книгу) про пап, то было интересно, но сложно применимо к российским реалиям. Потом я слушал его другую книгу про квадранты, и я усвоил только одну вещь - существует квадрант:
E - employee, это мы работаем за зарплату
S - self employed, это мы работаем на себя, но нам платят по часам, мы не работаем, нам не платят. Нет отпуска и выше риски, я это называют contracter/freelancer.
B - business owner, тут понятно. Есть бизнес, который сам живет. Очень часто мы путаем S и E. Уволиться с работы и работать на себя это не бизнес, это самозанятость, это не масштабируется и часто мы возвращаемся к E.
I - investor, ну это когда все хорошо, мы понимаем как работает B, как управлять деньгами и при этом есть деньги.

Я запомнил на всегда про B и S. И создавая консалтинг, я хочу избегать S, и фокусирусь на B, но не хватака опыта дает о себе знать. В конце концов это будет мое бизнес образование, где мне платят, если я выучил урок, и где я плачу за свои ошибки. Это развивает networking, помогает больше практиковать английский (вы думаете работать инженером, нужно много говорить? не нужно, язык быстро теряет способность быть fluent).

У меня даже уже идея появилась. Когда была золотая лихорадка на Юконе (северная провинция Канады), и умные люди в Сиэтле решили заработать, они сказали, что Сиэтл это ворота в Юкон (хотя до Мексики ближе чем до Юкона), и к ним хлынуло куча золотоискателей. Бизнесмены в Сиэтле никогда не были в Юконе, но при этом продавали все необходимое, включая собак с упражками (но не хаски, а дворняг), и другие прибамбасы вместе с лопатами, заработали хорошо. Это как продавать франшизу. Вам продают лопату, и вы идете искать золото, не факт, что вы разбогатеете, но на вас точно заработают. Так я уже подумал, что мне надо продавать, услуги и тренинги по созданию своей аналитической компании🤣🤣

Я на самом деле хотел написать про книгу, которую сейчас читаю, и я действительно нашел ее очень полезной! FAKE: Fake Money, Fake Teachers, Fake Assets: How Lies Are Making the Poor and Middle Class Poorer

В 1ой главе, сразу говорят вам, что в 1971 президент Никсон отменил золотой стандарт. И объясняют вам, почему он это сделал, и как это повлияло. И дальше он рассказывает, про современные финансовые инструменты, это все fake. Сток? Акции и тп. В общем если вы хотети быть более грамотными в финансовом плане, очень рекомендую. Книга 2018 года, то есть очень свежая. Лично я теперь думаю о том, что бы обменять половину моего Amazon Stock на золото или серебро. Если читали, поделитесь идеями.
Я сейчас лечу из Сиэтла в Бостон, очень классные авиалинии JetBlue. Хороший бесплатный интернет. Все смотрят super bowl. Это ежегодный чемпионат по американскому футболу. Я не фанат, но сегодня впервые покажут новую рекламу Alexa. Это одна из самых дорогих рекламных площадок. А для вас я и так покажу, наслаждайтесь.

Кстати показали, что 30 секунд рекламного времени стоит 5,6mln$.

https://youtu.be/trfbpONj3dk
Researchers spend a great deal of time reading research pa-pers. However, this skill is rarely taught, leading to muchwasted effort. This article outlines a practical and efficientthree-pass methodfor reading research papers. I also de-scribe how to use this method to do a literature survey https://web.stanford.edu/class/ee384m/Handouts/HowtoReadPaper.pdf
Мы часто слышим, что в ИТ можно без образования. Я тоже так считаю, но это для Северной Америки, в Европе считают по другому. Во-вторых вопрос, нужен ли диплом, чтобы вырасти в более серьезные должности как Директор или VP. Наверно ответ, зависит от компании, в современных компаниях (facebook, tesla, twitter и другие) возможно нет. Вот картинка как раз про это, Маск, говорит не нужно. На выходных был день открытых дверей в University of Victoria. Я поговорил со студентами из кружка, кто построил подводную лодку велосипед. Он рассказал, что Тесла только берет на работу инженеров из таких университетских кружков, по крайней мере тех, кто занимается электромобилями и батареями. А вы как считаете?
Если кому-то попадалась PDF скиньте плиз или сами прочитайте, отлично про облака рассказывают. https://play.google.com/store/books/details/Todd_Hoff_Explain_the_Cloud_Like_I_m_10?id=utlwDwAAQBAJ
В pdf попалась моя книжка - Tableau Cookbook 2019. Тут есть информация интересная про Tableau Prep, Tableau+Python/R и для Data Science. Tableau для Big Data (Hadoop(Amazon EMR)+Hive, Redshift, Snowflake), Tableau + ETL best practices и все остальное про Tableau.
Forwarded from Дашбордец
anoshin_d_et_al_tableau_2019_x_cookbook_over_115_recipes_to.pdf
19.5 MB
anoshin_d_et_al_tableau_2019_x_cookbook_over_115_recipes_to.pdf
Не давно я писал про Synergy Digital Forum. В итоге я согласился у них выступать - с темой Data-driven Business at Amazon Scale или Data-driven Marketing at Amazon Scale. Так же договорились в марте провести вебинар (17 марта), я думаю расскажу про создание современной аналитической платформы (для маркетинга) на AWS. Я понимаю, что немного не по адресу будет, но пока на другое фантазии не хватает.
Из рабочих будней в Амазон:
Я: Дорогой, менеджер, за 4 года, моя зп не росла, мне не хватает денег. Есть ли варианты?

Менеджер: Я не могу тебе посоветовать как лучше распоряжаться своим доходом, это полностью твое дело. Я полагаю, что Амазон можете помочь тебе найти финансового советника, который поможет тебе лучше планировать свое финансовое положение. (это просто не моя специализация).


🤦‍♂️🤦‍♂️🤦‍♂️
Следующие 2 недели я планирую ничего не писать и просто отдохнуть, в Мексике🏖 По возвращению, я хочу сделать лендиг для курса(ов) про которые я уже говорил. Хочу сделать 3 курса, они будут бесплатные, и будет отдельный чат в Slack для каждого из них, где участники смогут помогать друг другу. Такой вот community driven. Заодно, может кто будет ambassador и помогать с курсом и организацией.

====

2 главных принципа у всех материалов:
1) Максимально просто - KISS (Keep it super simple), поможет понять основы, а дальше уже можно и углубляться самим.
2) Будет от простого к сложному и будет все взаимосвязано, например, когда у нас не помещается в Хранилище данных наши данные, мы только тогда будем использовать BigData, или например когда устали вручную в excel данные гонять, мы будет в BI делать.

=====

Курсы:

1. Getting Started with Data Engineering, ~10 недель, с одним вебинаром в неделю и с домашкой, от простого к сложному, что-то вроде моей карьеры за 10 недель.

2. Data Literacy for everyone - это такой совсем водный, кто вообще не работал с данным, начнем с эксельки, потом BI/SQL, визуализация и может еще чего.

3. Data Analytics for Women 👩‍🔧👩‍🏭👩‍🔬👩‍⚕️🧝‍♀️💃 - идея запустить это сообщество, научить работать с данными, BI/DW/SQL и тп. Уравнять шансы с другими. Я решил выделить отдельно его, что вам было комфортно друг другу помогать (женская солидарность?). Так же надеюсь, что появится много новых специалистов по данным кто до этого не работал, отличная возможность построить новую карьеру. Здесь мне конечно понадобиться ваша помощь, чтобы кто-то курировал и развивал (женское комъюнити). Но точно будет отличная возможность научить.

====
Потом нужно придумать сертификат, будет по принципу успеваемости, если не делаете домашнее задание за неделю, то отсеиваетесь, кто дайдет до конца получит сертификат, и референс, или еще чего, но что-нибудь полезное, и заодно в конце обсудим, что можно делать со знаниями, где искать работу и тп.

====
FAQ
1) Почему бесплатно? - Все самое лучшее, всегда бесплатно! Вы просто можете посылать мне лучи благодарности и я буду счастлив😉 Ну заодно, возможно получиться вырастить аудиторию, а если есть аудитория, то уже можно делать интересные проекты и привлекать вендоров/спонсоров.

2)Как будет это все происходить? Пока точно не понятно. Но я создам простой сайт в wix/tilda, где будут все материалы. Каждую неделю, буду добавлять модуль + видео и задание. Будет slack канал где можно будет обсуждать проекты и задавать вопросы. Так как курс бесплатный, то придется иногда самим разбираться и читать на английском инструкции.

3)А вообще нужно платить? Вообще, когда мы дойдем до облачных сервисов, возможно придется платить, но большинство бесплатно.

4)Какие технологии? Будет точно BI/DW/ETL/ELT/BigData. Использовать будем:
- Excel, notepad
- SQL databases Postgres/Mysql
- DW (sql database) Amazon Redshift (Cloud MPP DW)
- ETL Pentaho DI
- ELT Matillion (возможно) или Amazon Glue
- BigData Elastic Map Reduce (Hadoop), Hive, Presto, Athena, Spectrum
Самое главное это понять, как все это взаимосвязано, и какие еще элемeны есть, например можем ли мы пользоваться командной строкой и когда это нужно.
- BI Tableau (или Power BI если вы сами будете). В принципе.

====
PS может про 10 недель нон стоп это очень амбициозно, но посмотрим как пойдет, может будет 5 человек всего, и тогда вопрос отпадет сам собой😎
Свежий отчет Gartner по BI решениям. Появился Alibaba Cloud, ThroughtSpot в лидерах, а вот AWS Quicksight что-то не дотягивает. https://www.tableau.com/reports/gartner
Сегодня прочитал интересную цитату, из средневековья причем - Люди хотят облегчения, но не хотят лечиться, так как это больно. На английском звучит проще - "People Want Relief. Cure Is Painful". Эту цитату можно отнести к чему угодно.

Например, хотим успехов в спорте? Диеты, тренироки? Долго и муторно, лучше как-нибудь по-быстрому. Красивая реклама продаст волшебную пилюлю, и обещает результат.

Хотим денег? Учиться, работать - тоже долго, а вот лотерея это быстрей.

Хотим быть крутыми аналитиками, инжинерами и разработчиками? Тоже можно повестись на красивую рекламу, которая гарантирует "облегчение" но не "лечение".

Так же и с финансовыми операциями, вообще применимо ко всему.

Получается реальный результат достигается через боль и труд. А у вас как?