Инжиниринг Данных
23.5K subscribers
1.98K photos
55 videos
192 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
В качестве Data Engineering Manager вот что он делает в своей компании - "- Re-architected Snowflake & Looker infrastructure for 100% performance improvement of revenue-generating analytics." То есть внедряет cloud native платформу данных (snowflake сделал ребрендинг и теперь они Cloud Data Platform) и Looker не просто для аналитики, а для аналитики которая драйвит ревеню, я же говорил, что он крут!))
В этом что-то есть. Технологии настолько эволюционируют, что большинство задач, которые могут делать сейчас высокооплачиваемые инженеры, будут автоматизированы и упрощены. Это не значит, что такие специалисты не нужны, но точно массовой потребности не будет. Сейчас например специалисты по Hadoop уже узкоспециализированы. Важно понимать общую картину и использовать готовые элементы в публичном облаке. Так же и с ML, важно знать возможности и кейсы, и приминять правильный алгоритм и трактовать его правильно. Не нужно писать свою нейронную сеть, достуточно кликнуть мышкой на нужную модель и помочь ей обучиться на ваших данных.
Эта книжка сейчас в топе!
Вот это действительно круто! В Северной Америке очень развиты стажировки, это называется CO-OP (co-operative education), начинаю с 3го года обучения компания берут студентов на стажировку, специально для это проводятся Career Fair в кампусах университетов.

Стажировка занимает от 4х до 12 месяцев, это full time работа, но вы обязаны вернуться в университет. Я являюсь ментором в University of Victoria для программы, которая обучает Computer Science и entrepreneurship школьников 10-12 класса (7 месяцев). Я им всегда рассказываю, что нет смысла поступать MIT на Computer Science (где семестр стоит 60к US), так как у нас в универе для местных это стоит 7к CAD, и если вы попадете на стажировку в Амазон, это на выходе будет такой же результат, как и после MIT/Harward если вы попали в Амазон. Конечно MIT/Harward больше специализаций, но если нет денег на обучение, то нечего растраиваться.

Сама стажировка это крута, я бы мог только мечтать об этом. Вас учат, вам платят (3к CAD в месяц, это вообще то средняя зп по Канаде), и самое главное вы себя можете проявить и зацепиться. После универа, вас с удовольствием возьмут на работу. Главное, это сфокусироваться на подготовке к CO-OP и знать требования и компанию. Я часто выступаю перед студентами от Амазон, и есть некоторые товарищи кто только и делает, что готовится к этому, и это помогает.

К сожалению моя стажировка прошла на заводе, и меня взяли потом на работу, на тот же завод. Из воспоминаний - играть в Counter Strike, собирать яблоки на территории завода и выжимать из них сок, жарить сосиски на крыше завода и там же загорать. Так как рабочий день начинался в 7 утра, я мог спать практически на любой поверхности и в любом положении.

Мой вуз МГТУ Станкин научил нескольким принципам, почти как Amazon Leadership principles - Deliver Result, Bias for Action, Ownership. Это типа сдать экзамен по сопромату, если вообще его не понимаешь, или по химии, если вообще не готовился через MP3 плеер (Invent and Simplify). Я думаю многие прошли через это. В общем ценность моего российского образования как инженера конструктура практические нулевая, но есть диплом магистра и не законченный Phd которые почетно занимают место в резюме)) И несмотря на все это , мне еще пришлось отдать деньгами долг родине🤪
100 страниц про Grow Hacking, это очень круто пересекается с аналитикой и метриками, которые важны для бизнеса.
Нашел нереально крутой блог мужичка, который создавал Терадата, Гринлан, и походу снова в деле. Начнем вот с этого поста. Не буду лесть в дебри, смысл в том, сейчас distribution architecture это уже стандарт, и никто не используют monolithic. (при создание хранилища и ETL, конечно же мы используем монолит, это больше про Программное Обеспечение). Дядя Роб Клоб пишет, что в 2002 году он и его коллега предложили допилить терадату и сделать distributed foundation. На что продуктовая команада Терадаты, сказала, что они лучше знаю как надо, и ничего не сделали. Чуваки ушли из Терадаты. Такие истории повторяются снова и снова, когда из-за разногласий ИТ и бизнеса уходят крутые кадры, и компания теряет позиции. Так и со Snowflake, чуваки хотели сделать Oracle для облака, но не зашло. Создали свой продукт, теперь #1 Cloud Data Platform.


PS Кто-нибудь Oracle загружал в Azure? Использовали Azure Data Factory?
Есть идеи книг на 2020? Оставляйте в комментариях. Я планирую прочитать свои книги по консалтингу, которые нашел на сайте Harvard Business Review (McKinsey Way и тд).
Всем привет, моя знакомая Оксана Фомина @OxanaFomina, является экспертом по мобильной аналитике. У нее есть много интересных кейсов по аналитике мобильных игр. Сейчас у нее есть время взять еще проектов, если кому интересно, пишите ей.
Написал пост про последнюю книжку Jumpstart Snowflake. Сегодня еще предложили писать книгу под названием Data Storage for Artificial Intelligence. Я вроде как не хотел больше ничего писать, но это отличная возможность написать что-нибудь по AI, тем более что там только 3 главы для меня - Spark и Big Data.
Как вы поняли, python является одним из главных и удобных языков для анализа данных и инжиниринга данных. Если вы еще не знаете вот еще один канал по Python, вот что они говорят про себя: "Привет! На связи @python_academy. Ты ведь о нас пока не знаешь, да?

За плечами у нас успешные курс по чат-ботам, а также интенсив и курс по Data Science.

Мы не какая-то безликая машина по созданию курсов, мы два простых парня, Святослав и Адриан. Святослав работает дата аналитиком в Европе, специалист по анализу данных. Адриан Full-Stack разработчик и создатель популярных телеграм ботов с большим стажем.

Вместе мы приглашаем тебя на наш интенсив по чат-ботам в телеграм.

Не пропусти 👉 @python_academy"
Как ты был вопрос - какие инструменты я использую? Вот мой ответ, если есть выбор конечно.

1. Что я использую для себя.
Если мне нужно сделать какой-нибудь отчетик и посмотреть метрики, я могу обойтись SQL, но лучше конечно все сделать в Tableau (альтернатива для вас это Power BI или google studio). Для табло я могу получить лицензия на год бесплатно - студенческую (просто загуглите student card или студенческий, этой картинке достаточно.

В идеале, я не люблю работать с текстовыми файлами, и все загружу в базу данных. Из бесплатных вариантов это можно использовать Azure SQL Server (год бесплатно) или я видел онлайн инстанс mysql бесплатно. Но можно и установить mysql/postgres/sql server на ноутбук. Я люблю postgres, у него синтаксис как у Redshift. Еще есть вариант Redshift - бесплатно на 2 месяца или Google BigQuery - там тоже можно до 5гб бесплатно на год. Но года 2 назад не было хорошего драйвера для ETL стороннего.

Что касается ETL, мне нравится Pentaho Data Integration, это опен сорс продукт, очень классный, но конечно тормозит, когда данных много, да и серьезные решения тоже лучше не делать, он на Java, и нужен java разработчик для поддержки. Из аналогов это Talend.

Для Data Science можно использовать RapidMiner или Orange (бесплатные версии), отлично для личного пользования.

Кстати важный вопрос! Если есть возможность работать с файлами, то я не люблю XLS, CSV, лучше выгружать данные в TSV.

2. Если бы спросили, что я бы использовал для BI/DW решения, то я бы конечно работал бы с облачными решениями. Мне нравится как развивается Google Cloud, но AWS имеет намного больше преимуществ, да и опыта у меня больше.

В качестве DW я бы сейчас не задумываясь использовал бы Snowflake. Это и хранилище данных и озеро данных, и нет проблем с масштабирванием. Как правило здесь, компании которые внедряют решения, не очень сильно считаю сколько стоит решение, поэтому я бы на цену вообще не смотрел. Если не Snowflake, то это Redshift + Athena (S3+Presto).

Для ETL я бы использовал Matillion ETL (главное преимущество для меня, что это как Табло, я отдаю его пользователям для Self Service). Но однозначно, нужен продукт, которые работает с облаком. Альтернатива мог быть AWS Glue (serverless ETL + Spark computing engine), но Glue уже не для бизнес пользователей, зато легче с DevOps. Если нужно было бы open source, то Airflow.

Для ML/Data Science это AWS Sage Maker для промышленного использования (есть Python Notebooks, то есть все на python и можо использовать TensorFlow/MXNet/Pytorch. А для настольного применения и для аналитиков это Alteryx.

Для BI - Tableau, как альтернатива Looker (cloud native). Кстати в Амазон есть команда в Алекса, которая использует лукер, они его развернули внутри своего AWS. Это какая-то гремучая сместь по сложности устаноки и настройки, как я понял такие истории хорошо заходят для промо документов, где мы пишем свои заслуги, но для меня это бред, если у всех Tableau и одновременно с этим очень пушат Amazon QuickSight.

Для стриминга - Kinesis. Очень классно работает kafka, но если с AWS, то лучше использовать cloud native приложения и я бы старался не изобретать велосипед.

FAQ:
1) Важен ли размер данных? В облаке мне соверщенно не важен размер данных.
2) Важна ли стоимость решения? Важна, и только в облаке я смогу платить только за то, что мне нужно и всегда есть возможность оптимизировать кост.
3) Что еще вожна? Важен SLA, то есть когда пользователь хочет видеть данных, близко к реальному времени (streaming) или утром следующего дня (batch). Так же важна экспертиза команды. Если все знают Microsoft, то внедрять AWS и Tableau не самый быстрый путь.
4) Я не написал про Data Quality и Data Governance. Я привык работать в оргаизациях, где очень быстрый темп, то есть нужно быстро что-то посчитать, и все быстро меняется, время на data management практики нету, это мой bias. Для страховой компании или финансовой организации это очень важный момент.
DevOps это Development + Operations. В общем это культура разработки ПО, цель - более короткие циклы деплоймента, повышение частоты деплоймонта, более зависимые релизы и все это к привязке бизнес процессов и целей. Другими словами это культура взаимодействия между разработчиками и operations сотрудниками.

Практики DevOps очень хорошо сформированы для ИТ, сисадминов, разработчиков, но так же используются для аналитики, хранилищ данных и тп. Очень часто команды изобретают велосипед (я сейчас изобретаю такой для своей команды). Есть ответвления - DataOps, MLOps, но все идет от DevOps. Лучше самим разобраться🤗 А вот и бесплатный курс
Инверсная точка зрения.
#faketillyoumakeit #jobchange
У меня есть несколько интересных историй, про знакомых и друзей, кому я помог поменять работу или изменить даже жизнь, не знаю к лучшему или худшему. Помогать хорошо для кармы, или просто хорошо, поэтому есть несколько success stories, которые еще актуальны, говорят о том, что все в ваших руках.

История 1,2.
История 3 и 4
У меня был товарищ с завода, он меня научил работать на фрезерном станке🤩. Его звали Стас С. и у него был еще один друг Стас П, который любил говорить "доконца гандончики", после службы ВДВ. Особенно, когда мы ходили на турник или делали что-то с SAP BO.🤣

У меня была прям мания, помочь всем обязательно найти работу получше и мне очень хотелось "обмануть систему". После завода, где много начальников и бюррократии, я понял только одно, в отделе кадров большинству все равно. Например, мы думаем, что наше красиво резюме будет распечатано HR, прочитано за чашекой чая (кофе), потом его покажут коллегам и тп. В реальности все не так.

Все работают с большой нагрузкой и в режиме мультизадачности. Это значит, когда мы отправляем резюме, то в лучшем случае HR бегло глянет на него, найдет ключевые слова (BI, DW, SQL) и потом уже назначит следующий шаг. Но если он ведет 20 вакансий, и на каждую приходят по 20 резюме, и при этом нужно успеть попить кофе и с коллегами пообщаться (все мы люди, а не роботы), то получается, все что нужно сделать, это правильно завернуть резюме, чтобы пройти первый farewall и попасть на собеседование. Сам процесс наема это тоже очень интересный процесс, он занимает время, вам нужно отрываться от работа, и там очень много bias, особенно в компаниях, где обычно вас собеседует начальник, то есть в 80% вам надо понравиться начальнику. Я все это к тому, что сам по себе опыт, это не всегда главный критерий.

Стас П. заинтересовался в BI. Дальше все по классике, SQL, SAP BO, database и все это дело на виртуальной машине, новое резюме, несколько историй про BI проекты, и на собеседование в Lamoda. В итоге Стас П стал работать младшим BI разработчиком. Теперь самое главное пройти испытательный срок. Секрет успеха прост, мы компенсируем не знание предмета своим временем, то есть то что я могу сделать за 2 дня, он может сделать за 5 дней, но у него есть в запасе 18 часов в сутках + 2 выходных, таким образом можно все успеть и подтянуть знания. Сейчас, Стас П работает в Польше, внедряет SAP BO, и наслаждается сельской местностью своей деревней под Варшавой, ездит на мерседесе Е класса в Беларусь и Калининград на выходных😎

Стас С. тоже пошел по такому пути, SQL, SAP BO, резюме и истории, он устроился в Перекресток - BI разработчик. Но не прошел испытательный срок. Просто ему это оказалось не интересно, и он не захотел в это развиваться. Он так до сих пор не нашел себя. Поэтому работу найти просто без опыта с выдуманным резюме, а вот удержаться сложнее, нужно обладать самомотивацией и усидчивостью.