Инжиниринг Данных

В качестве Data Engineering Manager вот что он делает в своей компании - "- Re-architected Snowflake & Looker infrastructure for 100% performance improvement of revenue-generating analytics." То есть внедряет cloud native платформу данных (snowflake сделал ребрендинг и теперь они Cloud Data Platform) и Looker не просто для аналитики, а для аналитики которая драйвит ревеню, я же говорил, что он крут!))

1.15K views22:49

Инжиниринг Данных

1K views16:09

Инжиниринг Данных

В этом что-то есть. Технологии настолько эволюционируют, что большинство задач, которые могут делать сейчас высокооплачиваемые инженеры, будут автоматизированы и упрощены. Это не значит, что такие специалисты не нужны, но точно массовой потребности не будет. Сейчас например специалисты по Hadoop уже узкоспециализированы. Важно понимать общую картину и использовать готовые элементы в публичном облаке. Так же и с ML, важно знать возможности и кейсы, и приминять правильный алгоритм и трактовать его правильно. Не нужно писать свою нейронную сеть, достуточно кликнуть мышкой на нужную модель и помочь ей обучиться на ваших данных.

1.03K viewsedited 16:38

Инжиниринг Данных

Эта книжка сейчас в топе!

950 views16:47

Инжиниринг Данных

Forwarded from Дашбордец

[Alberto_Cairo]_How_Charts_Lie(z-lib.org).epub

39.8 MB

182 views16:47

Инжиниринг Данных

Вот это действительно круто! В Северной Америке очень развиты стажировки, это называется CO-OP (co-operative education), начинаю с 3го года обучения компания берут студентов на стажировку, специально для это проводятся Career Fair в кампусах университетов.

Стажировка занимает от 4х до 12 месяцев, это full time работа, но вы обязаны вернуться в университет. Я являюсь ментором в University of Victoria для программы, которая обучает Computer Science и entrepreneurship школьников 10-12 класса (7 месяцев). Я им всегда рассказываю, что нет смысла поступать MIT на Computer Science (где семестр стоит 60к US), так как у нас в универе для местных это стоит 7к CAD, и если вы попадете на стажировку в Амазон, это на выходе будет такой же результат, как и после MIT/Harward если вы попали в Амазон. Конечно MIT/Harward больше специализаций, но если нет денег на обучение, то нечего растраиваться.

Сама стажировка это крута, я бы мог только мечтать об этом. Вас учат, вам платят (3к CAD в месяц, это вообще то средняя зп по Канаде), и самое главное вы себя можете проявить и зацепиться. После универа, вас с удовольствием возьмут на работу. Главное, это сфокусироваться на подготовке к CO-OP и знать требования и компанию. Я часто выступаю перед студентами от Амазон, и есть некоторые товарищи кто только и делает, что готовится к этому, и это помогает.

К сожалению моя стажировка прошла на заводе, и меня взяли потом на работу, на тот же завод. Из воспоминаний - играть в Counter Strike, собирать яблоки на территории завода и выжимать из них сок, жарить сосиски на крыше завода и там же загорать. Так как рабочий день начинался в 7 утра, я мог спать практически на любой поверхности и в любом положении.

Мой вуз МГТУ Станкин научил нескольким принципам, почти как Amazon Leadership principles - Deliver Result, Bias for Action, Ownership. Это типа сдать экзамен по сопромату, если вообще его не понимаешь, или по химии, если вообще не готовился через MP3 плеер (Invent and Simplify). Я думаю многие прошли через это. В общем ценность моего российского образования как инженера конструктура практические нулевая, но есть диплом магистра и не законченный Phd которые почетно занимают место в резюме)) И несмотря на все это , мне еще пришлось отдать деньгами долг родине🤪

Forbes

Americans Rank A Google Internship Over A Harvard Degree

When asked what they believe would be most helpful for a high school graduate to launch a career, Americans overwhelmingly recommend an internship at Google (60%) over a degree from Harvard (40%).

1.13K views17:09

1.3K views17:28

1.4K views21:30

100 страниц про Grow Hacking, это очень круто пересекается с аналитикой и метриками, которые важны для бизнеса.

1.04K viewsedited 21:31

Инжиниринг Данных

Нашел нереально крутой блог мужичка, который создавал Терадата, Гринлан, и походу снова в деле. Начнем вот с этого поста. Не буду лесть в дебри, смысл в том, сейчас distribution architecture это уже стандарт, и никто не используют monolithic. (при создание хранилища и ETL, конечно же мы используем монолит, это больше про Программное Обеспечение). Дядя Роб Клоб пишет, что в 2002 году он и его коллега предложили допилить терадату и сделать distributed foundation. На что продуктовая команада Терадаты, сказала, что они лучше знаю как надо, и ничего не сделали. Чуваки ушли из Терадаты. Такие истории повторяются снова и снова, когда из-за разногласий ИТ и бизнеса уходят крутые кадры, и компания теряет позиции. Так и со Snowflake, чуваки хотели сделать Oracle для облака, но не зашло. Создали свой продукт, теперь #1 Cloud Data Platform.

PS Кто-нибудь Oracle загружал в Azure? Использовали Azure Data Factory?

Database Fog Blog

A Story about Teradata, Advanced Architectures, and Distributed Applications

Here is a short story about distributed versus monolithic application design… Around 1999 Dan Holle and I started thinking about how to better deploy applications that used distributed comput…

1.15K viewsedited 01:37

Инжиниринг Данных

https://www.amazon.science/ Все про Amazon Science, ML, AI, научные публикации и тп

Amazon Science

Amazon's approach to customer-obsessed science. Get the latest news about innovations in artificial intelligence and machine learning, including job opportunities, publications, conferences, events and more.

1.25K viewsedited 03:51

Инжиниринг Данных

Существуют NoSQL базы данных, один из типов это Graph. Вы можете полностью использовать такое решение для вашей аналитики. Запись вебинара. https://www.dataversity.net/webinar-graph-data-modeling-in-four-dimensions-outline-differences-artisanship-agility/

DATAVERSITY

Webinar: Graph Data Modeling in Four Dimensions – Outline, Differences, Artisanship, Agility - DATAVERSITY

To view just the slides from this presentation, click HERE>> About the Webinar Graph Data Modeling is, needless to say, good for graph databases. But it can also serve as a general conceptual/logical model. This webinar explains all aspects, starting with…

1.2K views19:07

Инжиниринг Данных

Есть идеи книг на 2020? Оставляйте в комментариях. Я планирую прочитать свои книги по консалтингу, которые нашел на сайте Harvard Business Review (McKinsey Way и тд).

1.52K views20:28

6 comments

Инжиниринг Данных

Всем привет, моя знакомая Оксана Фомина @OxanaFomina, является экспертом по мобильной аналитике. У нее есть много интересных кейсов по аналитике мобильных игр. Сейчас у нее есть время взять еще проектов, если кому интересно, пишите ей.

1.16K views17:16

Add a comment

Инжиниринг Данных

Написал пост про последнюю книжку Jumpstart Snowflake. Сегодня еще предложили писать книгу под названием Data Storage for Artificial Intelligence. Я вроде как не хотел больше ничего писать, но это отличная возможность написать что-нибудь по AI, тем более что там только 3 главы для меня - Spark и Big Data.

Medium

Meet our new book — Jumpstart Snowflake — A Step-by-Step Guide to Modern Cloud Analytics

In 2019 I had an idea, I have to write a book about Snowflake. Snowflake is so popular and I can leverage my experience with Cloud Data…

1.47K viewsedited 05:45

Add a comment

Инжиниринг Данных

Как вы поняли, python является одним из главных и удобных языков для анализа данных и инжиниринга данных. Если вы еще не знаете вот еще один канал по Python, вот что они говорят про себя: "Привет! На связи @python_academy. Ты ведь о нас пока не знаешь, да?

За плечами у нас успешные курс по чат-ботам, а также интенсив и курс по Data Science.

Мы не какая-то безликая машина по созданию курсов, мы два простых парня, Святослав и Адриан. Святослав работает дата аналитиком в Европе, специалист по анализу данных. Адриан Full-Stack разработчик и создатель популярных телеграм ботов с большим стажем.

Вместе мы приглашаем тебя на наш интенсив по чат-ботам в телеграм.

Не пропусти 👉 @python_academy"

Python Academy

Наши чат-боты в Telegram

@CheckNicknameBot – самый молодой, однако самый популярный проект среди остальных. За два месяца набралось почти 6к пользователей без какого-либо продвижения. Суть бота понятна из его названия.

@TeleWeatherRobot – уникальный чат…

1.22K views19:30

Add a comment

Инжиниринг Данных

Хороший дил! Новая книга по Табло для превью https://playfairdata.us14.list-manage.com/track/click?u=5cddb177e419278ce1c1c874b&id=968d10f2e4&e=a66303f2b0

1.21K views00:20

Add a comment

Инжиниринг Данных

Как ты был вопрос - какие инструменты я использую? Вот мой ответ, если есть выбор конечно.

1. Что я использую для себя.
Если мне нужно сделать какой-нибудь отчетик и посмотреть метрики, я могу обойтись SQL, но лучше конечно все сделать в Tableau (альтернатива для вас это Power BI или google studio). Для табло я могу получить лицензия на год бесплатно - студенческую (просто загуглите student card или студенческий, этой картинке достаточно.

В идеале, я не люблю работать с текстовыми файлами, и все загружу в базу данных. Из бесплатных вариантов это можно использовать Azure SQL Server (год бесплатно) или я видел онлайн инстанс mysql бесплатно. Но можно и установить mysql/postgres/sql server на ноутбук. Я люблю postgres, у него синтаксис как у Redshift. Еще есть вариант Redshift - бесплатно на 2 месяца или Google BigQuery - там тоже можно до 5гб бесплатно на год. Но года 2 назад не было хорошего драйвера для ETL стороннего.

Что касается ETL, мне нравится Pentaho Data Integration, это опен сорс продукт, очень классный, но конечно тормозит, когда данных много, да и серьезные решения тоже лучше не делать, он на Java, и нужен java разработчик для поддержки. Из аналогов это Talend.

Для Data Science можно использовать RapidMiner или Orange (бесплатные версии), отлично для личного пользования.

Кстати важный вопрос! Если есть возможность работать с файлами, то я не люблю XLS, CSV, лучше выгружать данные в TSV.

2. Если бы спросили, что я бы использовал для BI/DW решения, то я бы конечно работал бы с облачными решениями. Мне нравится как развивается Google Cloud, но AWS имеет намного больше преимуществ, да и опыта у меня больше.

В качестве DW я бы сейчас не задумываясь использовал бы Snowflake. Это и хранилище данных и озеро данных, и нет проблем с масштабирванием. Как правило здесь, компании которые внедряют решения, не очень сильно считаю сколько стоит решение, поэтому я бы на цену вообще не смотрел. Если не Snowflake, то это Redshift + Athena (S3+Presto).

Для ETL я бы использовал Matillion ETL (главное преимущество для меня, что это как Табло, я отдаю его пользователям для Self Service). Но однозначно, нужен продукт, которые работает с облаком. Альтернатива мог быть AWS Glue (serverless ETL + Spark computing engine), но Glue уже не для бизнес пользователей, зато легче с DevOps. Если нужно было бы open source, то Airflow.

Для ML/Data Science это AWS Sage Maker для промышленного использования (есть Python Notebooks, то есть все на python и можо использовать TensorFlow/MXNet/Pytorch. А для настольного применения и для аналитиков это Alteryx.

Для BI - Tableau, как альтернатива Looker (cloud native). Кстати в Амазон есть команда в Алекса, которая использует лукер, они его развернули внутри своего AWS. Это какая-то гремучая сместь по сложности устаноки и настройки, как я понял такие истории хорошо заходят для промо документов, где мы пишем свои заслуги, но для меня это бред, если у всех Tableau и одновременно с этим очень пушат Amazon QuickSight.

Для стриминга - Kinesis. Очень классно работает kafka, но если с AWS, то лучше использовать cloud native приложения и я бы старался не изобретать велосипед.

FAQ:
1) Важен ли размер данных? В облаке мне соверщенно не важен размер данных.
2) Важна ли стоимость решения? Важна, и только в облаке я смогу платить только за то, что мне нужно и всегда есть возможность оптимизировать кост.
3) Что еще вожна? Важен SLA, то есть когда пользователь хочет видеть данных, близко к реальному времени (streaming) или утром следующего дня (batch). Так же важна экспертиза команды. Если все знают Microsoft, то внедрять AWS и Tableau не самый быстрый путь.
4) Я не написал про Data Quality и Data Governance. Я привык работать в оргаизациях, где очень быстрый темп, то есть нужно быстро что-то посчитать, и все быстро меняется, время на data management практики нету, это мой bias. Для страховой компании или финансовой организации это очень важный момент.

1.67K views03:47

Add a comment

Инжиниринг Данных

DevOps это Development + Operations. В общем это культура разработки ПО, цель - более короткие циклы деплоймента, повышение частоты деплоймонта, более зависимые релизы и все это к привязке бизнес процессов и целей. Другими словами это культура взаимодействия между разработчиками и operations сотрудниками.

Практики DevOps очень хорошо сформированы для ИТ, сисадминов, разработчиков, но так же используются для аналитики, хранилищ данных и тп. Очень часто команды изобретают велосипед (я сейчас изобретаю такой для своей команды). Есть ответвления - DataOps, MLOps, но все идет от DevOps. Лучше самим разобраться🤗 А вот и бесплатный курс

1.63K views07:05

Add a comment

Инжиниринг Данных

Инверсная точка зрения.

1.34K views04:36

2 comments

Инжиниринг Данных

#faketillyoumakeit #jobchange
У меня есть несколько интересных историй, про знакомых и друзей, кому я помог поменять работу или изменить даже жизнь, не знаю к лучшему или худшему. Помогать хорошо для кармы, или просто хорошо, поэтому есть несколько success stories, которые еще актуальны, говорят о том, что все в ваших руках.

История 1,2.
История 3 и 4
У меня был товарищ с завода, он меня научил работать на фрезерном станке🤩. Его звали Стас С. и у него был еще один друг Стас П, который любил говорить "доконца гандончики", после службы ВДВ. Особенно, когда мы ходили на турник или делали что-то с SAP BO.🤣

У меня была прям мания, помочь всем обязательно найти работу получше и мне очень хотелось "обмануть систему". После завода, где много начальников и бюррократии, я понял только одно, в отделе кадров большинству все равно. Например, мы думаем, что наше красиво резюме будет распечатано HR, прочитано за чашекой чая (кофе), потом его покажут коллегам и тп. В реальности все не так.

Все работают с большой нагрузкой и в режиме мультизадачности. Это значит, когда мы отправляем резюме, то в лучшем случае HR бегло глянет на него, найдет ключевые слова (BI, DW, SQL) и потом уже назначит следующий шаг. Но если он ведет 20 вакансий, и на каждую приходят по 20 резюме, и при этом нужно успеть попить кофе и с коллегами пообщаться (все мы люди, а не роботы), то получается, все что нужно сделать, это правильно завернуть резюме, чтобы пройти первый farewall и попасть на собеседование. Сам процесс наема это тоже очень интересный процесс, он занимает время, вам нужно отрываться от работа, и там очень много bias, особенно в компаниях, где обычно вас собеседует начальник, то есть в 80% вам надо понравиться начальнику. Я все это к тому, что сам по себе опыт, это не всегда главный критерий.

Стас П. заинтересовался в BI. Дальше все по классике, SQL, SAP BO, database и все это дело на виртуальной машине, новое резюме, несколько историй про BI проекты, и на собеседование в Lamoda. В итоге Стас П стал работать младшим BI разработчиком. Теперь самое главное пройти испытательный срок. Секрет успеха прост, мы компенсируем не знание предмета своим временем, то есть то что я могу сделать за 2 дня, он может сделать за 5 дней, но у него есть в запасе 18 часов в сутках + 2 выходных, таким образом можно все успеть и подтянуть знания. Сейчас, Стас П работает в Польше, внедряет SAP BO, и наслаждается сельской местностью своей деревней под Варшавой, ездит на мерседесе Е класса в Беларусь и Калининград на выходных😎

Стас С. тоже пошел по такому пути, SQL, SAP BO, резюме и истории, он устроился в Перекресток - BI разработчик. Но не прошел испытательный срок. Просто ему это оказалось не интересно, и он не захотел в это развиваться. Он так до сих пор не нашел себя. Поэтому работу найти просто без опыта с выдуманным резюме, а вот удержаться сложнее, нужно обладать самомотивацией и усидчивостью.

1.37K viewsedited 17:23

Add a comment