Инжиниринг Данных
23.5K subscribers
1.98K photos
55 videos
192 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Кстати про Хабр, вот комментарий победитель. Пишешь, стараешься, а получается ерунда какая-то!😂🤦‍♂️
Кстати слыша ли вы термин citizen data scientist? В общем это такой человек, которые не учился на data science, но используют приему и техники в работе. Не знаю можно ли назвать его любителем? Это было популярно в 2019, а до меня только сейчас дошло. А вот в 2020 будет citizen data engineer, то есть, вам не обязательно быть крутым инженером и долго на него учиться, достаточно понимать основы и самостоятельно копировать данные для анализа.

Кстати, там же пишут, согласно отчету про ТОП вакансий 2020, data engineer теперь наравне с ML и data science. Но материалов по ML/Data Science настолько много, что можно в них утонуть, а по data engineer все очень скудно пока. По основным навыкам это ETL/ELT,DW,AWS, Python, Spark.

В общем зовите друзей в канал! Будем всех делать Citizen Data Engineer, обязательно придумаю какой-нибудь сертификат, всем, кто пройдет буткемп от начала до конца( осталось только его сделать 🧘‍♂️- bootcamp, но программа уже есть).

Кстати, как вы понимаете citizen DE/DS?

https://insights.dice.com/2020/01/10/citizen-data-engineer-year-2020/
А это ТОП тренды для крутых компаний на 2020!
1) Продолжают мигрировать в облака (не реклама!)
2) Использование гибридных DW/Data Platform, часть в облаках, часть on-premise. Такой переходный этап.
3) Мульты Клауд явно в тренде, это когда мы можешь использовать микс AWS+Azure и тп. Самое главное, вендор это понимает, и создают решения, которые не привязаны к конкретному облаку.
4) Фокус на безопасно и приватность. Ну это всегда было, есть и будет.
5) Рассвет AI (уже компании научились использовать решения), так же решению идут по пути упрощения - пример AWS SageMaker
6) Рост sharing данных и их монетизации. Например, у нас есть много важных и ценных данных, мы можем предоставить доступ клиентам., Самое главное, что это все делается очень просто.
Как выглядит самое современное аналитическое решение от Microsoft? А вот как! Я уже писал про Synapse. Это микс DW+ DataLake. Замена Azure DW. Еще не пробовал, если кто пробовал, то отпишитесь.
Для всех желаующих, самый свежим материал от Microsoft. Они сделали новый воркшоп Analytics in a day, тут и презенташки и лабы и тп. Так что вам можно будет картинки и идеи взять себе на вооружение. https://partner.microsoft.com/en-us/asset/collection/analytics-in-a-day#/
Вы же любите визуализацию? -
Wuhan Coronavirus (2019-nCoV) Global Cases (by Johns Hopkins CSSE)
в реальном времени

https://gisanddata.maps.arcgis.com/apps/opsdashboard/index.html#/bda7594740fd40299423467b48e9ecf6
Кто-нибудь ходил на Synergy Digital? Там маркетинг, аналитика и тп. Билеты не дешевые, интерсно знать, качество мероприятия. Еще предложили выступить, но в иделе хотели, что бы я за свой счет прилетел 🥴
Директор BI Wargaming рассказал про их setup BI/DW. Рассказал, в чем разница между on-premise DW и Cloud DW. В чем разница между Batch и Streaming все это с наглядными картинками на английском (с русским? акцентом). И все это за 18 минут! Спасибо Оксане, она супер эксперт по мобильной аналитике и мы с ней решили покорить стартапы силиконовой долины, и внедрить им правильную аналитику. Если, что она и вам поможет прокачать ваше приложение.

Так же пару ссылок, на мероприятия, послушать/поучиться в ближайшее время от TDWI
Modern Data Integration for Advanced Analytics, from Self-Service to Predictive Solutions 18 февраля
The Automated Business Glossary: Part and Parcel of BI Intelligence 4 февраля

Кстати, я заметил, что эти ребята TDWI напоминают мне ситуацию с властью в РФ (могу ошибаться, не судите строго), на протяжение лет 7-10 я вижу одни и те же лица, которые слегка меняют свои презентации в стиле 90х, и рассказывает (часто тоже самое) как нужно внедрять аналитику, но прогресс ушел вперед. То же самое я заметил на конференции Enterprise Data Worlds где я был уже 2 года и скоро поеду опять.
Познакомился сегодня с Sigma BI https://www.sigmacomputing.com/. Эта такой Cloud Native BI, их главная фишка, что это буквально Excel. Это и есть их главный Sales Point, 90% пользователей знают excel. Продукт конечно пока слаб, нет InMemory возможностей и визуализация слабая. Ценообразование тоже инверсно - 300$ админ в месяц, 100$ разработчик, и все Viewers бесплатно. Предложил им выйти на Канадский рынок, у них как раз есть бюджет на мероприятие.
Все больше материала про коллаборации data scientists, data engineer и data platform. Вот новый whitepaper от Microsoft на эту тему. А какая команда у вас? Один человек "швейцарский нож" или ваше руководство понимает о необходимости специализации и коллаборации?
На хабр, мне написал Максим, автор подкастов про DWH. Он зачитатет статью про data lake. У него уже несколько выпусков есть, классно получается и главное от души👌
Интересный момент, многие слышали про GPU? Попалась статья (короткая) на хабр, про Big Data с GPU. Там есть описание некскольких коммерческих решений, из которых я только знаю Kinetica. Благодаря развитию и демократизации технологий, мы можем теперь попробовать запустить наше классическое решение на виртуальной машине с GPU. И мы получим, серьезные вычислительные мощности. Обычно мы используем такие инстансы для ML/DL. Но что, если попробовать запустить open source Spark или Pentaho Data Integration (ETL) или может BI? Если кто пробовал запускать традиционные решения на GPU, расскажите про ваш опыт. Я бы хотел запустить ETL на GPU, и проверить насколько быстрей трансформации. Но проблама с передачей данных по сети никогда не уйдет.
#book
Мне подсунули книжку автора "Богатый папа, бедный папа" Когда я давно читал (точнее слушал книгу) про пап, то было интересно, но сложно применимо к российским реалиям. Потом я слушал его другую книгу про квадранты, и я усвоил только одну вещь - существует квадрант:
E - employee, это мы работаем за зарплату
S - self employed, это мы работаем на себя, но нам платят по часам, мы не работаем, нам не платят. Нет отпуска и выше риски, я это называют contracter/freelancer.
B - business owner, тут понятно. Есть бизнес, который сам живет. Очень часто мы путаем S и E. Уволиться с работы и работать на себя это не бизнес, это самозанятость, это не масштабируется и часто мы возвращаемся к E.
I - investor, ну это когда все хорошо, мы понимаем как работает B, как управлять деньгами и при этом есть деньги.

Я запомнил на всегда про B и S. И создавая консалтинг, я хочу избегать S, и фокусирусь на B, но не хватака опыта дает о себе знать. В конце концов это будет мое бизнес образование, где мне платят, если я выучил урок, и где я плачу за свои ошибки. Это развивает networking, помогает больше практиковать английский (вы думаете работать инженером, нужно много говорить? не нужно, язык быстро теряет способность быть fluent).

У меня даже уже идея появилась. Когда была золотая лихорадка на Юконе (северная провинция Канады), и умные люди в Сиэтле решили заработать, они сказали, что Сиэтл это ворота в Юкон (хотя до Мексики ближе чем до Юкона), и к ним хлынуло куча золотоискателей. Бизнесмены в Сиэтле никогда не были в Юконе, но при этом продавали все необходимое, включая собак с упражками (но не хаски, а дворняг), и другие прибамбасы вместе с лопатами, заработали хорошо. Это как продавать франшизу. Вам продают лопату, и вы идете искать золото, не факт, что вы разбогатеете, но на вас точно заработают. Так я уже подумал, что мне надо продавать, услуги и тренинги по созданию своей аналитической компании🤣🤣

Я на самом деле хотел написать про книгу, которую сейчас читаю, и я действительно нашел ее очень полезной! FAKE: Fake Money, Fake Teachers, Fake Assets: How Lies Are Making the Poor and Middle Class Poorer

В 1ой главе, сразу говорят вам, что в 1971 президент Никсон отменил золотой стандарт. И объясняют вам, почему он это сделал, и как это повлияло. И дальше он рассказывает, про современные финансовые инструменты, это все fake. Сток? Акции и тп. В общем если вы хотети быть более грамотными в финансовом плане, очень рекомендую. Книга 2018 года, то есть очень свежая. Лично я теперь думаю о том, что бы обменять половину моего Amazon Stock на золото или серебро. Если читали, поделитесь идеями.
Я сейчас лечу из Сиэтла в Бостон, очень классные авиалинии JetBlue. Хороший бесплатный интернет. Все смотрят super bowl. Это ежегодный чемпионат по американскому футболу. Я не фанат, но сегодня впервые покажут новую рекламу Alexa. Это одна из самых дорогих рекламных площадок. А для вас я и так покажу, наслаждайтесь.

Кстати показали, что 30 секунд рекламного времени стоит 5,6mln$.

https://youtu.be/trfbpONj3dk
Researchers spend a great deal of time reading research pa-pers. However, this skill is rarely taught, leading to muchwasted effort. This article outlines a practical and efficientthree-pass methodfor reading research papers. I also de-scribe how to use this method to do a literature survey https://web.stanford.edu/class/ee384m/Handouts/HowtoReadPaper.pdf
Мы часто слышим, что в ИТ можно без образования. Я тоже так считаю, но это для Северной Америки, в Европе считают по другому. Во-вторых вопрос, нужен ли диплом, чтобы вырасти в более серьезные должности как Директор или VP. Наверно ответ, зависит от компании, в современных компаниях (facebook, tesla, twitter и другие) возможно нет. Вот картинка как раз про это, Маск, говорит не нужно. На выходных был день открытых дверей в University of Victoria. Я поговорил со студентами из кружка, кто построил подводную лодку велосипед. Он рассказал, что Тесла только берет на работу инженеров из таких университетских кружков, по крайней мере тех, кто занимается электромобилями и батареями. А вы как считаете?