Инжиниринг Данных
23.5K subscribers
1.99K photos
55 videos
193 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
По вакансии выше, хочу добавить от себя. Я пообщался с ними, и возможно можно добавить, что важен следующий опыт:
- опыт с AWS или Azure или сертификация Solution Architect, ну или опыт, чтобы можно было создать решение в облаке, обеспечить безопасность, настройки сети и тп
- понимание как работать с DW и ELT в облаке, например опыт с Redshift/BigQuery/Synapse и Glue/Data Factory
- знать как развернуть BI и подключить все это дело вместе (end to end ELT, DW, BI)
- понимать как построить DW с точки зрения создания модели данных
- инструменты обеспечения качества данных и документации
- умение использовать элементы DevOps для кода (CI/CD, Git)

То есть опыт со Snowflake это хорошо, но сам продукт не сложный, важно знать принципы создания облачного решения по аналитики и иметь подходящий опыт. Про Python я тоже особо ничего не сказал, так как можно и без него обойтись, например использовать dbt (будет шикарно и на SQL + CI/CD).
А вот и видео новое по курсу ML&DS 101 от Анастасии Риццо.

В этом уроке мы:
1) Пройдем весь Exploratory Data Analysis, который включает в себя:
📌 Descriptive Statistic
📌 Observation of target variable
📌 Missing Data
📌 Numerical and Categorical features

2) Рассмотрим Data Wrangling and Transformation:
📌 Multicollinearity
📌 Standard Scaler
📌 Creating datasets for ML part
📌 'Train\Test' splitting method

https://youtu.be/S-ZBb4yvxAQ
Классная статья про галстуки. Мне нравятся галстуки, потому что я одеваю его раз в год. А вот когда заставляют носить его, это уже перебор. С работой из дома дресс код совсем пропал. У меня была одна история в Канаде, когда я только приехал в Виннипег и устроился в страховую Sr BI developer, я не очень сработался с коллегами женского пола, потому что я не знал про особенности и имел опыт несколько раз неудачно пошутить… Один раз меня вызвали к начальнику, за то что я был в темных джинсах а не штанах, кто-то доложил куда следует. Хотя мы работали в кубиках, меньше вообще не видно было. И я там бегал как будто в стартапе работал (за это тоже я не очень им подходил). И он меня отправил домой пересевать штаны! Смех сквозь слезы)) Зимой в -30 на 2х автобусах домой и обратно. За что я им чрезмерно благодарен, так я попал в Амазон.
Ну можно считать Mission completed! Присягнули королеве👸 и стали Канадцами🇨🇦 (онлайн). Хорошо, что РФ позволяет иметь два гражданство. От идеи до реализации где-то 7 лет. Если еще не читали, на хабре было про переезд в Канадуl
Дело говорят!
Интересная статья от бывшего коллеги из Черногории “I AM A PROFESSIONAL IMPOSTOR”. Как раз как мы любим - fake it till you make it😜

PS Imposter - самозванец.
Кто работает в качестве “Button”))
Kaggle State of Machine Learning and Data Science 2020.pdf
14 MB
Kaggle State of Machine Learning and Data Science 2020
Метрики наших сообществ:
- 2000 человек в нашем Slack DataLearn, и видно как все больше людей начинают активно общаться и решать рабочие вопросы
- 6000 человек в телеграм канале (вчера перевалило)
- 60000 рублей собрали на благотворительность
- 3 активных курса (DE-101,JH-101,DS&ML-101)
- 2 курса в разработке (SQL-101, DevOps для Data Engineering)
- 16 вебинаров с экспертами и еще много вебинаров готовиться
В Databricks есть свой front-end (читай BI) - SQL Analytics. Но есть и еще альтернатива интересная - Dash от Plotly.
Всем привет! 14 февраля - не только День святого Валентина, но и день рождения группы Power BI Group RU, самого большого русскоязычного сообщества влюбленных в Power BI в Telegram. Здесь всегда будут новости, полезные ссылки, жаркие дискуссии, но, главное, активная помощь друг другу. Присоединяйтесь!

https://t.iss.one/PBI_Rus
Forwarded from Reveal the Data
This media is not supported in your browser
VIEW IN TELEGRAM
❤️ Make Love, Not War
Табло-валентинка от великолепного Саши Варламова, присмотритесь к его твиттеру.

Между разными BI-системами иногда ведется настоящая война, а приверженцы систем готовы защищать их довольно агрессивно. За собой такое тоже иногда замечаю =) Конечно же это булшит и разные системы лучше решают разные задачи и все они важны и хороши.

Меня очень радует как вокруг инструментов появляются комьюнити и как пользователи помогают друг другу лучше любого поиска или официального саппорта. Это просто прекрасно. Если вы пользуетесь какой-то платформой для визуализации, то присоединяйтесь к чатам, там вам всегда помогут.

Tableau
Power BI (у ребят сегодня ДР 🎉)
Qlik|Qlik
Yandex DataLens
Google Data Studio
Apache Superset
Plotly
D3.js
Дата-виз чат
Чат про открытые данные
Чат про журналистику данных

А ещё, пока весь мир идёт в Клабхаус, я только сейчас решил попробовать включить комментарии, посмотрим что получится. Пишите какие ещё классные чаты про датавиз и BI я забыл.

#ссылка
Для команд аналитики очень важна налаженная коммуникация с бизнесом и другими техническими командами. Блог doordash рассказывает как они делают это эффективно.
Я люблю статья, где есть отсылки к истории технологий и мы можем видеть “было-стало”. Вот пример - The Evolution of Precomputation Technology and its Role in Data Analytics

- Precomputation is a common technique used in information retrieval and analysis, including index, materialized view, cube and more.
-It’s a trade-off between time and space, query speed and update flexibility, online processing and offline processing.
-A few megatrends that make precomputation essential to the big data era.
-A real example of 200x acceleration of an OLAP query using different types of precomputation.
-In the near future, how AI and automation will improve precomputation and how that impacts the TCO of big data systems.
Data engineering in 2020-2021

Another view on the Data Management landscape. There 9 mentions of SQL and 5 mentions of BI in the article. SQL is required knowledge for data engineer by it's not in any way the only requirement nowadays.

The author sees the future of Data Management as a way towards SQL-engines and outsource the complexity to the platforms. Unfortunately that's probably true.

Although:
▪️In practice, engineers spend most of the time on letter "T" in ETL(and not only using SQL). For example, the most popular framework for data processing Spark is much more than just RDDs today

▪️Those emerging platforms cost a pile of money now. For example AWS was born because of Oracle platform huge maintanance cost.

▪️I’m very sceptical of tools that clams “everyone can build a data product in several easy steps”.

Article
Я часто говорю про инженеров из Индии в негативном свете. Недавно я посмотрел фильм The White Tiger и фильм помог мне посмотреть на Индию с другой стороны и постараться понять их уклад и спроецировать его на конкурентную борьбу за место под солнцем.