Инжиниринг Данных
23.5K subscribers
1.98K photos
55 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
А вот квадрант по Data Science. Я знаю хорошо про DataBricks (Spark) и Alteryx. SAS хоть и лидер, но дорогой и неудобный. https://www.alteryx.com/third-party-content/gartner-2020-mq-data-science-machine-learning-thank-you
Новую книгу начал - flawless consulting, 1981 год, фундаментальные знания про консалтинг и про взаимодействия клиента и консультанта. Кстати, работая BI разработчиком или аналитиком, мы тоже являемся консультантом для наших клиентов (flawless это значит безупречный)
Недавно я скидывал статью на русском про Airflow. Там на хорошо было написано, что такое Directed Acyclic Graphs (DAG). Для тех кто любит углубиться в детали я нашел paper.
Все больше и больше постов про имлементацию моделей. (data science, ML, AI, не важно каких). Вот еще одна с использование AWS SageMaker (вычислительные мощности и фреймфорк + pyhton notebooks), Python, контейнер (Docker) и MLFlow (для обеспечения цикла разрботки, например dev-prod). Лично я хочу в этом разобраться, я писал про свою задача для оттока клиентов Alexa, работая с DataScienеtist я масштабирую модель, автоматизирую data pipelines. Остался последний элемент, все это сделать и использование best practices.
О визуализации данных на понятном языке. Почему столбиковые диаграммы строятся только от нуля, как перестать исппользовать чудовищное стандартное оформление из Экселя, почему даже у президента России графики как из 90-х. Разборы неудачных графиков и диаграмм, и события из мира датавиз в канале @chartomojka. Ведущий — преподаватель визуализации данных в Высшей школе экономики, автор книги "Графики, которые убеждают всех" Александр Богачев.
Столько классных apps, которые интегрируются с Wordpress, но еще больше креативных людей, из Виннипега🙊🙈
Screenshot_20200223-195635~2.png
368.9 KB
Согласно отчету dice, data engineer #1 вакансия по востребованности. В прошлом году это был data scientist, а до него был big data specialist. А ещё где-то был специалист по визуализации. https://techhub.dice.com/Dice-2020-Tech-Job-Report.html
Planning a Power BI Enterprise Deployment.docx
11.9 MB
Отличный документ про планирование и внедрение Power BI. Есть ли у вас еще интересные материалы про Data Governance для PowerBI?
В коллекцию картинок. В общем устал я от GIMP, где в ручную надо все делать, и сделал теперь в canva. Получилось классно.
Обожаю эту фотографию Ванкувера, везде ее вставляю и оттенок оранжевый
Март напряженный:
4 Марта Snowflake Data Breakfast и потом Snowflake User Group. Заняло много времени, чтобы пробиться к Snowflake. Получилось через community. Я буду там выступать, и договорились провести user groups в Торонто, Калгари и Монреале, и должны все оплатить за перелеты. Юзер группы это круто, где есть доступ к аудитории, там и клиенты. Я буду рассказывать про Cloud Analytics Fundamentals + приколы про Amazon Redshift, который 128 нод.

11 Марта - Vancouver User Group, я теперь и в Виктории, и в Ванкувере являюсь администратором. Долго пробивался к ним, теперь есть доступ ко всей аудитории и заодно я смогу выступать там. Я буду рассказывать про Tableau Prep.

17 Марта - конференция Microsoft - SQL Saturday, я сделал Rock Your Data спонсором (всего за 500$) и буду тоже выступать про Azure Data Platform.

Еще я должен подготовиться к собеседованию в University of Victoria, я подался на преподавателя курса по Data Analytics, это будет финальная презентация. Денег там мало платят, но зато хорошо для связей.

Несмотря на такое большое кол-во мероприятий, сложно все это монетизировать, но мы не сдаемся.

Кстати я видел есть в Москве официальная Tableau User Group, если в апреле приеду на конференцию, то нужно будет организовать ивент.

Про курс обещанный я не забыл. Думаю, вот на каком фоне видео записывать, надо поторопиться, пока загар не сошел))
Снова и снова пишут про data literacy. Идея в том, что руководитель в любой оранизации должен говорить на языке данных, должен понимать данные и уметь использовать базовые инструменты для работы с данными (отчет, дашборд, визуализация)
Если вы работаете с Big Data, то вы часто работаете с продуктами Apache (Hadoop, Hive, Kafka). Так же вы слышали про Data Lake, особенно в контексте облака, где много инструментов, чтобы быстро его создать. Когда мы храним данные в озере данных, или вообще работает с большими данными, важно использовать правильный формат данных. Вот хорошая статья про Apache Parquet. Отличная компрессия (10x) и возможность партиционирования, сделала это формат лидером.
Я писал уже, что Redshift выпустил новый кластер RA3. Главная фишка - это разделение compute/storage. В качестве основного storage теперь S3. Очень напоминает Snowflake. Я написал не большой пост про это https://medium.com/rock-your-data/meet-a-new-generation-of-redshift-data-platform-ra3-e65544920866