Инжиниринг Данных
21.2K subscribers
1.59K photos
34 videos
176 files
2.88K links
Делюсь новостями из мира аналитики и вредными карьерными советами;)

8 лет в FAANG, инвестиции в недвижимость, компании и акции, solo entrepreneur🏄‍♂️

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Недавно, я написал статью для блога Анастасии Кузнецовой про работы с GitHub, CI/CD на пример SQL файлов. А сегодня Настя написала статью для моего блога Surfalytics:

Just Enough Data Viz for Data Professionals
Master the 20% of Techniques That Drive 80% of Dashboard Impact

Мне хотелось собрать все самое необходимое связанное с визуализацией данных и дашбордами, такой своего рода cheatsheet для новичков в data или уже опытных инженеров (которые не про data viz и BI), получилось МЕГА КРУТО! 🔥

PS не забудьте подписаться на ее телеграмм канал Настенька и Графики.
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет!

Мы сделали лендинг для начинающих аналитиков данных: https://surfalytics.com/pages/data-analyst-landing/

Страница рассчитана на тех, кто только начинает свой путь в аналитике и ищет первую работу в этой области.

Буду рад вашим отзывам в комментариях — насколько всё понятно, и что, возможно, стоит доработать.

В будущем планирую добавить похожие страницы для BI-разработчиков, инженеров по аналитике и инженеров данных.
Forwarded from LEFT JOIN
«Я всегда верил, что главное “попасть” куда-то, зацепиться, а там уже пробиваться наверх»

В гостях Дмитрий Аношин — автор канала Инжиниринг Данных и основатель проектов Datalearn, Surfalytics, Rock Your Data.

О чем мы поговорили?
🔵 О планах поработать инженером-конструктором на немецком заводе.
🔵 Об отсутствии финансовых перспектив в машиностроении.
🔵 О лучшем способе «зайти в Data»
🔵 О классных проектам в Amazon и Microsoft.

🔜 Подробности — в канале Карьера в Data | LEFT JOIN
Please open Telegram to view this post
VIEW IN TELEGRAM
Еще один отзыв о Surfalytics. Очень рад за товарища, что он нашел свою первую работу на позиции Senior BA в Ванкувере. Зарплата оказалась ниже, чем мы рассчитывали (100к-120к CAD), но, как видно из текста ниже, трудность была связана с английским языком. От себя могу добавить, что одной из трудностей была частая смена фокуса — то аналитик, то продакт-менеджер, и, возможно, перерывы в обучении. Очень важно выбрать одну профессию или роль и к ней готовиться, а также крайне важно не делать перерывов в обучении. В целом, все отлично, и цели достигаются!

Как-то так получилось, что я захотел переехать в Канаду и стать дата инженером примерно одновременно. Готовился переезжать по Express Entry. А Data учил с помощью Data Learn. И то и другое весьма вяленько. Было это до войны.

А когда она грянула, мы таки смогли переехать в лучший город мира. Ванкувер.

Целый год я работал на старой работе, в маркетинге, и учил английский. В Ванкувере ппц дорого, мы платили за 2 bedroom 3800 канадских баксов (на треть меньше баксов США). Но пока была старая работа, кэшфлоу был позитивный благодаря своему небольшому бизнесу по продвижению сайтов.

Потом, спустя год, я понял, что совсем мало времени получается уделять поиску новой работы в Канаде и решил уйти со старой. Говорят же - меняй или должность (в рамках своей компании), или компанию, или домен. Или язык, на котором работаешь, видимо. А я хотел сразу поменять все: перейти из маркетолога в русскоязычной EdTech компании в data аналитика в канадской IT компании. Для такого надо дохрена времени на всякое:
Обучение
Подготовка резюме
Подготовка к собеседованиям
Английский язык
Нетворкинг

Короче, ушел со старой работы и понеслось. Кэш начал потихоньку таять (хотя запас приличный, но чувство ппц неприятное). А работа не торопилась находиться. Вообще. Было так себе. Все эти сокращения в IT вывалили на рынок труда кучу высококачественных профи. А компании наоборот, поубавили аппетиты в плане найма.

Только Surfalytics радовал. Классное комьюнити позитивных людей с ну ооочень активной жизненной позицией. Как говорят, стремитесь быть в комнате, где чувствуете себя самым глупым. Значит вы в правильном месте. Так у меня было на наших сходках аналитиков и инженеров. Кайф. Без сарказма.

В итоге работу я нашел ровно спустя год после ухода.

Должность Senior Business Analyst. Компания e-commerce, а не IT, к сожалению. По большей части в отделе маркетинга. 76000 CAD в год с повышением до 80000 CAD через 3-6 месяцев. Owner говорит, чтобы окупить эти деньги, я должен увеличить доход на лям $. Но он верит, что я смогу увеличить на все 3-5 миллионов. Посмотрим 🙂

Из классного - это кайф, когда ты можешь подаваться в dream companies типа Google, Microsoft, Deloitte, Stripe и даже получать какой-то отклик.
Что помогло больше всего:
Rock Your Data. Дима позволил указать его компанию в качестве последнего место работы, что добавило в мое резюме опыт настоящей канадской компании из Ванкувера. Киллер-фича.
Подавался на разные специальности: Data Analyst, Business Analyst, Marketing Manager, Product Manager, Product Owner, Project Manager, Scrum Master. Под каждую свое резюме.
Английский для аналитиков в Skyeng. Английский с хорошими преподавателями в Инглекс. Английский по 5 часов в день 4 раза в неделю офлайн в Ванкувере с канадским нейтивом в ISSofBC.
ChatGPT. Пишет cover letter, адаптирует резюме под вакансию, учит разным непонятным навыкам из вакансии для собеседования.
Референсы от товарищей и хороших людей из Surfalytics. В Канаде рекомендация скорее всего приведет к тому, что на ваше резюме таки взглянет человек.
Скорость. Очень важна. Мощные референсы и классно заточенные резюме пропадали из-за промедления в несколько дней. Кто первый - того и рассмотрят, а на остальных времени может не остаться.
Проекты в Surfalytics. Особенно очные в офисе. В плане хард скилов помогло не так сильно, потому что я все время сталкивался с какими-то сложностями (как будто уникальными для моего ноута). Но поддержка и общение с единомышленниками, понимание, что есть к кому обратиться за помощью, обучением, прожаркой резюме - это все бесценно и нигде больше не встретишь.
SQL курс на Data Learn. Нравится 🙂

Что теперь. Есть еще несколько собеседований, которые надо допройти (Deloitte, Hootsuite). Несколько подач по референсам, которые обычно долго реагируют (Google, Amazon, Appryse, Microsoft). Все же охота и в IT, и на зп повыше. И должность продакта манит.

А если все это не срастется, то тогда надо будет принести реально большую пользу той единственной компании, от которой я пока получил оффер, и которой я очень благодарен за это. Надо 3-5 миллинов, говорите?


#testimmonial
Все хотят хорошее качество данных! На собеседованиях вас обязательно спросят про качество данных.

Уже спрашивает чаще, чем про моделирование данных.

И вот книжка - Data Quality Fundamentals

Do your product dashboards look funky? Are your quarterly reports stale? Is the data set you're using broken or just plain wrong? These problems affect almost every team, yet they're usually addressed on an ad hoc basis and in a reactive manner. If you answered yes to these questions, this book is for you.

Many data engineering teams today face the "good pipelines, bad data" problem. It doesn't matter how advanced your data infrastructure is if the data you're piping is bad. In this book, Barr Moses, Lior Gavish, and Molly Vorwerck, from the data observability company Monte Carlo, explain how to tackle data quality and trust at scale by leveraging best practices and technologies used by some of the world's most innovative companies.

Build more trustworthy and reliable data pipelines

Write scripts to make data checks and identify broken pipelines with data observability
Learn how to set and maintain data SLAs, SLIs, and SLOs

Develop and lead data quality initiatives at your company

Learn how to treat data services and systems with the diligence of production software

Automate data lineage graphs across your data ecosystem

Build anomaly detectors for your critical data assets

Судя по описание хорошо подходит для инженера данных.
Яндекс Игры пришли к нам с запросом:


SELECT *
FROM subscribers
WHERE 1=1
AND channel_name = ‘rockyourdata’
AND technical_skills IN ('SQL', 'Airflow', 'MapReduce', 'DataLens')
AND data_driven_approach = true
AND analytical_mindset = true
AND years_of_experience >= 2;

Ребята ищут аналитика в свою команду. Яндекс Игры посещают более 40 млн пользователей в месяц, поэтому можно проверять кучу гипотез на крупных выборках и экспериментировать.

ВАЖНО. Проверенные гипотезы не пойдут «в стол», а будут помогать команде принимать взвешенные решения и влиять на развитие продукта.

Если у тебя есть опыт работы с продуктами, аналитический склад ума и необходимые навыки, — это отличный шанс быстро вырасти и прокачаться на интересных задачах.

Описание вакансии здесь, но лучше сразу пишите рекрутеру и договаривайтесь о собеседовании: @danny_md1
Новая книга на O’Reilly - Data Visualization with Microsoft Power BI.

The sheer volume of business data has reached an all-time high. Using visualizations to transform this data into useful and understandable information can facilitate better decision-making. This practical book shows data analysts as well as professionals in finance, sales, and marketing how to quickly create visualizations and build savvy dashboards.

Alex Kolokolov from Data2Speak and Maxim Zelensky from Intelligent Business explain in simple and clear language how to create brilliant charts with Microsoft Power BI and follow best practices for corporate reporting. No technical background is required. Step-by-step guides help you set up any chart in a few clicks and avoid common mistakes. Also, experienced data analysts will find tips and tricks on how to enrich their reports with advanced visuals.

Внутри 25 глав про различные диаграммы и пошаговые примеры реализации в Power BI.

Well done! С Алексеем я лично знаком и рад поддержать книгу!
7 и 8 ноября в Москве пройдет Матемаркетинг — большая ежегодная конференция по маркетинговой и продуктовой аналитике для аналитиков, продакт-менеджеров, ML-специалистов и дата-инженеров

Я был только на самой первой конференции Матемаркетинг и с тех пор конференция стала круче. На ней можно узнать как топовые компании используют аналитики и данные, как создают и управляют аналитическими командами, множество реальных кейсов применения аналитики, инжиниринга данных и машинного обучения.

Вот доклад, с которым я выступал - Роль BI-систем и DWH в маркетинге. Архитектура и кейсы, и заодно сделал workshop по Snowflake + Tableau. И это было еще до того, как Snowflake стал mainstream.

Еще из интересного, именно на этой конференции я создал этот телеграмм канал, и если отмотать в самое начало, то там будет ссылка на Snowflake workshop. Уже после конференции, у меня было 600+ подписчиков. Поэтому, я вам точного говорю - отличная конференция, отличный нетворкинг, отличный опыт!

Программа: https://matemarketing.ru/program

Место проведения: МГУ, кластер «Ломоносов», Раменский бульвар 1.
Классика от фаундера - всем спасибо, все молодцы, мы старались как могли, но обстоятельства не сложились, все свободны.

Хотя получили прилично инвестиций - Data startup Cybersyn raises $63 mln in Snowflake-led funding round. Промотали все за 2 года.

Теперь фаундер может смело получить новые инвестиции и продолжить строить новый стартап, став серийным стартап-фаундером!

В целом для основателей стартапа это круто, и не так важно, что окажется на выходе. Ведь это опыт, и чем больше провалов, тем ближе успех. Инвесторы закладывают в риски, и если кто-то промотает 100+/- млн баксов, это нормально. Главное — не тратить эти деньги на роскошные вещи.

На второй картинке показана интересная статистика о выходе стартапов на IPO. Из нее видно, что топовые компании могут ожидать выхода на IPO около 15 лет.

Теперь если взять всю эту информацию, то есть очевидные факты:

1) Если у вас есть мечта создать стартап, и вы располагаете необходимыми ресурсами, то какой-нибудь YC может предоставить вам seed-инвестиции, если вам удастся туда попасть. (У меня даже есть идея по фану пройти YC в качестве некоего саббатикала, поехать в Сан-Франциско и попробовать поработать над стартапом вместе со студентами, раньше я хотел саббатикал в MBA MIT)

2) Если вы предпочитаете стабильную работу, и вам важно обеспечивать семью, то для вас более важны job security и стабильный растущий доход. Работать в стартапах, даже тех, что находятся на поздних стадиях и готовятся к IPO, становится все менее выгодно, особенно в последние годы. Опцион может стоить вам денег, а вы вынуждены ждать IPO. Кроме того, вас у вас нет бонусов или RSU, а иногда могут и уволить, ссылаясь на ‘тяжелую экономическую ситуацию’.

У меня был пример. Отработал 2 года в стартапе. При мне он получил 2 раунда, 2й был 600млн. Когда я уходил, мне предложили выкупить опцион за 60т CAD. Лучше эти 60к положить на S&P500 или классические активы с дивидендами.

3) Получается идеальный вариант это такой микс full time (бенефиты, страховка, зарплата по расписанию) и contract (контракт на какой-нибудь стартап). Можно и наоборот — работать в стартапе full-time, а в крупной компании по контракту. Вообще вариаций много. При этом налогообложение может стать интересной темой, если есть возможность совмещать проекты в разных странах.

Но прежде, чем думать про эти 3 пункта, надо стать хорошим и востребованным специалистом в какой-то области. Поэтому всему свое время, всем grow(th) mindset!
Чтобы много успевать - надо быть продуктивным. А чтобы быть продуктивным, нужен четкий план на день, на неделю, на месяц и тп. Я не буду вдаваться в подробности в эффективность и time management, просто поделюсь с вами моими любимыми ресурсами.

Я сам еще далек от совершенства, но борюсь с собой, чтобы быть более собранным и эффективным.

Концепт джедайский техник мне очень понравился. Он включает в себя лучшие мировые практики и адаптирует для нас.

🐒Книга - Джедайские техники. Как воспитать свою обезьяну, опустошить инбокс и сберечь мыслетопливо

🐒Одна из основных идей джедайских техник - Why Procrastinators Procrastinate (тут очень хорошо написано почему мы так мало успеваем)

🐒Марафон на 60 дней - я его уже начал второй раз проходить.

🐒Notion для личных дел - дополнение с примером использования Notion для ведения личных дел.

Вы можете начать использовать шаблон прямо сегодня. Вчера я настроил входящие через Telegram Bot используя сервис Make. Если Notion сложный, можно использовать Microsoft To Do или его аналоги.

В целом подход хороший, но очень сложно следовать простым правилам, например:
- формировать список задач на день
- не добавлять новые (срочные) задачи в текущий лист задач на день
- чистить список каждую неделю
- не реагировать на якобы срочные 2х минутные задачи (все бросить и бежать их делать)
Ищем автора эталонного кода! 💎

Если вы уверены, что вашему коду подходит звание «Эталонный», а вам — звание «Автор самого красивого кода», то приглашаем принять участие в Конкурсе красоты кода 2.0 и выиграть классные призы от Сбера: iPhone 16 и умную колонку SberBoom.

Опытные эксперты определят победителей в пяти категориях: Backend, Frontend, DevOps, AI и Mobile, — а награждение пройдёт на ключевом IT-событии HighLoad в Москве, 2 и 3 декабря.

Больше 40 участников прошлого конкурса стали частью команды Сбера. Возможно, следующим станете именно вы — переходите по ссылке и изучайте подробности!
6 секунд на проверку резюме? Чтобы лучше понимать как откликаться, нужно смотреть как работают рекрутеры:)

Рекрутеры, если вы тут, напишите в комментах, как вы смотрите резюме!
Последние время удалось потрогать множество проектов по инжинирингу данных. Все проекты и задачи я могу разделить на две большие категории. Одна категория это классический DE, такой вот, почти как pet проекты по инструкции:
- Слой хранения данных - Snowflake (или его ближайший аналог)
- Слой трансформации данных - dbt (аналогов вот нет, чтобы так просто и в SQL)
- Слой загрузки данных в слой в слой хранения (Fivetran, Airbyte, или просто Python)
- Система оркестрации данными – Airflow, Azure Data Factory
- Слой визуализации и отчетности – Looker, Tableau, Power BI и другие

Сами инструменты могут быть разными и хоститься на разных публичных облаках. Может быть полегче – SaaS, PaaS (это cloud service models, основа основ облачных вычислений, надо знать термины), а может быть посложней с использованием контейнеров. Так же всегда есть выбор – ковырять открытое ПО или использовать коммерческий продукт.

Но всегда смысл решения будет один и тот же, и таких решений большинство. Опытный инженер может достаточно быстро въехать в требования, понять, что нужно сделать, ну и сделать это. Еще и время останется.

А есть другая категория проектов, которые прям «каждый раз, как в первый раз». Ранжироваться может от ML до Software Engineering, от DevOps до Backend Engineer. Ну в смысле вообще не предсказуемо. И тут вам уже не поможет, ни ChatGPT, ни google. Потому что в такие вещи за 5 минут не въехать. Покрайней мере мне не удается это делать быстро.

Например, задачка – добавить новые продуктовые события в отчет. Казалось бы, как просто. Разбираемся. Откуда приходят данные? Данные пишет Kafka в S3. Схема JSON описана в protobuf. Данные изначально генерятся в backend, который написан на Node JS. То есть, когда случается событие, создается payload и отправляется в Kafka topic, там он как-то пересекается с protobuf, потом еще данные маскируются и все это дело уже складывается в S3. Вроде звучит просто, но у меня заняло время это понять, и еще займет много времени, прежде чем я смогу добавить два новых поля в backend.

Другой пример – event driven озеро данных на EMR+Spark. И часть джобов уже использует EMR Serverless (что дешевле и быстрей, традиционного, EMR. Надеюсь, у отечественных облаков уже тоже все сервисы доступны как Serverless). Для этого написал большой фреймворк на Python с множеством конфигурационных файлов в YAML. Задача у меня была обновить JDBC jars (драйвера) для Snowflake и Spark. Система настолько громоздкая и неповоротливая, что вообще не понятно где подступить.

Я не хочу вдаваться в подробности своих задачек, что как и почему. Мой поинт заключается в том, что есть два типа задачек, простые и не очень. Все программы обучения заточены на простые сценарии, отличаются лишь набором инструментов. И действительно в 80% случаях этого будет достаточно, чтобы найти работу. Я это уже проверил много раз на сообществе Surfalytics. И сам ни раз отдавал свои реальные задачи ребятам из сообщества, где они могли на реальных примерах что-то поковырять. А вот, чтобы решить остальные 20% задач уже нужны годы опыта. Тут уже мало что поможет.
Вчера был интересный разговор с менеджером в Microsoft, он мне рассказал, что у него есть открытые позиции, но берут в Индии, потому что за цену одного инженера в США можно взять 3х индусов.

Прошлым летом уже писал про глобальное расширение компаний. То есть компании не косты режут, а просто вот решили в индии офис открыть.

А когда-то Vancouver был cheap engineering. Хотя вот сегодня увидел, что «Европа это новая Мексика для США».