Инжиниринг Данных
23.5K subscribers
1.98K photos
55 videos
193 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Сейчас есть несколько ключевых ресурсов для изучения облачных технологий и самые крутые это Linux Academy и Cloud Guru. Сегодня Cloud Guru приобрел Linux Academy и теперь это будет глобальный изучению облачных вычислений.
Под конец года опубликовали 6-ую книгу для поготовки к экзамену по Табло. Subtitle уже фирменный - "Rock your..."
Если вы используете Redshift или просто интересно, то можно попросить досут к новой фиче AQUA, про которую я уже писал ранее.
Вот еще одна вакансия, уже про данные. Все вопросы к Александре, она сказала был хороший отклик в прошлый раз. Кстати, это же реклама по факту? Весь гонорар (даже маленький) за эту рекламу ушел в благотворительную организацию "Ночлежка" в Санкт Петербурге. Маленькое, но хорошее дело😎
Forwarded from Александра Кондрашина
Вакансия: Старший дата-аналитик
#санктпетербург #вакансия #sql #python #офис #работа #аналитика #vacancy #analyst

Полная занятость, работа в офисе Санкт-Петербург
Готовы помочь с релокацией кандидатам из других городов

Компания Selectel - надежный провайдер ИТ-инфраструктуры в России. Департамент стратегии расширяется и ищет в свою команду Старшего дата-аналитика. Наш будущий коллега будет рассказывать о результатах своих исследований и предлагать следующие шаги. Вам предстоит коммуницировать практически со всеми отделами компании – от маркетинга до финансистов, а также анализировать данные – от продуктовых метрик и составных частей выручки до анализа данных по стойкам и серверам.

Основные задачи:
- Поддержка BI-инфраструктуры и обеспечение доступности информации в компании
- Разработка структуры данных, поддержка и администрирование Qlik Server
- Поддержка и усовершенствование ETL-процессов и инструментов интеграции (на SQL, Python)
- Создание новых и переработка текущих алгоритмов обработки данных
- Подготовка моделей данных для анализа
- Создание инструментов для принятия эффективных решений (приложения, дешборды, рассылки)

Что мы ожидаем от кандидатов:
- Опыт работы c BI-системами от 2 лет (Qlik Sense, Qlik View, Tableau, Power BI)
- Сильные навыки в области интеграции данных
- Опыт настройки и поддержки ETL процессов, построения DWH
- Умение обрабатывать и анализировать большие массивы данных

Почему Selectel:
- Официальное оформление, белая зарплата
- Профессиональное и карьерное развитие
- Ежемесячная надбавка за некурение
- Бесплатные обеды и кофе-брейки
- Гибкое начало рабочего дня
- ДМС + стоматология + офисный врач
- от 50% до 100% оплаты обучения английскому (в офисе)
- Бесплатные разговорные клубы с носителями
- 50% оплаты абонемента в фитнес-клуб
- 10 минут пешком от метро Московские ворота
- Своя авто- и велопарковка

Подробное описание вакансии тут.

Присылайте резюме на @akondrashina или на [email protected]
Ну вы все поняли!!!🤠
Отличный подарок вашей 2ой половинке. Можно теперь как в сказка: "Свет мой зеркальце скажи, кто на свете всех милей..."
Конец года все ближе) Моя знакомая из канала Дашбордец уже сделала пару постов о трендах и выложила исследование Barc с прогнозами на 2020 год.

Канал в целом о дашбордах и Business intelligence с уклоном в бизнес-составляющую внедрения BI - инструментов на предприятиях.

Если дашборд - это Феррари мира аналитики, то в своем канале я рассказываю про то, что под капотом, а Дашбордец - про дизайн, эргономику и то, как организовать конструкторское бюро. В общем всем рекомендую, кто связан с миром данных и аналитики и не безразличен к прекрасному!😋
Это весело, хорошие вопросы от McKinsey для собеседования. Меня в 2010 году на собеседование в KPMG спрашивали, сколько вагонов метро в московском метрополитене и сколько беременных женщин в метро ездит. Кстати Амазон такие вопросы никогда не задаёт.
Screenshot_20191221-204743.png
545.9 KB
Про Data Engineers и Data Strategy. Хотя если по простому, то имеется ввиду, что нужно сначала создать data foundation, то есть хранилище данных с BI и ETL. Раньше не было data Engineer, был ETL и DWH разработчик, и data mining специалист (data science).
Apache Spark.pdf
136.2 KB
Learning Spark with Python - ebook
В статье автор сравнивает ETL и ELT. В канале я уже много раз ссылался на эти абреавиатуры. Согласно википедии, ETL уже используется с 1970х. Главное отличие ETL от ELT, что нам нужны вычислительные мощности (computing) чтобы, читать данные и трансформировать, то есть мы все данные пропускаем через приложение ETL. Поэтому это дорого (нужно сервер и нужно его обслуживать), во-вторых это может быть узким местом во времени обработки. Самые популярные решения это Informatica Power Center, MS SSIS, SAP BODI и другие аналоги от IBM, Oracle, SAS.

В противовес, есть концепт ELT, когда мы используем вычислительные мощности аналитического хранилища данных (Teradata, Exadata, Netezza, Redshift, Snowflake and so on). По сути все трансформации описаны с помощью SQL, а сам ELT иснтрумент оркестрируют, в какой очереди запускать трансформации и какие зависимости. Как результат, дешевле, быстрее и более гибкий.

В конце концов, не важно, что вы используете, лишь бы работало хорошо, обеспечивало SLA, проверяло качество загруженных данных и сообщало о поломках.

В Alexa я использую Matillion ETL для всех бизнес трансформаций и метрик. Наши product managers очень довольны, так как сами могу делать трансформации. Athena для SQL интерфейса в озеров данных на S3. Так же частично Amazon Glue для сбора метаданных озера данных. Из интересного, хотел бы использовать Apache Airflow, но нет времени с ним ковыряться.

Так же работаю иногна со Spark, когда много данных и нужно Big Data Computing. Причем трансформации описываю на SQL. Данные в озере данных всегда в Parquet формате и обязательно партиционированы. С новой фичей Redshift - UNLOAD to Parquet стало легче выгружать данные из Redshift в озеро данных.

В в Alexa очень итересно с точки зрения данных, в качестве источника дынных для меня это Redshift 128 нод (максимальный размер) и озеро данных, то есть миллиарды строк, все это дело надо соединить и посчитать метрики качества на уровне событий и сохранить результат в своем кластере Redshift. А часть данных нады выгрузить в свое озеро данных для front end сервисов. Главная цель, помочь внутренним бизнес подразделениям выявлять проблемы в поведении Alexa и качества моделей.

PS хотел про ETL/ELT написать, а получась гораздо больше, теперь я точно могу сказать, я работал с большими данными, и они растут по экспоненте.
Последние новости про Amazon, хотя на фотке Маск)) Я был на презентации этого проекта, и даже подумал, может им нужен Data Engineer? С точки зрения карьеры в корпорации, чтобы вырасти, нужно попасть в начале, то есть например с Alexa, если в нее попасть лет 5 назад, шансы на рост есть. Это как стартап, либо он рванет и все вырастут вместе с ним, либо будешь маленьким винтиком в большой машине. Вообще тема с аналитикой спутников, солнечных батарей и ветряных мельниц очень перспективная.