AI 2020 - вебинар про Архитектуру и Инфраструктуру
Gigaom
GigaOm Webinar - Artificial Intelligence in 2020: The Architecture and the Infrastructure
Под конец года опубликовали 6-ую книгу для поготовки к экзамену по Табло. Subtitle уже фирменный - "Rock your..."
Если вы используете Redshift или просто интересно, то можно попросить досут к новой фиче AQUA, про которую я уже писал ранее.
Вот еще одна вакансия, уже про данные. Все вопросы к Александре, она сказала был хороший отклик в прошлый раз. Кстати, это же реклама по факту? Весь гонорар (даже маленький) за эту рекламу ушел в благотворительную организацию "Ночлежка" в Санкт Петербурге. Маленькое, но хорошее дело😎
Forwarded from Александра Кондрашина
Вакансия: Старший дата-аналитик
#санктпетербург #вакансия #sql #python #офис #работа #аналитика #vacancy #analyst
Полная занятость, работа в офисе Санкт-Петербург
Готовы помочь с релокацией кандидатам из других городов
Компания Selectel - надежный провайдер ИТ-инфраструктуры в России. Департамент стратегии расширяется и ищет в свою команду Старшего дата-аналитика. Наш будущий коллега будет рассказывать о результатах своих исследований и предлагать следующие шаги. Вам предстоит коммуницировать практически со всеми отделами компании – от маркетинга до финансистов, а также анализировать данные – от продуктовых метрик и составных частей выручки до анализа данных по стойкам и серверам.
Основные задачи:
- Поддержка BI-инфраструктуры и обеспечение доступности информации в компании
- Разработка структуры данных, поддержка и администрирование Qlik Server
- Поддержка и усовершенствование ETL-процессов и инструментов интеграции (на SQL, Python)
- Создание новых и переработка текущих алгоритмов обработки данных
- Подготовка моделей данных для анализа
- Создание инструментов для принятия эффективных решений (приложения, дешборды, рассылки)
Что мы ожидаем от кандидатов:
- Опыт работы c BI-системами от 2 лет (Qlik Sense, Qlik View, Tableau, Power BI)
- Сильные навыки в области интеграции данных
- Опыт настройки и поддержки ETL процессов, построения DWH
- Умение обрабатывать и анализировать большие массивы данных
Почему Selectel:
- Официальное оформление, белая зарплата
- Профессиональное и карьерное развитие
- Ежемесячная надбавка за некурение
- Бесплатные обеды и кофе-брейки
- Гибкое начало рабочего дня
- ДМС + стоматология + офисный врач
- от 50% до 100% оплаты обучения английскому (в офисе)
- Бесплатные разговорные клубы с носителями
- 50% оплаты абонемента в фитнес-клуб
- 10 минут пешком от метро Московские ворота
- Своя авто- и велопарковка
Подробное описание вакансии тут.
Присылайте резюме на @akondrashina или на [email protected]
#санктпетербург #вакансия #sql #python #офис #работа #аналитика #vacancy #analyst
Полная занятость, работа в офисе Санкт-Петербург
Готовы помочь с релокацией кандидатам из других городов
Компания Selectel - надежный провайдер ИТ-инфраструктуры в России. Департамент стратегии расширяется и ищет в свою команду Старшего дата-аналитика. Наш будущий коллега будет рассказывать о результатах своих исследований и предлагать следующие шаги. Вам предстоит коммуницировать практически со всеми отделами компании – от маркетинга до финансистов, а также анализировать данные – от продуктовых метрик и составных частей выручки до анализа данных по стойкам и серверам.
Основные задачи:
- Поддержка BI-инфраструктуры и обеспечение доступности информации в компании
- Разработка структуры данных, поддержка и администрирование Qlik Server
- Поддержка и усовершенствование ETL-процессов и инструментов интеграции (на SQL, Python)
- Создание новых и переработка текущих алгоритмов обработки данных
- Подготовка моделей данных для анализа
- Создание инструментов для принятия эффективных решений (приложения, дешборды, рассылки)
Что мы ожидаем от кандидатов:
- Опыт работы c BI-системами от 2 лет (Qlik Sense, Qlik View, Tableau, Power BI)
- Сильные навыки в области интеграции данных
- Опыт настройки и поддержки ETL процессов, построения DWH
- Умение обрабатывать и анализировать большие массивы данных
Почему Selectel:
- Официальное оформление, белая зарплата
- Профессиональное и карьерное развитие
- Ежемесячная надбавка за некурение
- Бесплатные обеды и кофе-брейки
- Гибкое начало рабочего дня
- ДМС + стоматология + офисный врач
- от 50% до 100% оплаты обучения английскому (в офисе)
- Бесплатные разговорные клубы с носителями
- 50% оплаты абонемента в фитнес-клуб
- 10 минут пешком от метро Московские ворота
- Своя авто- и велопарковка
Подробное описание вакансии тут.
Присылайте резюме на @akondrashina или на [email protected]
selectel.ru
Selectel — IT-инфраструктура для бизнеса
Selectel предлагает комплексные IaaS и PaaS-решения для разных категорий бизнеса: от индивидуальных предпринимателей до крупных корпораций. Аренда IT-инфраструктуры в дата-центрах Москвы и Петербурга
Конец года все ближе) Моя знакомая из канала Дашбордец уже сделала пару постов о трендах и выложила исследование Barc с прогнозами на 2020 год.
Канал в целом о дашбордах и Business intelligence с уклоном в бизнес-составляющую внедрения BI - инструментов на предприятиях.
Если дашборд - это Феррари мира аналитики, то в своем канале я рассказываю про то, что под капотом, а Дашбордец - про дизайн, эргономику и то, как организовать конструкторское бюро. В общем всем рекомендую, кто связан с миром данных и аналитики и не безразличен к прекрасному!😋
Канал в целом о дашбордах и Business intelligence с уклоном в бизнес-составляющую внедрения BI - инструментов на предприятиях.
Если дашборд - это Феррари мира аналитики, то в своем канале я рассказываю про то, что под капотом, а Дашбордец - про дизайн, эргономику и то, как организовать конструкторское бюро. В общем всем рекомендую, кто связан с миром данных и аналитики и не безразличен к прекрасному!😋
Telegram
Дашбордец
Привет, котятки) Я Даша, и это мой уютный канал про дашборды - от бизнес-анализа до реализации на BI. Темы канала: data viz, BI, dashboards, DWH.
По вопросам писать: @Dddv_2705
По вопросам писать: @Dddv_2705
Это весело, хорошие вопросы от McKinsey для собеседования. Меня в 2010 году на собеседование в KPMG спрашивали, сколько вагонов метро в московском метрополитене и сколько беременных женщин в метро ездит. Кстати Амазон такие вопросы никогда не задаёт.
The New Yorker
McKinsey & Company Interview Questions Revised for 2020
If McKinsey were to hire you, and then you were to become a leading Democratic Presidential candidate, would you tell the press about a hypothetical project in Saudi Arabia?
Удовольствие за 20 баксов 😝 🚀 https://www.youtube.com/watch?v=-o1CKbY9SdE
YouTube
Rock Your Data Intro
Rock Your Data is a consulting and technology firm that delivers secure and scalable cloud analytics solutions in North America. We help organizations to make distinctive, lasting, and substantial improvements in their performance by leveraging their data…
Screenshot_20191221-204743.png
545.9 KB
Про Data Engineers и Data Strategy. Хотя если по простому, то имеется ввиду, что нужно сначала создать data foundation, то есть хранилище данных с BI и ETL. Раньше не было data Engineer, был ETL и DWH разработчик, и data mining специалист (data science).
Если интересно про Амазон, то вот мое недавнее выступление в Mail ru https://www.youtube.com/watch?v=qhiZaQl_kbA
YouTube
Как технологии помогают Amazon быть самой клиентоориентированной компанией на Земле?
Дмитрий Аношин, Data Engineer, Amazon Alexa, Boston поделился принципами работы одной из самых успешных компаний в мире.
В статье автор сравнивает ETL и ELT. В канале я уже много раз ссылался на эти абреавиатуры. Согласно википедии, ETL уже используется с 1970х. Главное отличие ETL от ELT, что нам нужны вычислительные мощности (computing) чтобы, читать данные и трансформировать, то есть мы все данные пропускаем через приложение ETL. Поэтому это дорого (нужно сервер и нужно его обслуживать), во-вторых это может быть узким местом во времени обработки. Самые популярные решения это Informatica Power Center, MS SSIS, SAP BODI и другие аналоги от IBM, Oracle, SAS.
В противовес, есть концепт ELT, когда мы используем вычислительные мощности аналитического хранилища данных (Teradata, Exadata, Netezza, Redshift, Snowflake and so on). По сути все трансформации описаны с помощью SQL, а сам ELT иснтрумент оркестрируют, в какой очереди запускать трансформации и какие зависимости. Как результат, дешевле, быстрее и более гибкий.
В конце концов, не важно, что вы используете, лишь бы работало хорошо, обеспечивало SLA, проверяло качество загруженных данных и сообщало о поломках.
В Alexa я использую Matillion ETL для всех бизнес трансформаций и метрик. Наши product managers очень довольны, так как сами могу делать трансформации. Athena для SQL интерфейса в озеров данных на S3. Так же частично Amazon Glue для сбора метаданных озера данных. Из интересного, хотел бы использовать Apache Airflow, но нет времени с ним ковыряться.
Так же работаю иногна со Spark, когда много данных и нужно Big Data Computing. Причем трансформации описываю на SQL. Данные в озере данных всегда в Parquet формате и обязательно партиционированы. С новой фичей Redshift - UNLOAD to Parquet стало легче выгружать данные из Redshift в озеро данных.
В в Alexa очень итересно с точки зрения данных, в качестве источника дынных для меня это Redshift 128 нод (максимальный размер) и озеро данных, то есть миллиарды строк, все это дело надо соединить и посчитать метрики качества на уровне событий и сохранить результат в своем кластере Redshift. А часть данных нады выгрузить в свое озеро данных для front end сервисов. Главная цель, помочь внутренним бизнес подразделениям выявлять проблемы в поведении Alexa и качества моделей.
PS хотел про ETL/ELT написать, а получась гораздо больше, теперь я точно могу сказать, я работал с большими данными, и они растут по экспоненте.
В противовес, есть концепт ELT, когда мы используем вычислительные мощности аналитического хранилища данных (Teradata, Exadata, Netezza, Redshift, Snowflake and so on). По сути все трансформации описаны с помощью SQL, а сам ELT иснтрумент оркестрируют, в какой очереди запускать трансформации и какие зависимости. Как результат, дешевле, быстрее и более гибкий.
В конце концов, не важно, что вы используете, лишь бы работало хорошо, обеспечивало SLA, проверяло качество загруженных данных и сообщало о поломках.
В Alexa я использую Matillion ETL для всех бизнес трансформаций и метрик. Наши product managers очень довольны, так как сами могу делать трансформации. Athena для SQL интерфейса в озеров данных на S3. Так же частично Amazon Glue для сбора метаданных озера данных. Из интересного, хотел бы использовать Apache Airflow, но нет времени с ним ковыряться.
Так же работаю иногна со Spark, когда много данных и нужно Big Data Computing. Причем трансформации описываю на SQL. Данные в озере данных всегда в Parquet формате и обязательно партиционированы. С новой фичей Redshift - UNLOAD to Parquet стало легче выгружать данные из Redshift в озеро данных.
В в Alexa очень итересно с точки зрения данных, в качестве источника дынных для меня это Redshift 128 нод (максимальный размер) и озеро данных, то есть миллиарды строк, все это дело надо соединить и посчитать метрики качества на уровне событий и сохранить результат в своем кластере Redshift. А часть данных нады выгрузить в свое озеро данных для front end сервисов. Главная цель, помочь внутренним бизнес подразделениям выявлять проблемы в поведении Alexa и качества моделей.
PS хотел про ETL/ELT написать, а получась гораздо больше, теперь я точно могу сказать, я работал с большими данными, и они растут по экспоненте.
Data Science Central
ETL vs ELT: Considering the Advancement of Data Warehouses
ETL stands for Extract, Transform, Load. It has been a traditional way to manage analytics pipelines for decades. With the advent of modern cloud-based data warehouses, such as BigQuery or Redshift, the traditional concept of ETL is changing towards ELT –…