Инжиниринг Данных

DBT tool уже открыла регистрацию на свою конференцию https://coalesce-2021.heysummit.com

3.2K viewsDmitry Anoshin, 14:45

Facebook провел исследования про “silent data corruption”, это когда есть незначительные проблемы в загрузке и трансформации данных, но если посмотреть на проблему в масштабе крупной компании, то это очень плохо.

Engineering at Meta

Mitigating the effects of silent data corruption at scale

What the research is: Silent data corruption, or data errors that go undetected by the larger system, is a widespread problem for large-scale infrastructure systems. This type of corruption can pr…

3.31K viewsDmitry Anoshin, 20:56

Инжиниринг Данных

Microsoft делится onboarding планом для команды Data Science.

Medium

Onboarding to a data science team

A checklist for your first days on the job

3.62K viewsDmitry Anoshin, edited 20:57

Инжиниринг Данных

https://youtu.be/_5VCqVCxS2Q

YouTube

Data Collab Lab | CI/CD with Databricks

Join the next episode of Data Collab Lab hosted by Lee Blackwell and Franco Patano.

Details: Are you struggling with managing the lifecycle of your Data and AI projects in the cloud? Want to learn how to build Continuous Improvement and Continuous Delivery…

3.59K viewsDmitry Anoshin, 04:43

Инжиниринг Данных

4.21K viewsDmitry Anoshin, 05:40

Инжиниринг Данных

Вулканы Камчатки в Tableau public https://public.tableau.com/profile/joti.gautam#!/vizhome/VolcanoesOfKamchatka/Dashboard1

3.5K viewsDmitry Anoshin, edited 23:02

Инжиниринг Данных

Статья, которая рассматривает подходы для data quality

There are two types of data quality issues in this world: those you can predict (known unknowns) and those you can’t (unknown unknowns). Here’s how some of the best data teams are taking a more comprehensive approach to tackling both of them at scale.

Medium

The New Rules of Data Quality

Introducing a better way to manage data quality at scale with testing and observability.

3.9K viewsDmitry Anoshin, 04:05

Инжиниринг Данных

Спустя год, организуем 2ю сессию по Snowflake Vancouver User Group. Спасибо Николаю за его время! Так же у меня meetup по Calgary и Toronto, то есть вся аудитория (пока маленькая) в Канаде по Snowflake нас должна знать и видеть))

Meetup

Not a Meetup member yet? Log in and find groups that host online or in person events and meet people in your local community who share your interests.

3.52K viewsDmitry Anoshin, 21:18

Инжиниринг Данных

https://www.entrepreneur.com/article/269816

Entrepreneur

'Unfair Advantage': What's Yours and How Do You Capitalize on It?

Are you leaving your strongest selling point in your back pocket?

3.09K viewsDmitry Anoshin, 03:45

Инжиниринг Данных

Недавно я писал про AI конференцию Microsoft Gaming Research. Она доступна на YouTube. Это лишь часть, должны быть и другие.

YouTube

AI and Gaming Research Summit 2021 - AI Agents (Day 1 Track 1.1)

AI and Gaming Research Summit 2021 - AI Agents (Day 1 Track 1 Part 1)

Chair: Tommy Thompson, AI and Games

Assisting and Coordinating with Humans
Anca Dragan, University of California, Berkeley

Coordinated Self-Play to Ad-Hoc Teamwork In Bleeding Edge
Sam…

3.12K viewsDmitry Anoshin, 15:06

Инжиниринг Данных

Forwarded from Smart Data (Denis Solovyov)

В прошлом посте я описал навыки, которые необходимы для входа в профессию в работе с данными человеку, который начал свой путь с 0. Также я предоставил ссылки на полезные ресурсы по их освоению.

Пост закончился тем, что после освоения базовых навыков, можно углубляться в одно из 5 направлений и развиваться в нём.

Поэтому, с этого поста я начну писать о навыках, которые нужны в этих направлениях и так же приложу ссылки на полезные курсы, статьи и видео. И начнём мы с направления Data Engineering - моего любимого направления, в котором я развиваюсь сам)

Ок, мы разобрались с экселькой, базами данных, SQL и научились на достаточном уровне пользоваться одним из BI-инструментов. Что учить дальше и в каком порядке, чтобы стать инженером данных? Вот мой список:

1. Принципы ETL/ELT, основные форматы файлов (csv, xlsx, xml, json), архитектура "клиент-сервер", web-технологии (REST API, webhook).
Речь здесь идёт больше о понимании технологий, а не конкретных инструментах. Но для понимания принципов ETL/ELT вы можете установить какой-нибудь ETL-инструмент себе на компьютер (например, Pentaho Data Integration) и попробовать построить относительно простые data-пайплайны.
Лично я сразу пробовал строить ETL-процесс с использованием Python и SQL, но когда я только начинал разбираться в data-инжиниринге, я не знал о ETL-инструментах с графическим интерфейсом:)
Но, если вы никогда не программировали, то такие инструменты будут хорошим вариантом для изучения главного процесса, за который отвечают инженеры данных.
Более того, в готовых ETL-инструментах уже есть встроенные средства для ETL-подсистем. С языком программирования внедрять и использовать ETL-подсистемы сложнее и дольше, поэтому и понять все аспекты ETL получится не так быстро, как с GUI.
В принципе, вы можете даже посмотреть вакансии ETL-разработчиков. Их не так много, как вакансий на data-инженеров, но они есть, и вы можете уже получить реальный опыт построения ETL-процессов в компании.

Полезные ресурсы для изучения:
Модуль про ETL от Data Learn
Что такое REST API
Что такое вебхуки

2. Python. После того, как вы поняли принципы ETL, изучили самые распространённые форматы файлов, с которыми работают инженеры данных и изучили базовые web-технологии, пора учиться строить data-пайплайны с использованием языков программирования.
Конечно, ETL-процессы можно строить и с использованием инструментов с графическим интерфейсом. Но если посмотреть на рынок труда, то в любой вакансии на data-инженера вы увидите как must have Python, Java или Scala. Поэтому, если хотите иметь больше возможностей и зарабатывать больше в этой сфере, нужно знать, как строить ETL с использованием кода.
Моё мнение - код придаёт больше гибкости решению и даёт больше возможностей в плане повышения качества (если вы умело программируете). По моему опыту также скажу, что, используя код, можно снизить стоимость поддержки всей аналитической инфраструктуры в несколько раз.
Также я часто в других каналах вижу вопросы по типу "Нужно учить только Python или Java/Scala?", "Почему учить Python, а не Java/Scala?" и т.д. Мой ответ: если у вас не было до этого опыта программирования, учите Python и только его. Точно не нужно распыляться на несколько языков. Python проще в освоении за счёт своей простоты синтаксиса и хорошей читабельности чужого кода. И он встречается как требование в большинстве вакансий. Да, Java и Scala быстрее в плане производительности самого кода (за счёт компиляции в машинный код), но не так много систем, где необходима наивысшая производительность кода. Да и с нынешними возможностями "железа" и облачными технологиями, имеет смысл больше уделять производительности труда инженеров, а не кода. Python как раз отлично подходит для этой цели.
Даже если вам не хватает возможностей Python, есть Spark (PySpark), который, кстати, спроектирован на Scala.
Вакансии с Java и Scala - это хороший вариант для опытных back-end разработчиков, у которых был опыт работы на этих языках и которые хотят переквалифицироваться в data-инженеров.
Процесс изучения Python рекомендую построить следующим образом:

YouTube

DATALEARN | DE - 101 | МОДУЛЬ 4-1 Введение

В 4-ом модуле нашего курса вы узнаете про интеграцию и трансформацию данных - ETL и ELT. Это ключевой элемент в аналитическом решении, с помощью которого мы наполняем данными хранилище данных и автоматизируем загрузку и трансформацию данных. Мы рассмотрим…

2.99K viewsDmitry Anoshin, 23:19

Инжиниринг Данных

https://medium.com/pinterest-engineering/how-pinterest-fights-misinformation-hate-speech-and-self-harm-content-with-machine-learning-1806b73b40ef

Medium

How Pinterest fights misinformation, hate speech, and self-harm content with machine learning

Using the latest in machine learning to eliminate harmful content

2.86K viewsDmitry Anoshin, 04:07

Инжиниринг Данных

Не пропустите наш следующий вебинар 17 марта, на котором выступят эксперты Яндекс Cloud. Я специально попросил их выступить у нас с докладом, так как тема облачных вычислений и облачной аналитики очень важна для профессиональной карьеры современного специалиста по работе с данными и аналитическими решениями. Так же у нас начинается модуль 5, на котором будет больше про AWS и Azure, но у меня совершенно нет опыта с отечественным облаком. Поэтому будет интересно узнать, какие уже доступны решения и какие есть возможности. Возможно вы узнаете, что-то новое, и сможете попробовать облако бесплатно.

Кратко про вебинар:
🔔 Поговорим немного про облака, покажем архитектуру платформы данных Yandex.Cloud (ETL, Решение BigData, Решение Streaming) и рассмотрим реальные кейсы и сценарии решения задач аналитики.

🔔 Покажем демонстрацию инструмента для визуализации Yandex DataLens и обсудим возможности сервиса машинного обучения Yandex DataSphere.

Информация о спикерах:
⚠️ Дмитрий Павлов
С 2009 года тесно работает с масштабируемыми кластерными системами, начиная с высокопроизводительных GPU-ориентированных кластеров и заканчивая распределёнными аналитическими СУБД. С 2013 по 2017 руководил отделом эксплуатации Хранилища Данных банка Тинькофф. С 2017 по 2020 развивал сервисы хранения и обработки больших данных для крупных государственных заказчиков. С 2020 использует весь свой опыт в постройке лучшей платформы данных на базе Yandex.Cloud.

⚠️ Павел Дубинин
Начинал карьеру консультантом по внедрению BI, еще в те времена, когда самыми популярными решениями на рынке были Oracle и IBM, a "Tableau" и "Qlikview" в России еще даже не знали как правильно произносить. Затем проработал 6 лет в одном из этих вендоров и прочувствовал всю ценность и боль корпоративного BI. Сейчас занимается развитием нового облачного инструмента визуализации данных от Яндекс.

⚠️ Алена Дробышевская
Руководитель направления по развитию сервисов машинного обучения.
Помогает команде машинного обучения создавать сервис для разработки и эксплуатации ML-решений в облаках. До Yandex.Cloud возглавляла направление Smart Technologies в компании KPMG, занималась продвижением продуктов направления Data & AI в Microsoft и Oracle.

https://youtu.be/_PhGm2PrQmY

YouTube

ПЛАТФОРМА ДАННЫХ YANDEX.CLOUD ДЛЯ ЗАДАЧ АНАЛИТИКИ: ТЕХНОЛОГИИ, КЕЙСЫ И УНИКАЛЬНЫЕ ВОЗМОЖНОСТИ

🔗 https://datalens.yandex/dmce87bo5nfm7

Промокод:
🔗https://forms.yandex.ru/surveys/10028035.490e81628fdca7d1c846f4d5d4fc7f1305d8a69c/

🔔 Поговорим немного про облака, покажем архитектуру платформы данных Yandex.Cloud (ETL, Решение BigData, Решение Streaming)…

3.89K viewsDmitry Anoshin, 05:01

Инжиниринг Данных

Наше карьерный эксперт Анастасия Дробышева опубликовала следующий урок (3й) своего курса Job-Hunting 101

Исследование рынка труда и проверка гипотез.

Что обсуждаем в этом видео:

- что такое гипотеза в поиске работы;
- 3 способа проверки гипотез;
- сколько времени тратить на проверку.

https://youtu.be/V_FVvJr-5MU

YouTube

DATALEARN | JOB HUNTING - 101 | АНАСТАСИЯ ДРОБЫШЕВА | УРОК 1-3 | ИССЛЕДОВАНИЕ РЫНКА ТРУДА

Курс "Поиск работы для аналитических специальностей в России и за рубежом". Модуль JH 1-3. Стратегия поиска работы. Исследование рынка труда и проверка гипотез.

Что обсуждаем в этом видео:

- что такое гипотеза в поиске работы;
- 3 способа проверки гипотез;…

2.75K viewsDmitry Anoshin, 21:46

Инжиниринг Данных

И если вы еще не записались на курс по ML&DS101, то вы много пропускаете! Анастасия Риццо добавила 1й урок 2го модуля

-> Regression: Theory and Algorithms
В этом уроке мы:
Пройдем немного теории Регрессии и некоторые её алгоритмы:
📌 Build and Train ML model
📌 Linear Regression
📌 Ridge
📌 Lasso
📌 Elastic Net
📌 Support Vector Regression
📌 Decision Tree
📌 Random Forest

https://youtu.be/q7dQR_cd8pk

YouTube

ML-101 | Module 02 | Lesson 01| Regression: Theory and Algorithms | Anastasia Rizzo

Курс Getting Started with Machine Learning and Data Science (ML-101).

В этом уроке мы:
Пройдем немного теории Регрессии и некоторые её алгоритмы:
📌 Build and Train ML model
📌 Linear Regression
📌 Ridge
📌 Lasso
📌 Elastic Net
📌 Support Vector…

2.74K viewsDmitry Anoshin, 21:48

Инжиниринг Данных

Собрано огромное количество ресурсов по Аналитике и ML https://github.com/eugeneyan/applied-ml

GitHub

GitHub - eugeneyan/applied-ml: 📚 Papers & tech blogs by companies sharing their work on data science & machine learning in production.

📚 Papers & tech blogs by companies sharing their work on data science & machine learning in production. - eugeneyan/applied-ml

3.15K viewsDmitry Anoshin, 04:24

Инжиниринг Данных

The Big Book of Machine Learning Use Case.pdf

20.2 MB

The Big Book of
Machine Learning
Use Cases от Databricks.

3.98K viewsDmitry Anoshin, 04:27

Инжиниринг Данных

https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/

2.77K viewsDmitry Anoshin, 04:39

Инжиниринг Данных

А это если всерьез решите AI изучать)))

2.84K viewsDmitry Anoshin, 04:49

Инжиниринг Данных

Forwarded from Вастрик.Пынь

🔥 Квантовый Компьютер. Как устроен? Как программировать? Уже?

Сегодня будущее заглянет в наш в дом так глубоко, что в конце поста мы даже напишем свой первый квантовый Hello World и запустим его на настоящем квантовом компьютере.

Кажется, пост получился очень логически красивым и объясняет тему чуть лучше обычных статей в интернете (научрук поста подтверждает!)

Порепостите, пожалуйста. Вдруг кому-то такое всё еще интереснее комнат в клабхаусе :D

https://vas3k.ru/blog/quantum_computing/

2.65K viewsDmitry Anoshin, 15:29

Инжиниринг Данных

Forwarded from Mikhail Kumachev

DE or DIE #6

Друзья, мы рады анонсировать митап #6 нашего сообщества DE or DIE!

Дата и время: 25 марта (четверг) 18:00
Формат: Онлайн (трансляция на YouTube)

Регистрация по ссылке: https://deordie.timepad.ru/event/1584420/

Наши спикеры:
1. Иван Трусов из Databricks с докладом: Delta Lake — table format for large scale storage and analytics
2. Паша Финкельштейн из JetBrains с докладом: Kotlin for Apache Spark: WHY?

(*): Несмотря на англоязычные названия доклады будут на русском языке.

Ждем вас в следующий четверг. Ссылку на трансляцию опубликуем за час до мероприятия.

2.71K viewsDmitry Anoshin, 16:04

About

Blog

Apps

Platform