Инжиниринг Данных

3.76K viewsDmitry Anoshin, 18:42

AWS SageMaker становится все популярнее для задач production ML или простого data science. https://towardsdatascience.com/industrializing-an-ml-platform-with-amazon-sagemaker-studio-91b597802afe

Medium

Industrializing an ML platform with Amazon SageMaker Studio

Steps and considerations when rolling out Studio in an enterprise

3.95K viewsDmitry Anoshin, 00:58

Инжиниринг Данных

#dataengineering

3.97K viewsDmitry Anoshin, 01:37

Инжиниринг Данных

Слышали вы про Shopify? Это такой конструктор интернет магазинов, где есть куча интеграцией. Можно продавать свои продукты, а можно делать drop shipping. Я сам создавал интернет магазины на Wix, WordPress и Shopify. Последний самый дорогой, но и самый приятный.

Сегодня увидел новость про появление Enterprise решений в маркетплейс. То есть это уже другой уровень магазинов и сразу подумал, что им не хватает там приложения data warehouse as a service. То есть пару кликов, и у вас готовые отчёты по вашим данным, и ваши данные живут в моей Redshift или Snowflake. Идея очень старая, и многие продукты так и работают. Но может быть кто-нибудь хочет со мной сделать плагин? Я вот только не по плагинам специалист.

Reuters

Shopify enlists Microsoft, Oracle for business tools on app

Canadian e-commerce platform Shopify Inc is teaming up with top cloud companies including Microsoft Corp and Oracle Corp to help merchants streamline their business operations.

4.03K viewsDmitry Anoshin, 13:55

Инжиниринг Данных

Не думайте, что это только вы обманщик, и у вас симптом самозванца. На другой стороне тоже не пушистые зайчики😵

4.13K viewsDmitry Anoshin, 14:58

Инжиниринг Данных

🔥🔥🔥Давайте поприветствуем подписчика #10000 !!!🎊🎉
Дорогой друг, @kender_T ты как нас нашел?🤗

С ноября 2018 года прошло 3 года почти. Изначально я создал канал для лабы под Snowflake+Tableau workshop на 1м матемаркетинге. Ещё тогда про snowflake никто не знал даже в Канаде. А теперь, у всех по снежинке)))

4.04K viewsDmitry Anoshin, 01:01

Инжиниринг Данных

Все приветики! Накидайте плиз материалы по домашнему обучению детей? А то вдруг путешествовать захотим или еще чего🤪

4.06K viewsDmitry Anoshin, 04:01

Инжиниринг Данных

Очень часто существуют препятствия между аналитиками BI, дата инженерами и бизнес пользователями. Как вы решаете такие проблемы?

Для меня как минимум:
1) Документация проектов (автоматическая! - business data catalog)
2) Еженедельные office hours
3) Ежеквартальные опросы (BI survey как в модуле 3 data learn)
4) Onboarding материалы (лабы, туториалы и видео)

Именно этим сейчас и занимаюсь.

4.16K viewsDmitry Anoshin, 14:38

Инжиниринг Данных

Недавно я общался про дата инженера и Спарк, и меня спросили знаю ли я разницу между multithreading and multiprocessing? А я вот не знаю. Но гугл наверно это услышал и подсунул мне вот такую новость в рекомендации:

https://towardsdatascience.com/multithreading-vs-multiprocessing-in-python-3afeb73e105f

Medium

Multithreading vs. Multiprocessing in Python

Python is often regarded as an almost obscene programming language. A libertarian place where everything is permitted and our wildest…

4.2K viewsDmitry Anoshin, 17:53

Инжиниринг Данных

Forwarded from ivan

https://github.com/adilkhash/Data-Engineering-HowTo

GitHub

GitHub - adilkhash/Data-Engineering-HowTo: A list of useful resources to learn Data Engineering from scratch

A list of useful resources to learn Data Engineering from scratch - adilkhash/Data-Engineering-HowTo

4.57K viewsDmitry Anoshin, 23:23

Инжиниринг Данных

Должна быть полезная книга https://www.oreilly.com/library/view/database-internals/9781492040330/

O’Reilly Online Learning

Database Internals

When it comes to choosing, using, and maintaining a database, understanding its internals is essential. But with so many distributed databases and tools available today, it’s often... - Selection from Database Internals [Book]

4.08K viewsDmitry Anoshin, 06:08

Инжиниринг Данных

Я бы хотел записать модуль datalearn в Half-Life VR. Пример учителя математики - https://youtu.be/R3g9jrqjOZs
Точно учитель года!

YouTube

Math Teacher's Virtual Reality Class In Half-Life Alyx

Want to support Mr. Coomber? https://www.donorschoose.org/classroom/charles-coomber

3.87K viewsDmitry Anoshin, 17:15

Инжиниринг Данных

Если вы не работали в Амазон, вы никогда не поймете это сообщение. А все очень просто, в Амазон 2х факторная авторизация и они использую USB/USB-C токены - https://www.yubico.com/products/

Чтобы его активировать, надо дотронуться и он нагенерит такую строку, вот и получается, что в чатах все время такие сообщения выскакивают, если случайно дотронулся🤗

3.76K viewsDmitry Anoshin, edited 17:31

Инжиниринг Данных

Настолько нехватка Data Engineer в Северной Америке, что Slalom Build решил учить своих. Практически тоже самое, что мы делаем на datalearn, но уже на входе ожидается, что люди знают модуль 1-3 или 1-4, и они обучают облаку и современным тулам.

Вот взяли бы меня директором по data engineering год назад, я бы им помог, но предложили principal data engineer взамен, что было не так интересно.

Последние 3 недели я делал исследование про позицию data engineer. Я пообщался с 20+ компаний в Канаде и Штатах и понял насколько нехватка кадров, просто катастрофическая. Я напишу статью про все эти компании на хабр, про их стек и требования к кандидатам и про то, как важно ценить каждого кандидата и не косячить HR.

Очень часто, когда HR был в процессе, все выходило из под контроля и это только мешало. Самое важное для HR это обратная связь в течение 24ч. Иначе “шеф, все пропало”(с).

3.91K viewsDmitry Anoshin, edited 18:20

Инжиниринг Данных

Можно узнать какие новы фичи готовит нам индустрия у Snowflake:

SNOWDAY - The View Ahead
Snowflake continues its rapid pace of innovation across the Data Cloud. Join this half-day event to hear the latest advancements and how they enable customers to continuously evolve their business in new ways.

https://www.snowflake.com/snowday/?utm_cta=oracle

3.81K viewsDmitry Anoshin, 20:54

Инжиниринг Данных

Пример 1 SQL Style Guide: https://github.com/haleemur/sql-style-guide
Пример 2 SQL Style Guide: https://gist.github.com/mattmc3/38a85e6a4ca1093816c08d4815fbebfb
Пример PySpark Style Guide: https://github.com/palantir/pyspark-style-guide

Какие есть еще варианты по аналитике?

4.66K viewsDmitry Anoshin, edited 22:40

Инжиниринг Данных

"Having things explained in class sounds somewhat complicated but after finding out there is a manga explaining about databases it made me feel relieved that databases isn't as stressful than I thought when I started reading this manga. I recommend this book to those who are visual learners"

4.12K viewsDmitry Anoshin, 00:27

Инжиниринг Данных

Watch as Google Cloud CEO Thomas Kurian shares insights on how businesses can leverage cloud technology to build for the future and adapt to complexities, challenges, and opportunities.
https://youtu.be/6QbKkDibKXg

YouTube

Google Cloud Next Opening Keynote

Watch as Google Cloud CEO Thomas Kurian shares insights on how businesses can leverage cloud technology to build for the future and adapt to complexities, challenges, and opportunities.

Resources:
Watch the keynote in ASL → https://goo.gle/2XdxDGd
Visit…

4.23K viewsDmitry Anoshin, 02:32

Инжиниринг Данных

Сегодня я впервые посвятил день dbt, это результат работы на картинке.

Dbt и Postgres были развернуты в docker, нужно было создать dbt sql модели, чтобы ответить на вопросы и по необходимости использовать зависимости. Все про все заняло почти 7 часов.

Большое спасибо ребята кто пришел в zoom и вы до 1 ночи крутили dbt и docker! День явно прошел не зря!🔥

4.21K viewsDmitry Anoshin, 00:06

Инжиниринг Данных

Бодренько! Migrate Snowflake to Redshift Data Platform. А так можно было?

Amazon

Migrate to an Amazon Redshift Lake House Architecture from Snowflake | Amazon Web Services

The need to derive meaningful and timely insights increases proportionally with the amount of data being collected. Data warehouses play a key role in storing, transforming, and making data easily accessible to enable a wide range of use cases, such as data…

4.12K viewsDmitry Anoshin, 02:23

Инжиниринг Данных

Вот с такой задачкой столкнулся - опубликовал на Stackoverflow.

Идея проста. Spark умеет делать stream. Но это на самом деле больше microbatch, что вполне подходит.

1. Каждый раз, когда новый JSON файл появляется в Azure Blob Storage он его автоматически загружает в dataframe командой spark.read.
2.Дальше мы можешь его минимально трансформировать.
3. И сохранить уже в наше озеро данных, и в нынешних условиях в формате Delta. Но можно и просто классический parquet.

Я сейчас не буду уходить в подробности, как это работает, но на курса datalearn буду, но не скоро🤪

То есть, мы закидывал все новые данные в одну таблицу в потоке, где у нас данные делают APPEND. Дальше, есть несколько вариантов, как прокидывать эти данные в STAGING таблицы, но при условии, что это тоже APPEND.

(APPEND - значит, добавить строки, другая операция OVERWRITE - полностью перезаписать все.)

Интересный момент начинается, когда мне нужно обновить таблицу фактов. Я уже не смогу сделать простой APPEND, мне нужны исторические данные и новые данные, чтобы посчитать, например WINDOW FUNCTIONS и потом обновить изменения.

В классическом DW, мы я буду брать исторические данные, например за 7 дней, и уже писать логику для MERGE (где решать UPDATE или INSERT). В delta lake есть MERGE тоже, но я боюсь он будет умирать на большом объеме и я не понял как сделать переход от Stream к Batch. Конечно, я буду пробовать разные подходы и смотреть как лучше, но вдруг уже кто-то делал и знает как лучше совершать этот переход?

Stack Overflow

Databricks Stream to Batch process

I am using Databricks and I am enjoying Autoloader feature. Basically, it is creating infrastructure to consume data in micro batch fashion. It works nice for the initial raw table (or name it bron...

4.26K viewsDmitry Anoshin, 05:22

About

Blog

Apps

Platform