Я – Дата Инженер | Евгений Виндюков

❤3

1.53K views15:17

This media is not supported in your browser

VIEW IN TELEGRAM

0:17

1.17K views10:41

🔥7❤1

Я – Дата Инженер | Евгений Виндюков

This media is not supported in your browser

VIEW IN TELEGRAM

0:33

1K views14:24

❤‍🔥4❤2

Я – Дата Инженер | Евгений Виндюков

СберУниверситет

Был у нас ДР Трайба и мы поехали на два дня в Сбер Университет! Это такой огромный кампус, в котором можно жить, заниматься спортом, учиться и проводить презентации. Каждому выделяют одноместный номер в отеле (в здании кампуса) со всеми удобствами. Плюс кормят просто шикарно. Помимо завтрака-обеда-ужина у вас еще кофе брейки, на которых можно нереально наесться и так)) На каких-то кофе-брейках я уже просто водичку пил)) настолько наелся.

Также у нас была вечеринка вечером, где также большой выбор напитков, фуршет и так далее. Короче полный фарш.

Вообще суть этих двух дней была в том, что команды представляют свои идеи и предлагают решения для других. Это может быть, как продукт для сотрудников, так и новый продукт для рынка. Что-то может быть продумано до мелочей, а что-то на уровне идеи

продолжение внизу

🔥6❤2

883 views20:56

Я – Дата Инженер | Евгений Виндюков

Мне понравилось, хоть иногда были продукты, которые я честно не понимал, зачем они нужны. Ну не бывает идеального решения. Иногда какие-то технологии пишутся годами и просто так их не повторить. Плюс для меня это было впервые и здесь важно было понять цели трайба и вообще, что мы делаем.

Коротко о трайбе: мы занимаемся маркетингом. Сюда входит СММ, рекламы, таргет, контекст, сквозная аналитика и так далее. Данных просто куча и со всем этим надо грамотно справляться. И здесь есть свои трудности. В особенности с поиском новых рекламных площадок. Поэтому, все новые фишки и тренды, которые выходят в мире, мы сразу пробуем и тестим..

P.S.Кстати много през было, где использовали кандинского для картинок, а также другие нейронки для озвучки голоса или написания текста...

❤4🔥2👏2

969 views20:56

Я – Дата Инженер | Евгений Виндюков

Задача на SQL

Нужно посчитать медиану дохода. Можно написать просто алгоритм, как будете решать. Кто решит, тому трешка в мск в центре!

😁6

1.01K views17:15

Я – Дата Инженер | Евгений Виндюков

Я – Дата Инженер | Евгений Виндюков pinned a file

17:17

Я – Дата Инженер | Евгений Виндюков

Сколько весит таблица?

Нам будут выделять свой собственный кластер, поэтому мы считаем «сколько вешать в граммах». Собственно, как узнать сколько весит таблица, партиция?

Я запускаю в Jupiter notebook:

df.persist()
df.count()

После этого в Spark UI во вкладке Storage появится наша таблица. Можно будет даже проследить, как по мере её вычисления размер в Mb растет. Окончательный вес будет в конце.

Ну а df.count() в ноутбуке покажет количество строк. И не забываем потом чистить хеш unpersist().

Кто как узнает вес данных? Метод с SparkEstimator у меня не пошел - не смог подключить его.. 🤔

❤3👀1

1.05K views16:27

Я – Дата Инженер | Евгений Виндюков

This media is not supported in your browser

VIEW IN TELEGRAM

0:08

929 views07:07

😁4🔥2

Я – Дата Инженер | Евгений Виндюков

Что непонятно?

Anonymous Poll

Как этот Hadoop выглядит?

48%

Что значит разрабатывать витрины данных и как это выглядит?

17%

Что такое вывести в прод?

32%

Чем pandas отличается от spark?

21%

Что такое распределенные вычисления?

21%

Нужны ли оконные функции?

Свой вопрос в комментах

❤2

63 voters942 views15:11

Я – Дата Инженер | Евгений Виндюков

Что значит разрабатывать витрины данных и как это выглядит?

Витрина данных - это просто собранная из других таблиц таблица для аналитиков или дата сатанистов. Представьте у вас есть табличка с id людей и их покупки в магазине. И еще есть табличка, где этот же id, но с названиями городов. И вот для аналитиков нужна витрина, где будут отображены только люди и их города, которые покупают исключительно черный хлеб. И нужно, чтобы эта витрина наполнялась каждый день новыми данными.

Ну вот вы и пишете скрипт, который будет за вас каждый день читать таблицы источники и собирать эту витрину только с определенными качествами.

В чем сложность: в таблицах источниках могут быть пустые значения, запакованные json в строках или по-разному записанные значения. Все это дата инженеру надо поймать и отформатировать. Плюс нужно сразу определить, правильно ли будет витрина писаться, с какой периодичностью и с какими полями. Можно дополнять бесконечно. Например витрина при сборке должна обращаться к уже существующей витрине и обновлять некоторые строки или писать новые, учитывая изменения. Вариантов миллион.

Сам скрипт main.py можно запускать в Jupyter notebook руками каждый день. А можно написать DAG в Airflow и это все будет грузиться автоматически само.

👍13❤5🔥3

1.41K views16:25

Я – Дата Инженер | Евгений Виндюков

Я – Дата Инженер | Евгений Виндюков pinned «Что значит разрабатывать витрины данных и как это выглядит? Витрина данных - это просто собранная из других таблиц таблица для аналитиков или дата сатанистов. Представьте у вас есть табличка с id людей и их покупки в магазине. И еще есть табличка, где этот…»

16:26

Я – Дата Инженер | Евгений Виндюков

Как этот Hadoop выглядит?

Вот внешне никак. Он вообще не на вашем компьютере установлен. Он на серверах. Хабуп это просто распределенное хранение и вычисление данных. Короче ваша таблица в 100гб делится на блоки в 128мб (размер можно ставить любой) и потом они раскидываются по разным сервакам, параллельно дублируясь дважды (количество репликаций можно менять).

НО! У хабупа есть YARN. Это веб интерфейс в котором можно отслеживать как происходят вычисления в реальном времени. Это просто менеджер ресурсов, который показывает сколько у вас машин, сколько памяти, какие приложения сейчас считают и насколько нагружена вся эта канетель.

Я всегда смотрю, как вычисляются мои таблички. Вижу прогресс, сколько загрузилось, а сколько осталось. Оч нужная штука, чтобы оценить насколько вам требуется увеличение мощности в случае, если начнете считать внезапно х2 таблиц.

👍6❤4

1.37K views17:37

About

Blog

Apps

Platform