Инжиниринг Данных
23.5K subscribers
1.98K photos
55 videos
193 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Друзья, для ресурса https://www.datalearn.ru нам нужно использовать реальные данные для заданий (структурированные и не структурированные данные). У меня есть на примете сайт, который я делал родственникам tradoonline.ru. Типичный пример онлайн магазина, маркетинговые каналы (Adwords, Metrica), данные трафика Google Analytics. То есть хороший пример, чтобы потренироваться, но не солидно.

Поэтому я подумал, что может, кто-то может предоставить датасеты? А может быть ваша компанию захочет принять участие в проекте? Вы даете нам обезличенные данные, мы на них тренируемся в условиях близких к реальным. Такое вот спонсорство (без денег), а данными и кейсами.

У нас уже больше 200 заявок на курс, и мы пытаемся привести впорядок механику сайта, и я заказа трипод на амазоне, скоро придет и я запишу первое видео.

Напомню цель ресурса, помочь вам не столько овладеть навыками data engineer (навыками овладеете, и поймете куда дальше копать, в зависимости от цели) а сколько понять, как можно помочь бизнесу разгрести данные, и извлечь из них ценность. Мы не будем нудеть про настройки хадупа, а постараемся по делу разложить по полочкам базовые вещи, ну и походу подправить.

Был кстати вопрос, почему не положить курс на степик? Степик это крутой ресурс, если вы хотите изучить конкретный предмет. Мы хотим решать комплексную задачу. Часть это задачи, куда пристроить новые навыки, как их монетизировать. Возможно получится создать экосистему и найти компании, которым нужны активные и умные ребята и девчата; Не найдем, тоже неплохо, создадим конкуренцию ребятам из Индии на международном рынке.

В общем, если интересно регистрируемся (это первая официальная реклама😜) .

Отдельное спасибо Роману Понамореву, которые взял на себя обязательства администратора ресурса, создал сайт и делает всякие интеграции по digital marketing. Хотите внести вклад и добавить результат в портфолио? Присоединяйтесь к data ambassadors (после регистрации можно добавиться в slack) и занимайтесь тем, чем вам нравиться;
26 мая попробую провести вебинар с фокусом на Канаду (поэтому и картинки канадские).
Как лучше всего получить доступ к платным ресурсам? Записаться на бету. Например бета Matillion для Azure Synapse (SQL DW) дает доступ к Matillion (можно подтянуть cloud data integration), Azure Data Plarform (можно подтянуть Cloud DW, Databricks, и еще что-нибудь).
Для Rock Your Data Я хочу пост написать про Azure Synapse + ETL Matillion. Для меня ничего нового, теже кейсы что и AWS, но просто надо кнопки нажимать, а может быть кто-то хочет за меня кнопки понажимать? Я скажу, что нужно сделать, дам доступ, а вы уже пофигачите. Зато научитесь и может чего нового узнаете.

Из кейсов:
1)Distribution Styles для Azure DW (это во всех MPP системах)
2)Статистика для DW
3)Партиционирование
4)Polybase и внешние таблицы
5)Загрузка данных из озера данных
6)Отправка уведомлений в Slack
7)Загрузка данных из Google Analytics (или другой системы).

С меня теория и среда разработки. Пишите в личку, если интересно.
Когда для datalearn мы разберемся с базовыми вещами, хочется начать продвигаться в более серьезные вещи и приносить лучшие практики с запада. Например, хочется разобраться с kedro от quantum black. Сделать небольшой тренинг, в котором будет понятно зачем кедро и какие задачи решает, какие альтернативы существуют и тп. Туда же mlflow, DBT tool, и другие интересные инструменты. Самое главное это заложить фундамент базовых знаний по работе с данными, а потом нанизывать уже более сложные вещи. Кто-нибудь работал с кедро? Может хочет начать ковырять и потом выступить с докладом/презентацией?
Привет знатокам Spark. У меня вопрос. У меня есть файлов CSV (обычная таблица) 400Гб в S3. Я запустил EMR+Spark. Выбрал 4 рабочих ноды r5a.4xlarge (128GB RAM каждый).

В ноутбуке создал data frame
df = spark.read.format("csv").option("header", "true").option("delimiter", '|').load("s3://redshift/intent-CSV/")

а затем создал SQL VIew и написал запрос с фильтром по тексту:

df.createOrReplaceTempView("idataset_csv")
agg_sql = """SELECT *
FROM dataset_csv
WHERE text LIKE '%music%' and locale = 'en_US'
and date between '2020-03-31' and '2020-04-05'
"""
log_aggregates_DF = spark.sql(agg_sql)
log_aggregates_DF.show()


Запрос выполнялся не очень быстро 20-40 секунд. Я хочу, чтобы он выполнялся за 1 секунду. Оперативки больше 500Gb. Я еще попробую загрузить Parquet вместо CSV - она весит 50гб вместо 400.

В общем мне нужно SQL запросы но супер быстро, что можно подкрутить? Пишите в коментах, спасибо! А я потом расскажу про кейс и добавлю похожий в курс.
Предложили написать книгу про Snowflake. Это отличная возможность написать книгу на английском про облачное хранилище данных. Я думаю это где-то 250-450 старниц. Cookbook жто набор упражнений:
- загрузить данные в DW
- подключить data bricks
- streaming
- и многое другое.

В общем, если хотите написать книгу, то это отличная возможность потратить следующие 6 месяцев с пользой. Книга это отличный актив к резюме.

Я пока не соглашался, но если соберется народ, человека 3, то можно написать.
Новинки табло, особенно интересно - новая модель данных.
Завтра будет онлайн вебинар для Microsoft community, где я расскажу про Azure Data Platform https://cloud.pass.org/MeetingDetails.aspx?EventID=15182
Мне кажется 10 лет назад было проще войти в профессию, не было контента, не было множества решений и программ для аналитики. Вот посмотрел, что есть на udemy для data engineering - 10к результатов, там и big data с Hadoop, и ML, в общем каждой твари по паре. Как у вас с этим дела обстоят?
На youtube мне теперь рекомендую множество курсов - про SQL, про Python, сегодня даже про Burning Man посмотрел с детьми. Мне очень понравилась эта лекция про Python. (Если уже хотите питонить, то думаю очень полезный курс)

Лектор классно заметил, что не надо учить синтаксис языка. А именно это мы и делаем (мы это люди без ИТ образования). Нужно учить фундаментальные вещи. Точно также как и в data engineering, мы не учим инструменты, мы учим фундаментальные вещи в аналитике. Просто пример, я работаю в Alexa, со мной работает много крутых Data Scientist, Applied Researchers, Phd из топовых университетов, но при этим мои знания им полезные, и я им помогаю творить, опираясь на базовые принципы интграции данных, способов хранения и обработки данных.