Инжиниринг Данных
23.5K subscribers
1.98K photos
55 videos
193 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Когда для datalearn мы разберемся с базовыми вещами, хочется начать продвигаться в более серьезные вещи и приносить лучшие практики с запада. Например, хочется разобраться с kedro от quantum black. Сделать небольшой тренинг, в котором будет понятно зачем кедро и какие задачи решает, какие альтернативы существуют и тп. Туда же mlflow, DBT tool, и другие интересные инструменты. Самое главное это заложить фундамент базовых знаний по работе с данными, а потом нанизывать уже более сложные вещи. Кто-нибудь работал с кедро? Может хочет начать ковырять и потом выступить с докладом/презентацией?
Привет знатокам Spark. У меня вопрос. У меня есть файлов CSV (обычная таблица) 400Гб в S3. Я запустил EMR+Spark. Выбрал 4 рабочих ноды r5a.4xlarge (128GB RAM каждый).

В ноутбуке создал data frame
df = spark.read.format("csv").option("header", "true").option("delimiter", '|').load("s3://redshift/intent-CSV/")

а затем создал SQL VIew и написал запрос с фильтром по тексту:

df.createOrReplaceTempView("idataset_csv")
agg_sql = """SELECT *
FROM dataset_csv
WHERE text LIKE '%music%' and locale = 'en_US'
and date between '2020-03-31' and '2020-04-05'
"""
log_aggregates_DF = spark.sql(agg_sql)
log_aggregates_DF.show()


Запрос выполнялся не очень быстро 20-40 секунд. Я хочу, чтобы он выполнялся за 1 секунду. Оперативки больше 500Gb. Я еще попробую загрузить Parquet вместо CSV - она весит 50гб вместо 400.

В общем мне нужно SQL запросы но супер быстро, что можно подкрутить? Пишите в коментах, спасибо! А я потом расскажу про кейс и добавлю похожий в курс.
Предложили написать книгу про Snowflake. Это отличная возможность написать книгу на английском про облачное хранилище данных. Я думаю это где-то 250-450 старниц. Cookbook жто набор упражнений:
- загрузить данные в DW
- подключить data bricks
- streaming
- и многое другое.

В общем, если хотите написать книгу, то это отличная возможность потратить следующие 6 месяцев с пользой. Книга это отличный актив к резюме.

Я пока не соглашался, но если соберется народ, человека 3, то можно написать.
Новинки табло, особенно интересно - новая модель данных.
Завтра будет онлайн вебинар для Microsoft community, где я расскажу про Azure Data Platform https://cloud.pass.org/MeetingDetails.aspx?EventID=15182
Мне кажется 10 лет назад было проще войти в профессию, не было контента, не было множества решений и программ для аналитики. Вот посмотрел, что есть на udemy для data engineering - 10к результатов, там и big data с Hadoop, и ML, в общем каждой твари по паре. Как у вас с этим дела обстоят?
На youtube мне теперь рекомендую множество курсов - про SQL, про Python, сегодня даже про Burning Man посмотрел с детьми. Мне очень понравилась эта лекция про Python. (Если уже хотите питонить, то думаю очень полезный курс)

Лектор классно заметил, что не надо учить синтаксис языка. А именно это мы и делаем (мы это люди без ИТ образования). Нужно учить фундаментальные вещи. Точно также как и в data engineering, мы не учим инструменты, мы учим фундаментальные вещи в аналитике. Просто пример, я работаю в Alexa, со мной работает много крутых Data Scientist, Applied Researchers, Phd из топовых университетов, но при этим мои знания им полезные, и я им помогаю творить, опираясь на базовые принципы интграции данных, способов хранения и обработки данных.
Получается интересно, внутри курсов, рекламируются другие курсы🤣. (это в нашем слаке от datalearn) Скинули про карьерный bootcamp. Есть народ, кто проходил курсы и остался доволен или наоборот не довлен? Я видел одним глазком data science 😴
Как Amazon запускает новые продукты? Если коротко, то для этого нужно много писать, писать и переписывать, и снова писать, долго и "болезненно", чтобы в итоге появился на свет документ под названием PRFAQ. Вот отличная статья, где расскажут, что это такое. Я и сам недавно это проходил, когда предложил создать новую платформу данных для всех метрик качества Alexa. Чтобы идея зашла, я потратил месяца 2 со своим менеджером, чтобы создать такой документ и "продать его" Senior Leadership. По другому, никто не будет слушать, а power point мы не используем.

Кстати при собеседовании на позиции, начиная со старшего разработчика, вас проверяют на writing skills.

На курсе, я хочу затронуть этот пример PRFAQ
Эта книга — азбука компьютерных технологий. Шаг за шагом автор знакомит читателя с сущностью кодирования информации, рассказывает об истории возникновения компьютеров, на практических примерах помогает освоить основные концепции информационных технологий, подробно излагает принципы работы процессора и других устройств компьютера. Написанная живо, доступно, иногда иронично, книга богато иллюстрирована, состоит из 25 глав и предметного указателя. Издание адресовано в первую очередь студентам вузов (как гуманитарных, так и технических), а также всем, кто интересуется принципами создания и работы компьютеров.
https://flibusta.site/b/535358