Инжиниринг Данных
23.5K subscribers
1.98K photos
55 videos
193 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Привет знатокам Spark. У меня вопрос. У меня есть файлов CSV (обычная таблица) 400Гб в S3. Я запустил EMR+Spark. Выбрал 4 рабочих ноды r5a.4xlarge (128GB RAM каждый).

В ноутбуке создал data frame
df = spark.read.format("csv").option("header", "true").option("delimiter", '|').load("s3://redshift/intent-CSV/")

а затем создал SQL VIew и написал запрос с фильтром по тексту:

df.createOrReplaceTempView("idataset_csv")
agg_sql = """SELECT *
FROM dataset_csv
WHERE text LIKE '%music%' and locale = 'en_US'
and date between '2020-03-31' and '2020-04-05'
"""
log_aggregates_DF = spark.sql(agg_sql)
log_aggregates_DF.show()


Запрос выполнялся не очень быстро 20-40 секунд. Я хочу, чтобы он выполнялся за 1 секунду. Оперативки больше 500Gb. Я еще попробую загрузить Parquet вместо CSV - она весит 50гб вместо 400.

В общем мне нужно SQL запросы но супер быстро, что можно подкрутить? Пишите в коментах, спасибо! А я потом расскажу про кейс и добавлю похожий в курс.
Предложили написать книгу про Snowflake. Это отличная возможность написать книгу на английском про облачное хранилище данных. Я думаю это где-то 250-450 старниц. Cookbook жто набор упражнений:
- загрузить данные в DW
- подключить data bricks
- streaming
- и многое другое.

В общем, если хотите написать книгу, то это отличная возможность потратить следующие 6 месяцев с пользой. Книга это отличный актив к резюме.

Я пока не соглашался, но если соберется народ, человека 3, то можно написать.
Новинки табло, особенно интересно - новая модель данных.
Завтра будет онлайн вебинар для Microsoft community, где я расскажу про Azure Data Platform https://cloud.pass.org/MeetingDetails.aspx?EventID=15182
Мне кажется 10 лет назад было проще войти в профессию, не было контента, не было множества решений и программ для аналитики. Вот посмотрел, что есть на udemy для data engineering - 10к результатов, там и big data с Hadoop, и ML, в общем каждой твари по паре. Как у вас с этим дела обстоят?
На youtube мне теперь рекомендую множество курсов - про SQL, про Python, сегодня даже про Burning Man посмотрел с детьми. Мне очень понравилась эта лекция про Python. (Если уже хотите питонить, то думаю очень полезный курс)

Лектор классно заметил, что не надо учить синтаксис языка. А именно это мы и делаем (мы это люди без ИТ образования). Нужно учить фундаментальные вещи. Точно также как и в data engineering, мы не учим инструменты, мы учим фундаментальные вещи в аналитике. Просто пример, я работаю в Alexa, со мной работает много крутых Data Scientist, Applied Researchers, Phd из топовых университетов, но при этим мои знания им полезные, и я им помогаю творить, опираясь на базовые принципы интграции данных, способов хранения и обработки данных.
Получается интересно, внутри курсов, рекламируются другие курсы🤣. (это в нашем слаке от datalearn) Скинули про карьерный bootcamp. Есть народ, кто проходил курсы и остался доволен или наоборот не довлен? Я видел одним глазком data science 😴
Как Amazon запускает новые продукты? Если коротко, то для этого нужно много писать, писать и переписывать, и снова писать, долго и "болезненно", чтобы в итоге появился на свет документ под названием PRFAQ. Вот отличная статья, где расскажут, что это такое. Я и сам недавно это проходил, когда предложил создать новую платформу данных для всех метрик качества Alexa. Чтобы идея зашла, я потратил месяца 2 со своим менеджером, чтобы создать такой документ и "продать его" Senior Leadership. По другому, никто не будет слушать, а power point мы не используем.

Кстати при собеседовании на позиции, начиная со старшего разработчика, вас проверяют на writing skills.

На курсе, я хочу затронуть этот пример PRFAQ
Эта книга — азбука компьютерных технологий. Шаг за шагом автор знакомит читателя с сущностью кодирования информации, рассказывает об истории возникновения компьютеров, на практических примерах помогает освоить основные концепции информационных технологий, подробно излагает принципы работы процессора и других устройств компьютера. Написанная живо, доступно, иногда иронично, книга богато иллюстрирована, состоит из 25 глав и предметного указателя. Издание адресовано в первую очередь студентам вузов (как гуманитарных, так и технических), а также всем, кто интересуется принципами создания и работы компьютеров.
https://flibusta.site/b/535358
Есть такой ресурс в России - TAdviser. Я их знал еще в 2010 году. Никогда не вдавался в подробности, но думал, что они крутые ребята, пишут про аналитику и ИТ решения. Оказалась это еще один ресурс, целью которого продавать рекламу и зарабатывать на конференциях. Может я не прав, кто нибудь знает про них?

Как-то давно я регистрировался к ним как спикер. Недавно мне прислали письмо:

Дмитрий, добрый день!

9 июня 2020 года TAdviser проводит онлайн-конференцию «Big Data и BI Day».


Я подумал, что это отличная возможно онлайн рассказать про решения в Amazon, про облачные решения для DW/Big Data/Data Lake.

На что я олучил ответ:

Дмитрий, здравствуйте!
Руководство нашей компании отнесло Ваше выступление к категории платных

Я им объяснил, что я ничего не продаю и сам от себя, но не помогло. Я подумал, что это шаражка какая-то из разряда сетевого маркетинга. Подлитесь опытом про ресурс?