Think Stats with Python https://greenteapress.com/thinkstats2/thinkstats2.pdf
Привет знатокам Spark. У меня вопрос. У меня есть файлов CSV (обычная таблица) 400Гб в S3. Я запустил EMR+Spark. Выбрал 4 рабочих ноды r5a.4xlarge (128GB RAM каждый).
В ноутбуке создал data frame
Запрос выполнялся не очень быстро 20-40 секунд. Я хочу, чтобы он выполнялся за 1 секунду. Оперативки больше 500Gb. Я еще попробую загрузить Parquet вместо CSV - она весит 50гб вместо 400.
В общем мне нужно SQL запросы но супер быстро, что можно подкрутить? Пишите в коментах, спасибо! А я потом расскажу про кейс и добавлю похожий в курс.
В ноутбуке создал data frame
df = spark.read.format("csv").option("header", "true").option("delimiter", '|').load("s3://redshift/intent-CSV/")
а затем создал SQL VIew и написал запрос с фильтром по тексту:df.createOrReplaceTempView("idataset_csv")
agg_sql = """SELECT *
FROM dataset_csv
WHERE text LIKE '%music%' and locale = 'en_US'
and date between '2020-03-31' and '2020-04-05'
"""
log_aggregates_DF = spark.sql(agg_sql)
log_aggregates_DF.show()Запрос выполнялся не очень быстро 20-40 секунд. Я хочу, чтобы он выполнялся за 1 секунду. Оперативки больше 500Gb. Я еще попробую загрузить Parquet вместо CSV - она весит 50гб вместо 400.
В общем мне нужно SQL запросы но супер быстро, что можно подкрутить? Пишите в коментах, спасибо! А я потом расскажу про кейс и добавлю похожий в курс.
Предложили написать книгу про Snowflake. Это отличная возможность написать книгу на английском про облачное хранилище данных. Я думаю это где-то 250-450 старниц. Cookbook жто набор упражнений:
- загрузить данные в DW
- подключить data bricks
- streaming
- и многое другое.
В общем, если хотите написать книгу, то это отличная возможность потратить следующие 6 месяцев с пользой. Книга это отличный актив к резюме.
Я пока не соглашался, но если соберется народ, человека 3, то можно написать.
- загрузить данные в DW
- подключить data bricks
- streaming
- и многое другое.
В общем, если хотите написать книгу, то это отличная возможность потратить следующие 6 месяцев с пользой. Книга это отличный актив к резюме.
Я пока не соглашался, но если соберется народ, человека 3, то можно написать.
А вот про Snowflake на русском, правда статья 2015 года. Много изменилось с тех времен. https://habr.com/ru/company/lifestreet/blog/270167/
Хабр
Обзор первого эластичного хранилища данных Snowflake Elastic Data Warehouse
В нашей компании мы регулярно пробуем и анализируем новые интересные технологии в области хранения и управления большими данными. В апреле с нами связались представители компании Snowflake Computing и...
Завтра будет онлайн вебинар для Microsoft community, где я расскажу про Azure Data Platform https://cloud.pass.org/MeetingDetails.aspx?EventID=15182
Создал первое видео. Оказалось сложно говорить по теме и сделать краткое intro. В итоге зачитал, но зато по делу. Подписывайтесь на канал тоже;)
YouTube
Datalearn INTRO l Вводная информация от Дмитрия Аношина l Data Engineer l Data Literacy l Big Data
Всем привет, это первое видео по обучающей программе портала DataLearn, я немного расскажу о курсе, о себе, почему курс бесплатный, а также о программе которая Вас ждет...
Продолжение, но уже без бумажки!)) https://youtu.be/LHajrS_WaRA
YouTube
Что будет на курсах DataLearn l Getting start with Data Engineering l введение в инженеринг данных
Про ресурс DataLearn и какие курсы вы можете там найти.
Getting start with Data Engineering - введение в инженеринг данных и зачем нам Slack.
Что имеено вас ждет и что мы будем делать на курсе, а также вы узнаете какие навыки вы получите.
Data Literacy -…
Getting start with Data Engineering - введение в инженеринг данных и зачем нам Slack.
Что имеено вас ждет и что мы будем делать на курсе, а также вы узнаете какие навыки вы получите.
Data Literacy -…
На youtube мне теперь рекомендую множество курсов - про SQL, про Python, сегодня даже про Burning Man посмотрел с детьми. Мне очень понравилась эта лекция про Python. (Если уже хотите питонить, то думаю очень полезный курс)
Лектор классно заметил, что не надо учить синтаксис языка. А именно это мы и делаем (мы это люди без ИТ образования). Нужно учить фундаментальные вещи. Точно также как и в data engineering, мы не учим инструменты, мы учим фундаментальные вещи в аналитике. Просто пример, я работаю в Alexa, со мной работает много крутых Data Scientist, Applied Researchers, Phd из топовых университетов, но при этим мои знания им полезные, и я им помогаю творить, опираясь на базовые принципы интграции данных, способов хранения и обработки данных.
Лектор классно заметил, что не надо учить синтаксис языка. А именно это мы и делаем (мы это люди без ИТ образования). Нужно учить фундаментальные вещи. Точно также как и в data engineering, мы не учим инструменты, мы учим фундаментальные вещи в аналитике. Просто пример, я работаю в Alexa, со мной работает много крутых Data Scientist, Applied Researchers, Phd из топовых университетов, но при этим мои знания им полезные, и я им помогаю творить, опираясь на базовые принципы интграции данных, способов хранения и обработки данных.
YouTube
Алгоритмы на Python 3. Лекция №1
Практика: https://judge.mipt.ru/mipt_cs_on_python3/
Telegram-группа: https://t.iss.one/tkhirianov_mipt_cs_on_python3
Спонсировать: https://www.patreon.com/tkhirianov или https://www.paypal.me/tkhirianov
курс: Информатика. Алгоритмы и структуры данных на Python…
Telegram-группа: https://t.iss.one/tkhirianov_mipt_cs_on_python3
Спонсировать: https://www.patreon.com/tkhirianov или https://www.paypal.me/tkhirianov
курс: Информатика. Алгоритмы и структуры данных на Python…
Получается интересно, внутри курсов, рекламируются другие курсы🤣. (это в нашем слаке от datalearn) Скинули про карьерный bootcamp. Есть народ, кто проходил курсы и остался доволен или наоборот не довлен? Я видел одним глазком data science 😴
skillfactory.ru
Карьерный гид: Аналитик данных
Пошаговое руководство на более чем 40 страницах по карьере в анализе данных
17 июня можно узнать, как работает Azure Synapse DW https://info.microsoft.com/Virtual-Event-Azure-Synapse-Analytics-How-It-Works-Registration.html
Microsoft
Azure Synapse Analytics: How It Works
Register for the virtual event Azure Synapse Analytics: How It Works to see technical demos from customers using the newest Azure Synapse features.
Здесь будем делать учебник по Data Engineering https://github.com/Data-Learn/data-engineering и выкладывать инструкции и ресурсы
GitHub
GitHub - Data-Learn/data-engineering: Getting Started with Data Enngineering
Getting Started with Data Enngineering. Contribute to Data-Learn/data-engineering development by creating an account on GitHub.
Автор рассказывает как он от Microsoft BI переквалифицировался в Data Engineer https://dustinvannoy.com/2020/04/07/journey-of-a-data-engineer-part-1/
DUSTIN VANNOY
Journey of a Data Engineer: From College to BI Developer
At my last meetup someone asked the question “What’s the best path to be a great data engineer?” My journey is a more traditional path than many, but required a lot of independent…
Как Amazon запускает новые продукты? Если коротко, то для этого нужно много писать, писать и переписывать, и снова писать, долго и "болезненно", чтобы в итоге появился на свет документ под названием PRFAQ. Вот отличная статья, где расскажут, что это такое. Я и сам недавно это проходил, когда предложил создать новую платформу данных для всех метрик качества Alexa. Чтобы идея зашла, я потратил месяца 2 со своим менеджером, чтобы создать такой документ и "продать его" Senior Leadership. По другому, никто не будет слушать, а power point мы не используем.
Кстати при собеседовании на позиции, начиная со старшего разработчика, вас проверяют на writing skills.
На курсе, я хочу затронуть этот пример PRFAQ
Кстати при собеседовании на позиции, начиная со старшего разработчика, вас проверяют на writing skills.
На курсе, я хочу затронуть этот пример PRFAQ
Medium
PR FAQs for Product Documents
How can you use the customer-centric Press Release & FAQ Product Document format?
А вы смотрели Дудя про Кремнивую Долину? Оказывается в 2019 летом уже было видео с такими же героями🤪
YouTube
Как попасть в Кремниевую Долину.
Здесь все: Иван, Стас, Максим и Коля Давыдов.
Кремниевая долина приманивает мозги со всего мира. Наши люди не исключение. Русскоязычных специалистов можно встретить во всех крупнейших компаниях от Гугла и Фейсбука до Теслы и Эппла. Как попасть в Кремниевую…
Кремниевая долина приманивает мозги со всего мира. Наши люди не исключение. Русскоязычных специалистов можно встретить во всех крупнейших компаниях от Гугла и Фейсбука до Теслы и Эппла. Как попасть в Кремниевую…
Эта книга — азбука компьютерных технологий. Шаг за шагом автор знакомит читателя с сущностью кодирования информации, рассказывает об истории возникновения компьютеров, на практических примерах помогает освоить основные концепции информационных технологий, подробно излагает принципы работы процессора и других устройств компьютера. Написанная живо, доступно, иногда иронично, книга богато иллюстрирована, состоит из 25 глав и предметного указателя. Издание адресовано в первую очередь студентам вузов (как гуманитарных, так и технических), а также всем, кто интересуется принципами создания и работы компьютеров.
https://flibusta.site/b/535358
https://flibusta.site/b/535358
Есть такой ресурс в России - TAdviser. Я их знал еще в 2010 году. Никогда не вдавался в подробности, но думал, что они крутые ребята, пишут про аналитику и ИТ решения. Оказалась это еще один ресурс, целью которого продавать рекламу и зарабатывать на конференциях. Может я не прав, кто нибудь знает про них?
Как-то давно я регистрировался к ним как спикер. Недавно мне прислали письмо:
Дмитрий, добрый день!
9 июня 2020 года TAdviser проводит онлайн-конференцию «Big Data и BI Day».
Я подумал, что это отличная возможно онлайн рассказать про решения в Amazon, про облачные решения для DW/Big Data/Data Lake.
На что я олучил ответ:
Дмитрий, здравствуйте!
Руководство нашей компании отнесло Ваше выступление к категории платных
Я им объяснил, что я ничего не продаю и сам от себя, но не помогло. Я подумал, что это шаражка какая-то из разряда сетевого маркетинга. Подлитесь опытом про ресурс?
Как-то давно я регистрировался к ним как спикер. Недавно мне прислали письмо:
Дмитрий, добрый день!
9 июня 2020 года TAdviser проводит онлайн-конференцию «Big Data и BI Day».
Я подумал, что это отличная возможно онлайн рассказать про решения в Amazon, про облачные решения для DW/Big Data/Data Lake.
На что я олучил ответ:
Дмитрий, здравствуйте!
Руководство нашей компании отнесло Ваше выступление к категории платных
Я им объяснил, что я ничего не продаю и сам от себя, но не помогло. Я подумал, что это шаражка какая-то из разряда сетевого маркетинга. Подлитесь опытом про ресурс?