Когда для datalearn мы разберемся с базовыми вещами, хочется начать продвигаться в более серьезные вещи и приносить лучшие практики с запада. Например, хочется разобраться с kedro от quantum black. Сделать небольшой тренинг, в котором будет понятно зачем кедро и какие задачи решает, какие альтернативы существуют и тп. Туда же mlflow, DBT tool, и другие интересные инструменты. Самое главное это заложить фундамент базовых знаний по работе с данными, а потом нанизывать уже более сложные вещи. Кто-нибудь работал с кедро? Может хочет начать ковырять и потом выступить с докладом/презентацией?
YouTube
Introduction to Data Pipelines and Kedro - Writing Data Pipelines With Kedro 1
Data Engineering is a tough job, and it can be made tougher by complex, difficult to understand data pipelines. In this series, we will be covering Kedro and how to use it to make data pipelines easier to read, write, and maintain.
In this video we cover:…
In this video we cover:…
Think Stats with Python https://greenteapress.com/thinkstats2/thinkstats2.pdf
Привет знатокам Spark. У меня вопрос. У меня есть файлов CSV (обычная таблица) 400Гб в S3. Я запустил EMR+Spark. Выбрал 4 рабочих ноды r5a.4xlarge (128GB RAM каждый).
В ноутбуке создал data frame
Запрос выполнялся не очень быстро 20-40 секунд. Я хочу, чтобы он выполнялся за 1 секунду. Оперативки больше 500Gb. Я еще попробую загрузить Parquet вместо CSV - она весит 50гб вместо 400.
В общем мне нужно SQL запросы но супер быстро, что можно подкрутить? Пишите в коментах, спасибо! А я потом расскажу про кейс и добавлю похожий в курс.
В ноутбуке создал data frame
df = spark.read.format("csv").option("header", "true").option("delimiter", '|').load("s3://redshift/intent-CSV/")
а затем создал SQL VIew и написал запрос с фильтром по тексту:df.createOrReplaceTempView("idataset_csv")
agg_sql = """SELECT *
FROM dataset_csv
WHERE text LIKE '%music%' and locale = 'en_US'
and date between '2020-03-31' and '2020-04-05'
"""
log_aggregates_DF = spark.sql(agg_sql)
log_aggregates_DF.show()Запрос выполнялся не очень быстро 20-40 секунд. Я хочу, чтобы он выполнялся за 1 секунду. Оперативки больше 500Gb. Я еще попробую загрузить Parquet вместо CSV - она весит 50гб вместо 400.
В общем мне нужно SQL запросы но супер быстро, что можно подкрутить? Пишите в коментах, спасибо! А я потом расскажу про кейс и добавлю похожий в курс.
Предложили написать книгу про Snowflake. Это отличная возможность написать книгу на английском про облачное хранилище данных. Я думаю это где-то 250-450 старниц. Cookbook жто набор упражнений:
- загрузить данные в DW
- подключить data bricks
- streaming
- и многое другое.
В общем, если хотите написать книгу, то это отличная возможность потратить следующие 6 месяцев с пользой. Книга это отличный актив к резюме.
Я пока не соглашался, но если соберется народ, человека 3, то можно написать.
- загрузить данные в DW
- подключить data bricks
- streaming
- и многое другое.
В общем, если хотите написать книгу, то это отличная возможность потратить следующие 6 месяцев с пользой. Книга это отличный актив к резюме.
Я пока не соглашался, но если соберется народ, человека 3, то можно написать.
А вот про Snowflake на русском, правда статья 2015 года. Много изменилось с тех времен. https://habr.com/ru/company/lifestreet/blog/270167/
Хабр
Обзор первого эластичного хранилища данных Snowflake Elastic Data Warehouse
В нашей компании мы регулярно пробуем и анализируем новые интересные технологии в области хранения и управления большими данными. В апреле с нами связались представители компании Snowflake Computing и...
Завтра будет онлайн вебинар для Microsoft community, где я расскажу про Azure Data Platform https://cloud.pass.org/MeetingDetails.aspx?EventID=15182
Создал первое видео. Оказалось сложно говорить по теме и сделать краткое intro. В итоге зачитал, но зато по делу. Подписывайтесь на канал тоже;)
YouTube
Datalearn INTRO l Вводная информация от Дмитрия Аношина l Data Engineer l Data Literacy l Big Data
Всем привет, это первое видео по обучающей программе портала DataLearn, я немного расскажу о курсе, о себе, почему курс бесплатный, а также о программе которая Вас ждет...
Продолжение, но уже без бумажки!)) https://youtu.be/LHajrS_WaRA
YouTube
Что будет на курсах DataLearn l Getting start with Data Engineering l введение в инженеринг данных
Про ресурс DataLearn и какие курсы вы можете там найти.
Getting start with Data Engineering - введение в инженеринг данных и зачем нам Slack.
Что имеено вас ждет и что мы будем делать на курсе, а также вы узнаете какие навыки вы получите.
Data Literacy -…
Getting start with Data Engineering - введение в инженеринг данных и зачем нам Slack.
Что имеено вас ждет и что мы будем делать на курсе, а также вы узнаете какие навыки вы получите.
Data Literacy -…
На youtube мне теперь рекомендую множество курсов - про SQL, про Python, сегодня даже про Burning Man посмотрел с детьми. Мне очень понравилась эта лекция про Python. (Если уже хотите питонить, то думаю очень полезный курс)
Лектор классно заметил, что не надо учить синтаксис языка. А именно это мы и делаем (мы это люди без ИТ образования). Нужно учить фундаментальные вещи. Точно также как и в data engineering, мы не учим инструменты, мы учим фундаментальные вещи в аналитике. Просто пример, я работаю в Alexa, со мной работает много крутых Data Scientist, Applied Researchers, Phd из топовых университетов, но при этим мои знания им полезные, и я им помогаю творить, опираясь на базовые принципы интграции данных, способов хранения и обработки данных.
Лектор классно заметил, что не надо учить синтаксис языка. А именно это мы и делаем (мы это люди без ИТ образования). Нужно учить фундаментальные вещи. Точно также как и в data engineering, мы не учим инструменты, мы учим фундаментальные вещи в аналитике. Просто пример, я работаю в Alexa, со мной работает много крутых Data Scientist, Applied Researchers, Phd из топовых университетов, но при этим мои знания им полезные, и я им помогаю творить, опираясь на базовые принципы интграции данных, способов хранения и обработки данных.
YouTube
Алгоритмы на Python 3. Лекция №1
Практика: https://judge.mipt.ru/mipt_cs_on_python3/
Telegram-группа: https://t.iss.one/tkhirianov_mipt_cs_on_python3
Спонсировать: https://www.patreon.com/tkhirianov или https://www.paypal.me/tkhirianov
курс: Информатика. Алгоритмы и структуры данных на Python…
Telegram-группа: https://t.iss.one/tkhirianov_mipt_cs_on_python3
Спонсировать: https://www.patreon.com/tkhirianov или https://www.paypal.me/tkhirianov
курс: Информатика. Алгоритмы и структуры данных на Python…
Получается интересно, внутри курсов, рекламируются другие курсы🤣. (это в нашем слаке от datalearn) Скинули про карьерный bootcamp. Есть народ, кто проходил курсы и остался доволен или наоборот не довлен? Я видел одним глазком data science 😴
skillfactory.ru
Карьерный гид: Аналитик данных
Пошаговое руководство на более чем 40 страницах по карьере в анализе данных
17 июня можно узнать, как работает Azure Synapse DW https://info.microsoft.com/Virtual-Event-Azure-Synapse-Analytics-How-It-Works-Registration.html
Microsoft
Azure Synapse Analytics: How It Works
Register for the virtual event Azure Synapse Analytics: How It Works to see technical demos from customers using the newest Azure Synapse features.
Здесь будем делать учебник по Data Engineering https://github.com/Data-Learn/data-engineering и выкладывать инструкции и ресурсы
GitHub
GitHub - Data-Learn/data-engineering: Getting Started with Data Enngineering
Getting Started with Data Enngineering. Contribute to Data-Learn/data-engineering development by creating an account on GitHub.
Автор рассказывает как он от Microsoft BI переквалифицировался в Data Engineer https://dustinvannoy.com/2020/04/07/journey-of-a-data-engineer-part-1/
DUSTIN VANNOY
Journey of a Data Engineer: From College to BI Developer
At my last meetup someone asked the question “What’s the best path to be a great data engineer?” My journey is a more traditional path than many, but required a lot of independent…
Как Amazon запускает новые продукты? Если коротко, то для этого нужно много писать, писать и переписывать, и снова писать, долго и "болезненно", чтобы в итоге появился на свет документ под названием PRFAQ. Вот отличная статья, где расскажут, что это такое. Я и сам недавно это проходил, когда предложил создать новую платформу данных для всех метрик качества Alexa. Чтобы идея зашла, я потратил месяца 2 со своим менеджером, чтобы создать такой документ и "продать его" Senior Leadership. По другому, никто не будет слушать, а power point мы не используем.
Кстати при собеседовании на позиции, начиная со старшего разработчика, вас проверяют на writing skills.
На курсе, я хочу затронуть этот пример PRFAQ
Кстати при собеседовании на позиции, начиная со старшего разработчика, вас проверяют на writing skills.
На курсе, я хочу затронуть этот пример PRFAQ
Medium
PR FAQs for Product Documents
How can you use the customer-centric Press Release & FAQ Product Document format?
А вы смотрели Дудя про Кремнивую Долину? Оказывается в 2019 летом уже было видео с такими же героями🤪
YouTube
Как попасть в Кремниевую Долину.
Здесь все: Иван, Стас, Максим и Коля Давыдов.
Кремниевая долина приманивает мозги со всего мира. Наши люди не исключение. Русскоязычных специалистов можно встретить во всех крупнейших компаниях от Гугла и Фейсбука до Теслы и Эппла. Как попасть в Кремниевую…
Кремниевая долина приманивает мозги со всего мира. Наши люди не исключение. Русскоязычных специалистов можно встретить во всех крупнейших компаниях от Гугла и Фейсбука до Теслы и Эппла. Как попасть в Кремниевую…
Эта книга — азбука компьютерных технологий. Шаг за шагом автор знакомит читателя с сущностью кодирования информации, рассказывает об истории возникновения компьютеров, на практических примерах помогает освоить основные концепции информационных технологий, подробно излагает принципы работы процессора и других устройств компьютера. Написанная живо, доступно, иногда иронично, книга богато иллюстрирована, состоит из 25 глав и предметного указателя. Издание адресовано в первую очередь студентам вузов (как гуманитарных, так и технических), а также всем, кто интересуется принципами создания и работы компьютеров.
https://flibusta.site/b/535358
https://flibusta.site/b/535358