Anscombe's Quartet
540 subscribers
107 photos
2 videos
289 links
Data/ML Engineering. Рассуждения по теме и не по теме.
Download Telegram
Сегодня в 23:00 по CET (это 00:00 по Москве), будет стрим-интервью с одним из создателей и ключевых разработчиков Apache Spark и MLflow - Matei Zaharia. Помимо этого, будет Q&A сессия, поэтому если у вас есть вопросы о будущем развития самого фреймворка, индустрии Big Data и ML - стоит заглянуть на стрим и задать их.

https://www.youtube.com/watch?v=rvUxVbpw0TI
Cегодня первый официальный день Spark AI Summit. Как и все эвенты до конца года (видимо), Summit полностью виртуальный. Конференция в этом году очень масштабная - тем, треков и докладов просто огромное количество.

Мне кажется, что наиболее интересные доклады по темам - Distributed DL on GPU, Delta, Mlflow и Apache Arrow. Я думаю что именно этот набор технологий будет обеспечивать edge-technology проекты по ML/Data в ближайшее время. С точки зрения разработки прикладных компонентов под Spark будет еще доклад про Data Source V2 API от DataStax (создатели Cassandra).

Самое время зарегистрироваться, в общем говоря 🙂 - https://databricks.com/sparkaisummit/north-america-2020
Пока тлеющие угольки памяти не подернулись пеплом ностальгии, я спешно дописал следующую часть моих переездных заметок. Собственно о самом переезде там все еще ни слова, зато гораздо больше о процессе собеседований в 2019 году. Конечно ситуация в 2020 внесет свои коррективы и в этот процесс, но карантин же не может быть вечным.

https://telegra.ph/Rocky-Road-to-Berin-Sobesedovaniya-v-Berline---GYG-and-SumUp-p3-06-28

P.S. я довольно давно ничего не писал на великом и могучем (в смысле каких-то больших постов), прошу простить за всевозможные пунктуационные ошибки.
На ближайшем митапе DE or DIE #3, который пройдет в онлайне 16 июля с 19:00 до 21:00 (по мск), вместе с коллегами из Dodo Pizza я буду рассказывать о том, как мы строили пайплайны по стриминговой загрузке данных из Azure MySQL DB в Delta Lake с помощью Spark Streaming на платформе Databricks. Будет много технических деталей и достаточно подробных описаний, конечно же с Q&A секцией в конце.
Регистрируйтесь по ссылке, и заходите в чат сообщества DE or DIE.

https://deordie.timepad.ru/event/1350632/
https://t.iss.one/deordie_chat
This media is not supported in your browser
VIEW IN TELEGRAM
#реклама

От автора: наверное это самая первая реклама на моем канале, но я очень с большим почтением отношусь к МФТИ и считаю его одним из самых сильных вузов страны, поэтому даже немного рад порекламировать их эвенты.

🗣Machine Learning Wednesday - митапы от МФТИ для тех, кто интересуется машинным обучением!

🔥Как оптимизировать нейронные сети и включить ML в процессы компании, не имея для этого размеченных данных! Ближайшие даты:

📅8 июля 17:00 «Компрессия моделей машинного обучения». 📣Выступают: Илья Жариков и Иван Криворотов.
💡Польза: узнаете, как сделать свои модели легче и быстрее, расширив возможные области их применения.
Регистрируйтесь по ссылке https://clck.ru/PV8rB

📅15 июля 17:00 «Использование фреймворка TopicNet для решения задач бизнеса». 📣Выступает: Евгений Егоров.
💡польза: узнаете, как без размеченного датасета и больших бюджетов на вычислительные ресурсы решать практические ML задачи.
Регистрируйтесь по ссылке https://clck.ru/PV8un
Совершенно случайно узнал, что несколько моих репозиториев на GitHub попали в GitHub Archive Program.

Говоря кратко, GAP - это программа, в рамках которой часть репозиториев с GitHub сохраняется на специальные, очень долговечные диски, а затем отправляется на глубину 250 метров в вечную мерзлоту в Арктике. Страничка программы обещает хранить данные около 1000 лет, и передать открытый код будущим поколениям - эдакий Project Zero Dawn.

Прямо скажем, репозитории которые были выбраны из моих - далеко не шедевры программирования, но все же я внутри сильно рад этому, как никак остался в истории 🙂
16 сентября в 10:00 по МСК я буду вести первый вебинар на русском от Databricks.

Расскажу и про концепцию MLOps, и про архитектуры подобных решений, и про возможности нашей платформы - обо всем по порядку.
Будет немного теории и много практики с примером.

Зарегистрироваться можно вот тут.
Мне посчастливилось выступить на DE or DIE #3 (видео здесь), а 1 октября у ребят будет уже 4 по счету митап.
Если можно так сказать, удачное свойство коронавирусной ситуации - это переход многих конференций и митапов в онлайн формат, что дает возможность изучать новое и общаться с другими специалистами не выходя из дома.
Forwarded from Mikhail Kumachev
Коллеги, приветствую!

Мы рады анонсировать очередной митап: DE or DIE #4.
Дата и время: 01.10.2020, начало в 18:00 MSK
Формат: online.

На этот раз нас ждут две контрастные темы, так что вне зависимости от того, занимаетесь ли вы прокладкой ETL-пайплайнов или менеджментом в области данных, вы найдете для себя что-то интересное.

Что в программе:
1. «Своя песочница – как сделать кластер для инженера данных», Артем Селезнев, Senior Data Engineer, Сбербанк
2. «Data governance – что это, зачем, и с чего начать», Андрей Вихров, Главный системный аналитик, Связной

Зарегистрироваться можно здесь:
https://deordie.timepad.ru/event/1435939/
Ох и давно же я ничего сюда не писал. Это неспроста - я был активно занят подготовкой своего первого выступления на Data & AI Summit Europe (который бывший Spark Summit Europe) 2020.

Конечно "выступлением" это назвать можно с натяжкой, поскольку все таки конференция онлайновая, как впрочем и любая конференция во времена ковида.
Особенно для меня неприятен тот факт, что этот Data & AI Summit планировался в Берлине, но корона разрушила все возможные планы.

Меня несколько раз спрашивали о том, как попасть на саммит спикером. Никакого секретного ингредиента не существует - у вас должна быть интересная тема, связанная с обработкой данных в целом, Data Engineering или Data Science задачами и подходами к их решению. Вполне достаточно внимательно следить за анонсами и ждать CfP - Call For Proposals, который в этот раз составил почти 2 недели - вполне достаточный промежуток времени чтобы определиться с темой и накидать с десяток слайдов. Комитет саммита рассматривает все заявки, и уже на основе этого рассмотрения выбирает подходящие темы.

Как пройти комитет? Я бы начал с того, что отсмотрел пару последних саммитов. Какие из выступлений показалось вам самыми полезными и интересными? Вот на них и стоит ориентироваться при составлении собственного proposal deck. Другой вариант - быть data-driven и выбрать топ-10 презентаций последнего года по статистике просмотров на официальном канале.

Ну и наконец - как посмотреть саммит? Все просто - он бесплатный и будет доступен как в онлайне, так и в записи. Зарегистрироваться можно по вот этой ссылке.
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
8 июня Иван Трусов - Solution Architect Databricks в Берлине расскажет нам про платформу Databricks и Lakehouse.

У нас запланирована целая серия вебинаров с русскоговорящими архитекторами Databricks, stay tuned!

Хочу рассказать как со всеми ними познакомился. Так как я внедряю Azure Databricks в Microsoft Gaming/Xbox, то спустя какое-то время я устал париться с поддержкой Azure и ждать неделями их бесполезные ответы, я написал директору Azure Databricks в Microsoft и попросил помочь с CI/CD, в итоге наc соединили с командой архитекторов в Берлине и Амстердаме и я рассказал им про datalearn и попросил выступить. Мир тесен!

PS CI/CD pipeline уже работает!
Немного поработал с фреймворком для написания веб-приложений на Python под названием Streamlit - и описал пример такого приложения в отдельной статейке:

https://polarpersonal.medium.com/building-data-visualization-apps-with-streamlit-and-databricks-sql-54e51bb6b0a8
В Get Your Guide в Берлине ищут Data специалистов по трем направлениям:

- BI Engineer
- Senior BI Engineer
- Senior Data Engineer

Почти 3 года назад я не пошел в GyG и считаю что это была большая ошибка (подробнее писал об этом здесь). У ребят и классная команда и отличный технологический стек, и очень интересные задачи.
смигрировал свои заметки о переезде на медиум, и добавил к ним еще одну часть - непосредственно о выборе компании (а так же о критериях этого самого выбора).

https://polarpersonal.medium.com/rocky-road-to-berin-p4-%D0%B2%D1%8B%D0%B1%D0%BE%D1%80-%D0%BA%D0%BE%D0%BC%D0%BF%D0%B0%D0%BD%D0%B8%D0%B8-124d2db7fa5f
Не так давно я получил сертификат B1 по немецкому языку - рассказываю как учился и как сдавал в посте по ссылке:

https://polarpersonal.medium.com/my-path-to-the-goethe-zertificat-b1-3fc8716e2fbe
Очень интересная статья на VLDB от 2019 года, рассказывающая о техническом устройстве аналитической системы в Google под названием Procella.

Вкратце, Procella - это внутренний SQL query engine для Youtube, отвечающий как за внутреннюю аналитику, так и за аналитические инструменты для конечных пользователей, например владельцев Youtube каналов.

Одно из интересных свойств этой аналитической системы состоит в том, что она умеет совмещать как OLAP нагрузки с тяжелыми join-нами, так и быстрый сервинг и отгрузку статистики за миллисекунды для фронтэнда.

Такие возможности достигаются за счет как классических механизмов, таких как кеширование метаданных и данных, разделенный compute и storage layer и выделенный в отдельный архитектурный блок Ingestion Server, так и внутренних технологий - например свой собственный файловый формат Artus. Согласно статье, дизайн этого формата выполнен таким образом, чтобы представление данных как в памяти, так и на диске не различалось, за счет чего процесс кеширования становится более эффективным.

Так же интересно, что непосредственно данные хранятся в распределенной файловой системе под названием Colossus, которая по своим свойствам частично напоминает классические S3-like хранилища.

Полный текст статьи можно прочитать вот здесь - https://www.vldb.org/pvldb/vol12/p2022-chattopadhyay.pdf
Наша Databricks-команда растет, и мы ищем Solutions Architect в регионе EMEA.

условие - вы уже имеете разрешение на работу в France, Netherlands, Germany, Sweden или готовы к релокейту в одну из этих стран.

Формальное описание позиции здесь - https://databricks.com/company/careers/open-positions/job?gh_jid=5788858002

Можно так же написать мне @renardeinside - я могу зареферить.
Дописал последнюю часть заметок из цикла про переезд в Берлин -про визы и нервы.

Забавно, но с позиции сегодняшнего дня (а ведь три года почти пришло!) те проблемы кажутся абсолютно несущественными и даже надумаными:

https://polarpersonal.medium.com/rocky-road-to-berlin-p5-%D1%84%D0%B8%D0%BD%D0%B0%D0%BB-e6baed597a2d