Пока тлеющие угольки памяти не подернулись пеплом ностальгии, я спешно дописал следующую часть моих переездных заметок. Собственно о самом переезде там все еще ни слова, зато гораздо больше о процессе собеседований в 2019 году. Конечно ситуация в 2020 внесет свои коррективы и в этот процесс, но карантин же не может быть вечным.
https://telegra.ph/Rocky-Road-to-Berin-Sobesedovaniya-v-Berline---GYG-and-SumUp-p3-06-28
P.S. я довольно давно ничего не писал на великом и могучем (в смысле каких-то больших постов), прошу простить за всевозможные пунктуационные ошибки.
https://telegra.ph/Rocky-Road-to-Berin-Sobesedovaniya-v-Berline---GYG-and-SumUp-p3-06-28
P.S. я довольно давно ничего не писал на великом и могучем (в смысле каких-то больших постов), прошу простить за всевозможные пунктуационные ошибки.
Telegraph
Rocky Road to Berin. Собеседования в Берлине - GYG and SumUp. p3
Третья часть моих заметок про трудоустройство в Берлине. Предыдущая часть заметок здесь. Aren't you tired, mate? После интервью в Zalando я был слегка уставший, но вполне себе окрыленный первым успехом. Мои страхи по поводу языкового барьера потихоньку рассеивались…
На ближайшем митапе DE or DIE #3, который пройдет в онлайне 16 июля с 19:00 до 21:00 (по мск), вместе с коллегами из Dodo Pizza я буду рассказывать о том, как мы строили пайплайны по стриминговой загрузке данных из Azure MySQL DB в Delta Lake с помощью Spark Streaming на платформе Databricks. Будет много технических деталей и достаточно подробных описаний, конечно же с Q&A секцией в конце.
Регистрируйтесь по ссылке, и заходите в чат сообщества DE or DIE.
https://deordie.timepad.ru/event/1350632/
https://t.iss.one/deordie_chat
Регистрируйтесь по ссылке, и заходите в чат сообщества DE or DIE.
https://deordie.timepad.ru/event/1350632/
https://t.iss.one/deordie_chat
deordie.timepad.ru
DE or DIE #3 / События на TimePad.ru
DE or DIE – митап, сделанный дата инженерами для дата инженеров.
This media is not supported in your browser
VIEW IN TELEGRAM
#реклама
От автора: наверное это самая первая реклама на моем канале, но я очень с большим почтением отношусь к МФТИ и считаю его одним из самых сильных вузов страны, поэтому даже немного рад порекламировать их эвенты.
🗣Machine Learning Wednesday - митапы от МФТИ для тех, кто интересуется машинным обучением!
🔥Как оптимизировать нейронные сети и включить ML в процессы компании, не имея для этого размеченных данных! Ближайшие даты:
📅8 июля 17:00 «Компрессия моделей машинного обучения». 📣Выступают: Илья Жариков и Иван Криворотов.
💡Польза: узнаете, как сделать свои модели легче и быстрее, расширив возможные области их применения.
Регистрируйтесь по ссылке https://clck.ru/PV8rB
📅15 июля 17:00 «Использование фреймворка TopicNet для решения задач бизнеса». 📣Выступает: Евгений Егоров.
💡польза: узнаете, как без размеченного датасета и больших бюджетов на вычислительные ресурсы решать практические ML задачи.
Регистрируйтесь по ссылке https://clck.ru/PV8un
От автора: наверное это самая первая реклама на моем канале, но я очень с большим почтением отношусь к МФТИ и считаю его одним из самых сильных вузов страны, поэтому даже немного рад порекламировать их эвенты.
🗣Machine Learning Wednesday - митапы от МФТИ для тех, кто интересуется машинным обучением!
🔥Как оптимизировать нейронные сети и включить ML в процессы компании, не имея для этого размеченных данных! Ближайшие даты:
📅8 июля 17:00 «Компрессия моделей машинного обучения». 📣Выступают: Илья Жариков и Иван Криворотов.
💡Польза: узнаете, как сделать свои модели легче и быстрее, расширив возможные области их применения.
Регистрируйтесь по ссылке https://clck.ru/PV8rB
📅15 июля 17:00 «Использование фреймворка TopicNet для решения задач бизнеса». 📣Выступает: Евгений Егоров.
💡польза: узнаете, как без размеченного датасета и больших бюджетов на вычислительные ресурсы решать практические ML задачи.
Регистрируйтесь по ссылке https://clck.ru/PV8un
Совершенно случайно узнал, что несколько моих репозиториев на GitHub попали в GitHub Archive Program.
Говоря кратко, GAP - это программа, в рамках которой часть репозиториев с GitHub сохраняется на специальные, очень долговечные диски, а затем отправляется на глубину 250 метров в вечную мерзлоту в Арктике. Страничка программы обещает хранить данные около 1000 лет, и передать открытый код будущим поколениям - эдакий Project Zero Dawn.
Прямо скажем, репозитории которые были выбраны из моих - далеко не шедевры программирования, но все же я внутри сильно рад этому, как никак остался в истории 🙂
Говоря кратко, GAP - это программа, в рамках которой часть репозиториев с GitHub сохраняется на специальные, очень долговечные диски, а затем отправляется на глубину 250 метров в вечную мерзлоту в Арктике. Страничка программы обещает хранить данные около 1000 лет, и передать открытый код будущим поколениям - эдакий Project Zero Dawn.
Прямо скажем, репозитории которые были выбраны из моих - далеко не шедевры программирования, но все же я внутри сильно рад этому, как никак остался в истории 🙂
16 сентября в 10:00 по МСК я буду вести первый вебинар на русском от Databricks.
Расскажу и про концепцию MLOps, и про архитектуры подобных решений, и про возможности нашей платформы - обо всем по порядку.
Будет немного теории и много практики с примером.
Зарегистрироваться можно вот тут.
Расскажу и про концепцию MLOps, и про архитектуры подобных решений, и про возможности нашей платформы - обо всем по порядку.
Будет немного теории и много практики с примером.
Зарегистрироваться можно вот тут.
Databricks
Databricks Resources - Webinars, eBooks, Docs | Databricks
Read more of Databricks' resources that include customer stories, ebooks, newsletters, product videos and webinars.
Мне посчастливилось выступить на DE or DIE #3 (видео здесь), а 1 октября у ребят будет уже 4 по счету митап.
Если можно так сказать, удачное свойство коронавирусной ситуации - это переход многих конференций и митапов в онлайн формат, что дает возможность изучать новое и общаться с другими специалистами не выходя из дома.
Если можно так сказать, удачное свойство коронавирусной ситуации - это переход многих конференций и митапов в онлайн формат, что дает возможность изучать новое и общаться с другими специалистами не выходя из дома.
YouTube
DE or DIE #3. Dodo Pizza & Databricks – Разбор реального проекта: E2E пайплайн данных.
Материалы всех наших митапов доступны на GitHub: https://github.com/deordie/deordie-meetups
Наш чат в Telegram: https://t.iss.one/deordie_chat
Новые события сообщества DE or DIE: https://deordie.timepad.ru/events/
Авторы доклада:
Ксения Томак, Дарья Буланова…
Наш чат в Telegram: https://t.iss.one/deordie_chat
Новые события сообщества DE or DIE: https://deordie.timepad.ru/events/
Авторы доклада:
Ксения Томак, Дарья Буланова…
Forwarded from Mikhail Kumachev
Коллеги, приветствую!
Мы рады анонсировать очередной митап: DE or DIE #4.
Дата и время: 01.10.2020, начало в 18:00 MSK
Формат: online.
На этот раз нас ждут две контрастные темы, так что вне зависимости от того, занимаетесь ли вы прокладкой ETL-пайплайнов или менеджментом в области данных, вы найдете для себя что-то интересное.
Что в программе:
1. «Своя песочница – как сделать кластер для инженера данных», Артем Селезнев, Senior Data Engineer, Сбербанк
2. «Data governance – что это, зачем, и с чего начать», Андрей Вихров, Главный системный аналитик, Связной
Зарегистрироваться можно здесь:
https://deordie.timepad.ru/event/1435939/
Мы рады анонсировать очередной митап: DE or DIE #4.
Дата и время: 01.10.2020, начало в 18:00 MSK
Формат: online.
На этот раз нас ждут две контрастные темы, так что вне зависимости от того, занимаетесь ли вы прокладкой ETL-пайплайнов или менеджментом в области данных, вы найдете для себя что-то интересное.
Что в программе:
1. «Своя песочница – как сделать кластер для инженера данных», Артем Селезнев, Senior Data Engineer, Сбербанк
2. «Data governance – что это, зачем, и с чего начать», Андрей Вихров, Главный системный аналитик, Связной
Зарегистрироваться можно здесь:
https://deordie.timepad.ru/event/1435939/
deordie.timepad.ru
DE or DIE #4 / События на TimePad.ru
DE or DIE – митап, сделанный дата инженерами для дата инженеров
Ох и давно же я ничего сюда не писал. Это неспроста - я был активно занят подготовкой своего первого выступления на Data & AI Summit Europe (который бывший Spark Summit Europe) 2020.
Конечно "выступлением" это назвать можно с натяжкой, поскольку все таки конференция онлайновая, как впрочем и любая конференция во времена ковида.
Особенно для меня неприятен тот факт, что этот Data & AI Summit планировался в Берлине, но корона разрушила все возможные планы.
Меня несколько раз спрашивали о том, как попасть на саммит спикером. Никакого секретного ингредиента не существует - у вас должна быть интересная тема, связанная с обработкой данных в целом, Data Engineering или Data Science задачами и подходами к их решению. Вполне достаточно внимательно следить за анонсами и ждать CfP - Call For Proposals, который в этот раз составил почти 2 недели - вполне достаточный промежуток времени чтобы определиться с темой и накидать с десяток слайдов. Комитет саммита рассматривает все заявки, и уже на основе этого рассмотрения выбирает подходящие темы.
Как пройти комитет? Я бы начал с того, что отсмотрел пару последних саммитов. Какие из выступлений показалось вам самыми полезными и интересными? Вот на них и стоит ориентироваться при составлении собственного proposal deck. Другой вариант - быть data-driven и выбрать топ-10 презентаций последнего года по статистике просмотров на официальном канале.
Ну и наконец - как посмотреть саммит? Все просто - он бесплатный и будет доступен как в онлайне, так и в записи. Зарегистрироваться можно по вот этой ссылке.
Конечно "выступлением" это назвать можно с натяжкой, поскольку все таки конференция онлайновая, как впрочем и любая конференция во времена ковида.
Особенно для меня неприятен тот факт, что этот Data & AI Summit планировался в Берлине, но корона разрушила все возможные планы.
Меня несколько раз спрашивали о том, как попасть на саммит спикером. Никакого секретного ингредиента не существует - у вас должна быть интересная тема, связанная с обработкой данных в целом, Data Engineering или Data Science задачами и подходами к их решению. Вполне достаточно внимательно следить за анонсами и ждать CfP - Call For Proposals, который в этот раз составил почти 2 недели - вполне достаточный промежуток времени чтобы определиться с темой и накидать с десяток слайдов. Комитет саммита рассматривает все заявки, и уже на основе этого рассмотрения выбирает подходящие темы.
Как пройти комитет? Я бы начал с того, что отсмотрел пару последних саммитов. Какие из выступлений показалось вам самыми полезными и интересными? Вот на них и стоит ориентироваться при составлении собственного proposal deck. Другой вариант - быть data-driven и выбрать топ-10 презентаций последнего года по статистике просмотров на официальном канале.
Ну и наконец - как посмотреть саммит? Все просто - он бесплатный и будет доступен как в онлайне, так и в записи. Зарегистрироваться можно по вот этой ссылке.
Databricks
CI/CD Templates: Continuous Delivery of ML-Enabled Data Pipelines on Databricks - Databricks
Data & ML projects bring many new complexities beyond the traditional software development lifecycle. Unlike software projects, after they were successfully delivered and deployed, they cannot be abandoned but must be continuously monitored if model performance…
потихоньку возвращаюсь в публичное поле - на сей раз буду рассказывать о Databricks для https://datalearn.ru/ 🔥
www.datalearn.ru
Курсы Data | курс инженер данных | курс дата аналитика | инжиниринг данных | DataLearn
⭐⭐⭐⭐⭐ Запишись на курс и получи востребованную специальность дата инженера, дата аналитика и BI аналитика - БЕСПЛАТНО. У нас очень большое и дружелюбное сообщество людей, увлеченных data
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
8 июня Иван Трусов - Solution Architect Databricks в Берлине расскажет нам про платформу Databricks и Lakehouse.
У нас запланирована целая серия вебинаров с русскоговорящими архитекторами Databricks, stay tuned!
Хочу рассказать как со всеми ними познакомился. Так как я внедряю Azure Databricks в Microsoft Gaming/Xbox, то спустя какое-то время я устал париться с поддержкой Azure и ждать неделями их бесполезные ответы, я написал директору Azure Databricks в Microsoft и попросил помочь с CI/CD, в итоге наc соединили с командой архитекторов в Берлине и Амстердаме и я рассказал им про datalearn и попросил выступить. Мир тесен!
PS CI/CD pipeline уже работает!
У нас запланирована целая серия вебинаров с русскоговорящими архитекторами Databricks, stay tuned!
Хочу рассказать как со всеми ними познакомился. Так как я внедряю Azure Databricks в Microsoft Gaming/Xbox, то спустя какое-то время я устал париться с поддержкой Azure и ждать неделями их бесполезные ответы, я написал директору Azure Databricks в Microsoft и попросил помочь с CI/CD, в итоге наc соединили с командой архитекторов в Берлине и Амстердаме и я рассказал им про datalearn и попросил выступить. Мир тесен!
PS CI/CD pipeline уже работает!
Немного поработал с фреймворком для написания веб-приложений на Python под названием Streamlit - и описал пример такого приложения в отдельной статейке:
https://polarpersonal.medium.com/building-data-visualization-apps-with-streamlit-and-databricks-sql-54e51bb6b0a8
https://polarpersonal.medium.com/building-data-visualization-apps-with-streamlit-and-databricks-sql-54e51bb6b0a8
Medium
Building data visualization apps with Streamlit and Databricks SQL
A quick example of building a data visualization app in almost pure Python
В Get Your Guide в Берлине ищут Data специалистов по трем направлениям:
- BI Engineer
- Senior BI Engineer
- Senior Data Engineer
Почти 3 года назад я не пошел в GyG и считаю что это была большая ошибка (подробнее писал об этом здесь). У ребят и классная команда и отличный технологический стек, и очень интересные задачи.
- BI Engineer
- Senior BI Engineer
- Senior Data Engineer
Почти 3 года назад я не пошел в GyG и считаю что это была большая ошибка (подробнее писал об этом здесь). У ребят и классная команда и отличный технологический стек, и очень интересные задачи.
www.getyourguide.careers
Open Roles | Careers at GetYourGuide | Apply now
Explore exciting job opportunities at GetYourGuide. Check out the latest jobs in Berlin, Zurich, and more in teams like engineering, marketing, and product.
смигрировал свои заметки о переезде на медиум, и добавил к ним еще одну часть - непосредственно о выборе компании (а так же о критериях этого самого выбора).
https://polarpersonal.medium.com/rocky-road-to-berin-p4-%D0%B2%D1%8B%D0%B1%D0%BE%D1%80-%D0%BA%D0%BE%D0%BC%D0%BF%D0%B0%D0%BD%D0%B8%D0%B8-124d2db7fa5f
https://polarpersonal.medium.com/rocky-road-to-berin-p4-%D0%B2%D1%8B%D0%B1%D0%BE%D1%80-%D0%BA%D0%BE%D0%BC%D0%BF%D0%B0%D0%BD%D0%B8%D0%B8-124d2db7fa5f
Medium
Rocky Road to Berin, p4. Выбор компании
TL;DR
Не так давно я получил сертификат B1 по немецкому языку - рассказываю как учился и как сдавал в посте по ссылке:
https://polarpersonal.medium.com/my-path-to-the-goethe-zertificat-b1-3fc8716e2fbe
https://polarpersonal.medium.com/my-path-to-the-goethe-zertificat-b1-3fc8716e2fbe
Medium
My path to the B1 Goethe-Zertificat
How to make it to B1 in 2 years if you have a full time job?
Очень интересная статья на VLDB от 2019 года, рассказывающая о техническом устройстве аналитической системы в Google под названием Procella.
Вкратце, Procella - это внутренний SQL query engine для Youtube, отвечающий как за внутреннюю аналитику, так и за аналитические инструменты для конечных пользователей, например владельцев Youtube каналов.
Одно из интересных свойств этой аналитической системы состоит в том, что она умеет совмещать как OLAP нагрузки с тяжелыми join-нами, так и быстрый сервинг и отгрузку статистики за миллисекунды для фронтэнда.
Такие возможности достигаются за счет как классических механизмов, таких как кеширование метаданных и данных, разделенный compute и storage layer и выделенный в отдельный архитектурный блок Ingestion Server, так и внутренних технологий - например свой собственный файловый формат Artus. Согласно статье, дизайн этого формата выполнен таким образом, чтобы представление данных как в памяти, так и на диске не различалось, за счет чего процесс кеширования становится более эффективным.
Так же интересно, что непосредственно данные хранятся в распределенной файловой системе под названием Colossus, которая по своим свойствам частично напоминает классические S3-like хранилища.
Полный текст статьи можно прочитать вот здесь - https://www.vldb.org/pvldb/vol12/p2022-chattopadhyay.pdf
Вкратце, Procella - это внутренний SQL query engine для Youtube, отвечающий как за внутреннюю аналитику, так и за аналитические инструменты для конечных пользователей, например владельцев Youtube каналов.
Одно из интересных свойств этой аналитической системы состоит в том, что она умеет совмещать как OLAP нагрузки с тяжелыми join-нами, так и быстрый сервинг и отгрузку статистики за миллисекунды для фронтэнда.
Такие возможности достигаются за счет как классических механизмов, таких как кеширование метаданных и данных, разделенный compute и storage layer и выделенный в отдельный архитектурный блок Ingestion Server, так и внутренних технологий - например свой собственный файловый формат Artus. Согласно статье, дизайн этого формата выполнен таким образом, чтобы представление данных как в памяти, так и на диске не различалось, за счет чего процесс кеширования становится более эффективным.
Так же интересно, что непосредственно данные хранятся в распределенной файловой системе под названием Colossus, которая по своим свойствам частично напоминает классические S3-like хранилища.
Полный текст статьи можно прочитать вот здесь - https://www.vldb.org/pvldb/vol12/p2022-chattopadhyay.pdf
Наша Databricks-команда растет, и мы ищем Solutions Architect в регионе EMEA.
условие - вы уже имеете разрешение на работу в France, Netherlands, Germany, Sweden или готовы к релокейту в одну из этих стран.
Формальное описание позиции здесь - https://databricks.com/company/careers/open-positions/job?gh_jid=5788858002
Можно так же написать мне @renardeinside - я могу зареферить.
условие - вы уже имеете разрешение на работу в France, Netherlands, Germany, Sweden или готовы к релокейту в одну из этих стран.
Формальное описание позиции здесь - https://databricks.com/company/careers/open-positions/job?gh_jid=5788858002
Можно так же написать мне @renardeinside - я могу зареферить.
Дописал последнюю часть заметок из цикла про переезд в Берлин -про визы и нервы.
Забавно, но с позиции сегодняшнего дня (а ведь три года почти пришло!) те проблемы кажутся абсолютно несущественными и даже надумаными:
https://polarpersonal.medium.com/rocky-road-to-berlin-p5-%D1%84%D0%B8%D0%BD%D0%B0%D0%BB-e6baed597a2d
Забавно, но с позиции сегодняшнего дня (а ведь три года почти пришло!) те проблемы кажутся абсолютно несущественными и даже надумаными:
https://polarpersonal.medium.com/rocky-road-to-berlin-p5-%D1%84%D0%B8%D0%BD%D0%B0%D0%BB-e6baed597a2d
Medium
Rocky Road to Berlin, p5. Финал
“Последняя часть Марлезонского балета”
Очень классная статья от ребят из Dodo Pizza по поводу организации MLOps процесса для ML-моделей определения дефектов пиццы с помощью компьютерного зрения (*cyberpunk music intensifies*).
https://habr.com/ru/company/dododev/blog/595761/
https://habr.com/ru/company/dododev/blog/595761/
Хабр
«У вашей пиццы дно белое!» Определяем дефекты с помощью компьютерного зрения
Наша команда контроллинга получает несколько тысяч отчётов с фотографиями, по которым проверяет качество продуктов и сервисов в Додо Пицце. Это рутинная работа, которую можно автоматизировать с...
👍2🤔1
Forwarded from Время Валеры
Если вы дата-аналатик, дата-инженер, мл-инженер или, прости господи, дата саентист из Украины и хотите уехать, напишите мне @venheads, попробуем вас быстро прособеседовать и увезти в Лондон, сходу вышлем вам дз или тест, чтобы запустить процесс, без скринов и прочего.
Да и в целом, если понимаете что терпеть уже не можете, можно попробовать. Правда пропускная способность у меня весьма ограничена
Да и в целом, если понимаете что терпеть уже не можете, можно попробовать. Правда пропускная способность у меня весьма ограничена
🔥9❤1👍1
Прошел год с того момента как я зарелизил одну из первых версий dbx - CLI тула для работы с Databricks Jobs. Мне кажется я уже достаточно набил шишки, и потому написал пост о моем опыте разработки небольшого OSS проекта
https://dev.to/renardeinside/my-top-5-learnings-from-driving-an-oss-project-2bni
https://dev.to/renardeinside/my-top-5-learnings-from-driving-an-oss-project-2bni
DEV Community
My top 5 learnings from driving an OSS project
Approximately 1 year ago I've released the first version of dbx - a CLI tool for simple and efficient...
👍3