Нашел интересную статью от апреля 2021 в Microsoft WorkLab.
В статье описывается влияние back-to-back meetings на мозговую активность и способность к фокусировке.
Замеры показателей были сделаны с помощью EEG датчиков непосредственно на голове испытуемых (побольше бы таких исследований!).
Саммари такое - мозг у кожаных мешков очень не любит стрессы и переключения контекста. Даже 10-ти минутный перерыв между встречами значительно снижает этот уровень стресса и позволяет куда эффективнее работать.
https://www.microsoft.com/en-us/worklab/work-trend-index/brain-research
В статье описывается влияние back-to-back meetings на мозговую активность и способность к фокусировке.
Замеры показателей были сделаны с помощью EEG датчиков непосредственно на голове испытуемых (побольше бы таких исследований!).
Саммари такое - мозг у кожаных мешков очень не любит стрессы и переключения контекста. Даже 10-ти минутный перерыв между встречами значительно снижает этот уровень стресса и позволяет куда эффективнее работать.
https://www.microsoft.com/en-us/worklab/work-trend-index/brain-research
🔥5
Из практики я часто вижу как при дизайне дата приложений инженеры совершают небольшие ошибки и недочеты, не беря в расчет потенциал роста данных и изменения требований.
По счастью Apache Spark достаточно гибок для того чтобы с его помощью писать выразительный код который может быть вполне себе лишен этих недостатков.
Об этом по ссылке - https://polarpersonal.medium.com/on-the-importance-of-future-proof-data-architectures-and-how-apache-spark-helps-to-build-them-9237f8388476
По счастью Apache Spark достаточно гибок для того чтобы с его помощью писать выразительный код который может быть вполне себе лишен этих недостатков.
Об этом по ссылке - https://polarpersonal.medium.com/on-the-importance-of-future-proof-data-architectures-and-how-apache-spark-helps-to-build-them-9237f8388476
Medium
On the importance of future-proof data architectures, and how Apache Spark helps to build them
Why future-proof is so important for data architectures, and how Apache Spark helps to deliver it?
Fresh off the press - мой новый обширный блогпост о том как на чистом Python и с использованием Spark APIs (никаких ORM!) написать UI-приложение для разметки картинок.
Бонус поинт - все данные лежат в клауд сторадже, следовательно и выгружать свои данные куда-то не надо (как и не надо пытаться запихивать эти картинки в БД).
Работает эта вся магия на связке Dash (Pythonic framework for Data Applications), Databricks Connect “V2” и конечно же Lakehouse.
https://polarpersonal.medium.com/building-an-image-classification-app-with-databricks-connect-v2-and-dash-3c7f855f6e6
Бонус поинт - все данные лежат в клауд сторадже, следовательно и выгружать свои данные куда-то не надо (как и не надо пытаться запихивать эти картинки в БД).
Работает эта вся магия на связке Dash (Pythonic framework for Data Applications), Databricks Connect “V2” и конечно же Lakehouse.
https://polarpersonal.medium.com/building-an-image-classification-app-with-databricks-connect-v2-and-dash-3c7f855f6e6
Medium
Building an image classification app with Databricks Connect “V2” and Dash
Going through the details of setting up and environment and building an image classification app with Databricks Connect and Dash.
👍5
Залетайте послушать про Delta Lake и работу с этим форматом от одного из коммитеров в нативные Delta Lake коннекторы на разных языках (outside of Spark ecosystem).
Robert Pack очень крутой технический эксперт из BASF, и он предметно понимает то, о чем говорит.
📍 Thursday, 15 June 2023, 18:00–19:00 CEST
🔗 RSVP Link
Robert Pack очень крутой технический эксперт из BASF, и он предметно понимает то, о чем говорит.
📍 Thursday, 15 June 2023, 18:00–19:00 CEST
🔗 RSVP Link
❤1👍1
А еще у нас большой эвент намечается - ежегодный Data + AI Summit 2023.
Я в этом году буду его смотреть в Берлине на Watch Party, 28 июня, и буду рад видеть всех кто захочет поболтать про DE/ML.
Помимо Берлина еще куча мест - приходите социализироваться и узнавать о новых направлениях в Lakehouse architectures:
🔗 RSVP Link
Я в этом году буду его смотреть в Берлине на Watch Party, 28 июня, и буду рад видеть всех кто захочет поболтать про DE/ML.
Помимо Берлина еще куча мест - приходите социализироваться и узнавать о новых направлениях в Lakehouse architectures:
🔗 RSVP Link
Databricks
Home | Databricks
Data + AI Summit — The premier event for the global data, analytics and AI community.
👍1
Заглянул в славный город Белград и пообщался с коллегами в недавно открытом R&D офисе Databricks.
Ребята активно ищут талантливых инженеров в новую команду, и готовы обсуждать варианты с релокацией в Белград.
Позиции можно посмотреть вот здесь, и я конечно же буду рад пореферить - пишите в LinkedIn.
Ребята активно ищут талантливых инженеров в новую команду, и готовы обсуждать варианты с релокацией в Белград.
Позиции можно посмотреть вот здесь, и я конечно же буду рад пореферить - пишите в LinkedIn.
Databricks
Announcing Databricks Belgrade Development Center | Databricks Blog
Databricks is expanding with a new development center in Belgrade, Serbia. World-class engineers can join our Belgrade founding team and play a pivotal role in the future trajectory of Databricks' product.
👍3
Пару выходных назад я почитал про концепцию HATEAOS, aka Hypermedia as the Engine of Application State, и фреймворк под названием HTMX.
Если вкратце, то идея HTMX в том чтобы писать как можно меньше client-side кода на JS, а интерактивность обеспечивать путем отправки новых блоков HTML кода обратно с сервера на клиент (в браузер).
Мне показалось что такая концепция хорошо подходит для того чтобы реализовать server-driven UI kit уже на Python.
Идея в целом простая как пробка:
- Python-сервер возвращает на клиента готовую HTML страничку
- действия пользователя на клиенте триггерят события, а htmx эти события заворачивает в вебсокет и отправляет обратно на сервер
- на стороне сервера определяется что и как нужно сделать с этим событием, а в ответ отправляется небольшой кусочек HTML кода, который аккуратно морфится на странице.
После пары выходных за ноутбуком получился небольшой фреймворк под названием schorle. Попробовать его в действии, а так же почитать про его логику можно вот здесь:
https://polarpersonal.medium.com/schorle-testing-the-waters-with-a-python-server-driven-ui-kit-053f85ee6574
Если вкратце, то идея HTMX в том чтобы писать как можно меньше client-side кода на JS, а интерактивность обеспечивать путем отправки новых блоков HTML кода обратно с сервера на клиент (в браузер).
Мне показалось что такая концепция хорошо подходит для того чтобы реализовать server-driven UI kit уже на Python.
Идея в целом простая как пробка:
- Python-сервер возвращает на клиента готовую HTML страничку
- действия пользователя на клиенте триггерят события, а htmx эти события заворачивает в вебсокет и отправляет обратно на сервер
- на стороне сервера определяется что и как нужно сделать с этим событием, а в ответ отправляется небольшой кусочек HTML кода, который аккуратно морфится на странице.
После пары выходных за ноутбуком получился небольшой фреймворк под названием schorle. Попробовать его в действии, а так же почитать про его логику можно вот здесь:
https://polarpersonal.medium.com/schorle-testing-the-waters-with-a-python-server-driven-ui-kit-053f85ee6574
htmx.org
</> htmx ~ HATEOAS
In this essay, Carson Gross explores HATEOAS (Hypermedia as the Engine of Application State), explaining how it enables REST APIs through hypermedia responses and contrasting it with modern JSON-based APIs. Using clear HTML examples, Carson demonstrates how…
❤2🔥1
Продолжаю развивать идею HATEAOS на Python.
В последнюю неделю я чуть переработал логику рендеринга, и как мне кажется даже не смотря на то что в новом подходе частично теряется типизация, с точки зрения чистого dev experience это выглядит куда приятнее.
Ну и поскольку первым делом в любых UI фреймворках все пишут todo, я тоже решил пройти этот путь и вышло довольно удобно - всего 98 строк, причем с хорошей типизацией и разбивкой на компоненты.
Почитать в деталях можно вот тут. А если кому идея прям зашла, welcome в контрибьюторы 🙌
В последнюю неделю я чуть переработал логику рендеринга, и как мне кажется даже не смотря на то что в новом подходе частично теряется типизация, с точки зрения чистого dev experience это выглядит куда приятнее.
Ну и поскольку первым делом в любых UI фреймворках все пишут todo, я тоже решил пройти этот путь и вышло довольно удобно - всего 98 строк, причем с хорошей типизацией и разбивкой на компоненты.
Почитать в деталях можно вот тут. А если кому идея прям зашла, welcome в контрибьюторы 🙌
Medium
Implementing a todo web app with Python and Schorle framework
There are several frameworks for web applications in Python. What if it can be better?
👍4
6 июня в Цюрихе буду рассказывать про CI/CD на Databricks on AWS.
Буду показывать как использовать современный toolset для такой разработки (hatch, DABs, pytest with testcontainers, Github Actions with self-hosted runners).
ссылка на регистрацию - https://aws-experience.com/emea/dach-cee/e/6c859/aws-builders-day
Буду показывать как использовать современный toolset для такой разработки (hatch, DABs, pytest with testcontainers, Github Actions with self-hosted runners).
ссылка на регистрацию - https://aws-experience.com/emea/dach-cee/e/6c859/aws-builders-day
👍6🔥3🤩1
У нас в Databricks EMEA team открылись две позиции для Sr. Specialist Solutions Engineer по тематике DWH ⚡.
Много интересных задач - как миграции так и greenfield проекты, можно работать на ремоуте (но возможен travel up to 30%). Рассматриваем кандидатов с EU work permit, преимущественно в Германии.
🔗 Полное описание позиции здесь
🤝 За рефером можно написать мне в LinkedIn
Много интересных задач - как миграции так и greenfield проекты, можно работать на ремоуте (но возможен travel up to 30%). Рассматриваем кандидатов с EU work permit, преимущественно в Германии.
🔗 Полное описание позиции здесь
🤝 За рефером можно написать мне в LinkedIn
🔥8❤3
Databricks User Group - это отличный способ узнать новое про современные DE/ML/BI решения, а так же нетворкинг (и пиво конечно же!).
В этот раз мы проводим эвент в Кёльне. David Schenk, Lead Data Platform Engineer будет рассказывать real-life кейс от OBI.
Я же скромно поведаю про наш обновленный Databricks Monitoring, с примерами и демо.
📅 Date: October 10, 2024
🕒 Time: 6 PM welcome reception, 6:30 PM starting with the first talk
📍 Location: Infomotion GmbH - Augustinerstraße 10, Köln 50667
🔗 RSVP и программа здесь
В этот раз мы проводим эвент в Кёльне. David Schenk, Lead Data Platform Engineer будет рассказывать real-life кейс от OBI.
Я же скромно поведаю про наш обновленный Databricks Monitoring, с примерами и демо.
📅 Date: October 10, 2024
🕒 Time: 6 PM welcome reception, 6:30 PM starting with the first talk
📍 Location: Infomotion GmbH - Augustinerstraße 10, Köln 50667
🔗 RSVP и программа здесь
Databricks
Databricks Events | Databricks
Join Databricks at GDC to learn about the latest in data engineering, machine learning, and AI. Network with industry experts and discover new innovations.
❤6
Решил написать небольшую серию постов про мое видение прошлого, настоящего и будущего архитектур данных.
Первый про DWH и архитектуры 2000-начала 2010x годов. Если кто что интересное из того периода вспомнит - welcome в комменты 🙂
https://www.linkedin.com/pulse/aevum-data-digitalis-part-1-operations-facts-ivan-trusov-dmnlf
Первый про DWH и архитектуры 2000-начала 2010x годов. Если кто что интересное из того периода вспомнит - welcome в комменты 🙂
https://www.linkedin.com/pulse/aevum-data-digitalis-part-1-operations-facts-ivan-trusov-dmnlf
Linkedin
Aevum Data Digitalis. Part 1 - operations, facts, and dimensions
Working in the data industry over the past several years has been a wild ride with all the new technologies, approaches, and concepts constantly emerging. In this series of blog posts I would like to highlight some of the interesting turns that I've seen…
Закончил большой и обстоятельный пост про проект на нашей новенькой технологии - Databricks Apps, и рассказал в деталях по ссылке ниже.
В целом очень рад что платформа за последние год-полтора обросла технологиями которые позволяют отстроить e2e data application - начиная от ingestion/etl, затем serving, а теперь вот еще и API + UI.
https://www.linkedin.com/posts/ivan-trusov_databricks-databricksapps-react-activity-7260033853610725376-UBGh?utm_source=share&utm_medium=member_desktop
В целом очень рад что платформа за последние год-полтора обросла технологиями которые позволяют отстроить e2e data application - начиная от ingestion/etl, затем serving, а теперь вот еще и API + UI.
https://www.linkedin.com/posts/ivan-trusov_databricks-databricksapps-react-activity-7260033853610725376-UBGh?utm_source=share&utm_medium=member_desktop
Linkedin
Ivan Trusov on LinkedIn: Building data applications with Databricks Apps | 20 comments
Recently, #Databricks released new functionality - the #DatabricksApps. It's a great addition to the existing platform capabilities!
In this article I'm showing an end-to-end example of a data-driven application, with #React and #DeckGL on the frontend,…
In this article I'm showing an end-to-end example of a data-driven application, with #React and #DeckGL on the frontend,…
Fresh off the press - буквально только-только вышла наша e-book по теме Data Governance и Unity Catalog!
Скачать ее можно вот тут - 🔗 Data Governance Architecture Patterns
Я тоже поучаствовал в процессе и написал пару глав, описывая в деталях потенциальную структуру UC metastore и naming conventions.
Скачать ее можно вот тут - 🔗 Data Governance Architecture Patterns
Я тоже поучаствовал в процессе и написал пару глав, описывая в деталях потенциальную структуру UC metastore и naming conventions.
Databricks
Data Governance for Data Architects | Databricks
Simplify your data and AI architecture. This eBook introduces a unified approach to data and AI governance on the Databricks Data Intelligence Platform.
👍6🔥2❤1
Язык Python (как впрочем и любой другой) не без проблем и коммьюнити старается эти проблемы решать.
Помню что где-то в 2023 Python Package Index присылали мне как package maintainer письмо с гигантским вопросником на тему “как нам улучшить project and dependency management”. С тех пор утекло немало воды, и появилась целая плеяда утилит для Python package management - poetry, hatch, flit, rye. Сравнительно недавно вышедший uv мне пока что нравится больше остальных.
Нравится мне он своей быстротой и удобной настройкой - и я думаю что это хорошая идея рассказать о том как использовать uv в Pythonic project в связке с Databricks Asset Bundles.
🔗 Почитать можно вот тут
Помню что где-то в 2023 Python Package Index присылали мне как package maintainer письмо с гигантским вопросником на тему “как нам улучшить project and dependency management”. С тех пор утекло немало воды, и появилась целая плеяда утилит для Python package management - poetry, hatch, flit, rye. Сравнительно недавно вышедший uv мне пока что нравится больше остальных.
Нравится мне он своей быстротой и удобной настройкой - и я думаю что это хорошая идея рассказать о том как использовать uv в Pythonic project в связке с Databricks Asset Bundles.
🔗 Почитать можно вот тут
Linkedin
Modern Python project management with uv and Databricks Asset Bundles
The infrastructure for Python projects has undergone several changes in the last few years. Several years ago, the requirements.
Закончил первый блок работы по добавлению документации к двум нашим Databricks Labs проектам - UCX и DQX.
UCX это migration assistant для Unity Catalog, и для него уже была довольно большая (но не совсем удобная) документация в формате Readme файла. Я этот файл аккуратно раскроил на несколько секций, и получилось вот такое:
- https://databrickslabs.github.io/ucx/
DQX - это наш новый фреймворк для Data Quality. Для него был небольшой Readme, и из него уже получилась вот такая дока - https://databrickslabs.github.io/dqx/
С технической точки зрения в этот раз было решено использовать Docusaurus (dbx docs я писал на mkdocs + mkdocs material). Для стилизации я дополнительно добавил TailwindCSS (самый удобный CSS фреймворк на мой взгляд).
Docusaurus понравился большим набором готовых плагинов и удобной кастомизацией через swizzling. Формат MDX (Markdown + JSX) позволяет очень удобно использовать JSX разметку внутри markdown текста, что удобно читать и редактировать. Если mkdocs опирались на кастомный синтакс внутри .md, вроде такого:
То MDX решает эту же проблему через JSX синтаксис который визуально читается понятнее в большом файле, например:
По итогу MDX как инструмент написания понравился больше, а Docusaurus + MDX отличная связка. Почитать про docusaurus больше можно вот тут.
UCX это migration assistant для Unity Catalog, и для него уже была довольно большая (но не совсем удобная) документация в формате Readme файла. Я этот файл аккуратно раскроил на несколько секций, и получилось вот такое:
- https://databrickslabs.github.io/ucx/
DQX - это наш новый фреймворк для Data Quality. Для него был небольшой Readme, и из него уже получилась вот такая дока - https://databrickslabs.github.io/dqx/
С технической точки зрения в этот раз было решено использовать Docusaurus (dbx docs я писал на mkdocs + mkdocs material). Для стилизации я дополнительно добавил TailwindCSS (самый удобный CSS фреймворк на мой взгляд).
Docusaurus понравился большим набором готовых плагинов и удобной кастомизацией через swizzling. Формат MDX (Markdown + JSX) позволяет очень удобно использовать JSX разметку внутри markdown текста, что удобно читать и редактировать. Если mkdocs опирались на кастомный синтакс внутри .md, вроде такого:
!!! note
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nulla et euismod
nulla. Curabitur feugiat, tortor non consequat finibus, justo purus auctor
massa, nec semper lorem quam in massa.
То MDX решает эту же проблему через JSX синтаксис который визуально читается понятнее в большом файле, например:
<Admonition type="info" title="Deactivating the Virtual Environment">
Before performing a clean installation, deactivate the virtual environment and follow the commands given above.
</Admonition>
По итогу MDX как инструмент написания понравился больше, а Docusaurus + MDX отличная связка. Почитать про docusaurus больше можно вот тут.
docusaurus.io
Swizzling | Docusaurus
Customize your site's appearance through creating your own theme components
❤1
Наш новый product surface - Databricks Apps набирает популярность среди клиентов, и в целом открывает много возможностей как для Data/ML Engineers, так и для Software Developer-ов.
Возможность хостить свои приложения в интегрированной среде непосредственно с данными и ML моделями - это классная вещь, ведь теперь можно имплементировать самые сложные сценарии с user feedback loop и прочим. Вот об этом собственно и буду рассказывать 18 февраля совместно с моими коллегами. Формат будет лайв стрим, покажем демо и с удовольствием поотвечаем на вопросы 🙌
👀 YouTube Stream
🔗 LinkedIn Post
🗓 February 18th at 12:00 EST / 18:00 CET
👍4
Весеннее солнце потихоньку размораживает Берлин, и я даже нашел в себе силы выйти на улицу.
Конечно же исключительно для того чтобы 10 апреля прийти на следующую Databricks Berlin User Group.
Коллеги из dbt будут рассказывать про dbt + data quality with dqx.
Я же расскажу про E2E RAG + sources retrieveal с кастомным чатом на Dash + Databricks Apps. Это довольно интересный проект, в нем полная начинка современных LLM приложений - Vector Search, LLaMa и сопутствующие технологии - langchain, langgraph, mlflow (для ML стороны) + FastApi и Dash с кастомным компонентом для чата. В целом будет довольно глубокий технический контент.
В конце по классике - networking, pizza & drinks.
📍Techspace Eiswerk - Köpenicker Str. 41
🗓 Thursday, 10 April 2025, 18:00 - 21:00
🔗 Зарегистрироваться можно вот тут
Конечно же исключительно для того чтобы 10 апреля прийти на следующую Databricks Berlin User Group.
Коллеги из dbt будут рассказывать про dbt + data quality with dqx.
Я же расскажу про E2E RAG + sources retrieveal с кастомным чатом на Dash + Databricks Apps. Это довольно интересный проект, в нем полная начинка современных LLM приложений - Vector Search, LLaMa и сопутствующие технологии - langchain, langgraph, mlflow (для ML стороны) + FastApi и Dash с кастомным компонентом для чата. В целом будет довольно глубокий технический контент.
В конце по классике - networking, pizza & drinks.
📍Techspace Eiswerk - Köpenicker Str. 41
🗓 Thursday, 10 April 2025, 18:00 - 21:00
🔗 Зарегистрироваться можно вот тут
👍5
27 марта буду в Берлине в рамках Data Intelligence Days рассказывать про AI applications on Databricks Data Intelligence Platform.
Расскажу про e2e цикл построения и деплоя AI apps и агентов - от ingestion до деплоя и governance.
Ну и конечно же не только я один выступаю - будут сессии про Unity Catalog и Databricks SQL, а еще есть возможность записаться на тренинг по SQL analytics and BI.
Эвент бесплатный, а зарегистрироваться можно вот здесь
Расскажу про e2e цикл построения и деплоя AI apps и агентов - от ingestion до деплоя и governance.
Ну и конечно же не только я один выступаю - будут сессии про Unity Catalog и Databricks SQL, а еще есть возможность записаться на тренинг по SQL analytics and BI.
Эвент бесплатный, а зарегистрироваться можно вот здесь
🔥4
В этом году буду (впервые) на Data and AI Summit 2025, да еще и сразу доклад + training!
Мой топик в этом году - это Data applications, и наши Databricks Apps в первую очередь.
Вместе с моим коллегой Giran Moodley мы подготовили 90 минут технического (в первую очередь) контента по следующим вопросам:
- Frameworks & tooling — Pythonic (Dash, Streamlit, Gradio) vs. JS + Python stack
- Development lifecycle — Debugging, issue resolution and best practices
- Testing — Unit, integration and load testing strategies
- CI/CD & deployment — Automating with Databricks Asset Bundles
- Monitoring & observability — OpenTelemetry, metrics collection and analysis
Ссылка на сессию вот тут, трансляция скорее всего будет на сайте саммита и позже выложена на ютуб - и виртуальная часть саммита free for all, достаточно просто зарегистрироваться вот здесь.
Ну а если кто едет in-person, приглашаю на Hands-on training сессию, она будет проходить 11 июня 🔥
Мой топик в этом году - это Data applications, и наши Databricks Apps в первую очередь.
Вместе с моим коллегой Giran Moodley мы подготовили 90 минут технического (в первую очередь) контента по следующим вопросам:
- Frameworks & tooling — Pythonic (Dash, Streamlit, Gradio) vs. JS + Python stack
- Development lifecycle — Debugging, issue resolution and best practices
- Testing — Unit, integration and load testing strategies
- CI/CD & deployment — Automating with Databricks Asset Bundles
- Monitoring & observability — OpenTelemetry, metrics collection and analysis
Ссылка на сессию вот тут, трансляция скорее всего будет на сайте саммита и позже выложена на ютуб - и виртуальная часть саммита free for all, достаточно просто зарегистрироваться вот здесь.
Ну а если кто едет in-person, приглашаю на Hands-on training сессию, она будет проходить 11 июня 🔥
👍5🔥1