Anscombe's Quartet

Нашел интересную статью от апреля 2021 в Microsoft WorkLab.

В статье описывается влияние back-to-back meetings на мозговую активность и способность к фокусировке.

Замеры показателей были сделаны с помощью EEG датчиков непосредственно на голове испытуемых (побольше бы таких исследований!).

Саммари такое - мозг у кожаных мешков очень не любит стрессы и переключения контекста. Даже 10-ти минутный перерыв между встречами значительно снижает этот уровень стресса и позволяет куда эффективнее работать.

https://www.microsoft.com/en-us/worklab/work-trend-index/brain-research

🔥5

836 viewsedited 19:02

Anscombe's Quartet

Из практики я часто вижу как при дизайне дата приложений инженеры совершают небольшие ошибки и недочеты, не беря в расчет потенциал роста данных и изменения требований.

По счастью Apache Spark достаточно гибок для того чтобы с его помощью писать выразительный код который может быть вполне себе лишен этих недостатков.

Об этом по ссылке - https://polarpersonal.medium.com/on-the-importance-of-future-proof-data-architectures-and-how-apache-spark-helps-to-build-them-9237f8388476

Medium

On the importance of future-proof data architectures, and how Apache Spark helps to build them

Why future-proof is so important for data architectures, and how Apache Spark helps to deliver it?

839 views21:55

Anscombe's Quartet

Fresh off the press - мой новый обширный блогпост о том как на чистом Python и с использованием Spark APIs (никаких ORM!) написать UI-приложение для разметки картинок.

Бонус поинт - все данные лежат в клауд сторадже, следовательно и выгружать свои данные куда-то не надо (как и не надо пытаться запихивать эти картинки в БД).
Работает эта вся магия на связке Dash (Pythonic framework for Data Applications), Databricks Connect “V2” и конечно же Lakehouse.

https://polarpersonal.medium.com/building-an-image-classification-app-with-databricks-connect-v2-and-dash-3c7f855f6e6

Medium

Building an image classification app with Databricks Connect “V2” and Dash

Going through the details of setting up and environment and building an image classification app with Databricks Connect and Dash.

👍5

858 views18:21

Anscombe's Quartet

Залетайте послушать про Delta Lake и работу с этим форматом от одного из коммитеров в нативные Delta Lake коннекторы на разных языках (outside of Spark ecosystem).
Robert Pack очень крутой технический эксперт из BASF, и он предметно понимает то, о чем говорит.
📍 Thursday, 15 June 2023, 18:00–19:00 CEST
🔗 RSVP Link

❤1👍1

986 views12:56

Anscombe's Quartet

А еще у нас большой эвент намечается - ежегодный Data + AI Summit 2023.

Я в этом году буду его смотреть в Берлине на Watch Party, 28 июня, и буду рад видеть всех кто захочет поболтать про DE/ML.
Помимо Берлина еще куча мест - приходите социализироваться и узнавать о новых направлениях в Lakehouse architectures:

🔗 RSVP Link

Databricks

Home | Databricks

Data + AI Summit — The premier event for the global data, analytics and AI community.

👍1

1.17K viewsedited 11:11

Anscombe's Quartet

Заглянул в славный город Белград и пообщался с коллегами в недавно открытом R&D офисе Databricks.

Ребята активно ищут талантливых инженеров в новую команду, и готовы обсуждать варианты с релокацией в Белград.
Позиции можно посмотреть вот здесь, и я конечно же буду рад пореферить - пишите в LinkedIn.

Databricks

Announcing Databricks Belgrade Development Center | Databricks Blog

Databricks is expanding with a new development center in Belgrade, Serbia. World-class engineers can join our Belgrade founding team and play a pivotal role in the future trajectory of Databricks' product.

👍3

1.92K viewsedited 09:49

Anscombe's Quartet

Пару выходных назад я почитал про концепцию HATEAOS, aka Hypermedia as the Engine of Application State, и фреймворк под названием HTMX.
Если вкратце, то идея HTMX в том чтобы писать как можно меньше client-side кода на JS, а интерактивность обеспечивать путем отправки новых блоков HTML кода обратно с сервера на клиент (в браузер).

Мне показалось что такая концепция хорошо подходит для того чтобы реализовать server-driven UI kit уже на Python.

Идея в целом простая как пробка:
- Python-сервер возвращает на клиента готовую HTML страничку
- действия пользователя на клиенте триггерят события, а htmx эти события заворачивает в вебсокет и отправляет обратно на сервер
- на стороне сервера определяется что и как нужно сделать с этим событием, а в ответ отправляется небольшой кусочек HTML кода, который аккуратно морфится на странице.

После пары выходных за ноутбуком получился небольшой фреймворк под названием schorle. Попробовать его в действии, а так же почитать про его логику можно вот здесь:

https://polarpersonal.medium.com/schorle-testing-the-waters-with-a-python-server-driven-ui-kit-053f85ee6574

htmx.org

</> htmx ~ HATEOAS

In this essay, Carson Gross explores HATEOAS (Hypermedia as the Engine of Application State), explaining how it enables REST APIs through hypermedia responses and contrasting it with modern JSON-based APIs. Using clear HTML examples, Carson demonstrates how…

❤2🔥1

842 views19:41

Anscombe's Quartet

Продолжаю развивать идею HATEAOS на Python.

В последнюю неделю я чуть переработал логику рендеринга, и как мне кажется даже не смотря на то что в новом подходе частично теряется типизация, с точки зрения чистого dev experience это выглядит куда приятнее.

Ну и поскольку первым делом в любых UI фреймворках все пишут todo, я тоже решил пройти этот путь и вышло довольно удобно - всего 98 строк, причем с хорошей типизацией и разбивкой на компоненты.

Почитать в деталях можно вот тут. А если кому идея прям зашла, welcome в контрибьюторы 🙌

Medium

Implementing a todo web app with Python and Schorle framework

There are several frameworks for web applications in Python. What if it can be better?

👍4

942 views21:39

Anscombe's Quartet

6 июня в Цюрихе буду рассказывать про CI/CD на Databricks on AWS.

Буду показывать как использовать современный toolset для такой разработки (hatch, DABs, pytest with testcontainers, Github Actions with self-hosted runners).

ссылка на регистрацию - https://aws-experience.com/emea/dach-cee/e/6c859/aws-builders-day

👍6🔥3🤩1

787 viewsedited 13:30

Anscombe's Quartet

У нас в Databricks EMEA team открылись две позиции для Sr. Specialist Solutions Engineer по тематике DWH ⚡.

Много интересных задач - как миграции так и greenfield проекты, можно работать на ремоуте (но возможен travel up to 30%). Рассматриваем кандидатов с EU work permit, преимущественно в Германии.

🔗 Полное описание позиции здесь
🤝 За рефером можно написать мне в LinkedIn

🔥8❤3

1.25K viewsedited 10:11

Anscombe's Quartet

Databricks User Group - это отличный способ узнать новое про современные DE/ML/BI решения, а так же нетворкинг (и пиво конечно же!).

В этот раз мы проводим эвент в Кёльне. David Schenk, Lead Data Platform Engineer будет рассказывать real-life кейс от OBI.
Я же скромно поведаю про наш обновленный Databricks Monitoring, с примерами и демо.

📅 Date: October 10, 2024
🕒 Time: 6 PM welcome reception, 6:30 PM starting with the first talk
📍 Location: Infomotion GmbH - Augustinerstraße 10, Köln 50667

🔗 RSVP и программа здесь

Databricks

Databricks Events | Databricks

Join Databricks at GDC to learn about the latest in data engineering, machine learning, and AI. Network with industry experts and discover new innovations.

❤6

584 viewsedited 14:40

Anscombe's Quartet

Решил написать небольшую серию постов про мое видение прошлого, настоящего и будущего архитектур данных.

Первый про DWH и архитектуры 2000-начала 2010x годов. Если кто что интересное из того периода вспомнит - welcome в комменты 🙂

https://www.linkedin.com/pulse/aevum-data-digitalis-part-1-operations-facts-ivan-trusov-dmnlf

Aevum Data Digitalis. Part 1 - operations, facts, and dimensions

Working in the data industry over the past several years has been a wild ride with all the new technologies, approaches, and concepts constantly emerging. In this series of blog posts I would like to highlight some of the interesting turns that I've seen…

622 views21:47

Anscombe's Quartet

Закончил большой и обстоятельный пост про проект на нашей новенькой технологии - Databricks Apps, и рассказал в деталях по ссылке ниже.
В целом очень рад что платформа за последние год-полтора обросла технологиями которые позволяют отстроить e2e data application - начиная от ingestion/etl, затем serving, а теперь вот еще и API + UI.

https://www.linkedin.com/posts/ivan-trusov_databricks-databricksapps-react-activity-7260033853610725376-UBGh?utm_source=share&utm_medium=member_desktop

Ivan Trusov on LinkedIn: Building data applications with Databricks Apps | 20 comments

Recently, #Databricks released new functionality - the #DatabricksApps. It's a great addition to the existing platform capabilities!

In this article I'm showing an end-to-end example of a data-driven application, with #React and #DeckGL on the frontend,…

594 views21:15

Anscombe's Quartet

Fresh off the press - буквально только-только вышла наша e-book по теме Data Governance и Unity Catalog!

Скачать ее можно вот тут - 🔗 Data Governance Architecture Patterns

Я тоже поучаствовал в процессе и написал пару глав, описывая в деталях потенциальную структуру UC metastore и naming conventions.

Databricks

Data Governance for Data Architects | Databricks

Simplify your data and AI architecture. This eBook introduces a unified approach to data and AI governance on the Databricks Data Intelligence Platform.

👍6🔥2❤1

534 viewsedited 16:44

Anscombe's Quartet

Язык Python (как впрочем и любой другой) не без проблем и коммьюнити старается эти проблемы решать.

Помню что где-то в 2023 Python Package Index присылали мне как package maintainer письмо с гигантским вопросником на тему “как нам улучшить project and dependency management”. С тех пор утекло немало воды, и появилась целая плеяда утилит для Python package management - poetry, hatch, flit, rye. Сравнительно недавно вышедший uv мне пока что нравится больше остальных.

Нравится мне он своей быстротой и удобной настройкой - и я думаю что это хорошая идея рассказать о том как использовать uv в Pythonic project в связке с Databricks Asset Bundles.

🔗 Почитать можно вот тут

Modern Python project management with uv and Databricks Asset Bundles

The infrastructure for Python projects has undergone several changes in the last few years. Several years ago, the requirements.

605 views22:17

Anscombe's Quartet

Закончил первый блок работы по добавлению документации к двум нашим Databricks Labs проектам - UCX и DQX.

UCX это migration assistant для Unity Catalog, и для него уже была довольно большая (но не совсем удобная) документация в формате Readme файла. Я этот файл аккуратно раскроил на несколько секций, и получилось вот такое:
- https://databrickslabs.github.io/ucx/

DQX - это наш новый фреймворк для Data Quality. Для него был небольшой Readme, и из него уже получилась вот такая дока - https://databrickslabs.github.io/dqx/

С технической точки зрения в этот раз было решено использовать Docusaurus (dbx docs я писал на mkdocs + mkdocs material). Для стилизации я дополнительно добавил TailwindCSS (самый удобный CSS фреймворк на мой взгляд).

Docusaurus понравился большим набором готовых плагинов и удобной кастомизацией через swizzling. Формат MDX (Markdown + JSX) позволяет очень удобно использовать JSX разметку внутри markdown текста, что удобно читать и редактировать. Если mkdocs опирались на кастомный синтакс внутри .md, вроде такого:


!!! note

    Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nulla et euismod
    nulla. Curabitur feugiat, tortor non consequat finibus, justo purus auctor
    massa, nec semper lorem quam in massa.

То MDX решает эту же проблему через JSX синтаксис который визуально читается понятнее в большом файле, например:


<Admonition type="info" title="Deactivating the Virtual Environment">
  Before performing a clean installation, deactivate the virtual environment and follow the commands given above.
</Admonition>

По итогу MDX как инструмент написания понравился больше, а Docusaurus + MDX отличная связка. Почитать про docusaurus больше можно вот тут.

docusaurus.io

Swizzling | Docusaurus

Customize your site's appearance through creating your own theme components

❤1

496 views15:41

Anscombe's Quartet

~~Я у мамы стример~~

Наш новый product surface - Databricks Apps набирает популярность среди клиентов, и в целом открывает много возможностей как для Data/ML Engineers, так и для Software Developer-ов.

Возможность хостить свои приложения в интегрированной среде непосредственно с данными и ML моделями - это классная вещь, ведь теперь можно имплементировать самые сложные сценарии с user feedback loop и прочим. Вот об этом собственно и буду рассказывать 18 февраля совместно с моими коллегами. Формат будет лайв стрим, покажем демо и с удовольствием поотвечаем на вопросы 🙌

👀 YouTube Stream
🔗 LinkedIn Post
🗓 February 18th at 12:00 EST / 18:00 CET

👍4

495 views21:14

Anscombe's Quartet

Весеннее солнце потихоньку размораживает Берлин, и я даже нашел в себе силы выйти на улицу.

Конечно же исключительно для того чтобы 10 апреля прийти на следующую Databricks Berlin User Group.

Коллеги из dbt будут рассказывать про dbt + data quality with dqx.
Я же расскажу про E2E RAG + sources retrieveal с кастомным чатом на Dash + Databricks Apps. Это довольно интересный проект, в нем полная начинка современных LLM приложений - Vector Search, LLaMa и сопутствующие технологии - langchain, langgraph, mlflow (для ML стороны) + FastApi и Dash с кастомным компонентом для чата. В целом будет довольно глубокий технический контент.

В конце по классике - networking, pizza & drinks.

📍Techspace Eiswerk - Köpenicker Str. 41
🗓 Thursday, 10 April 2025, 18:00 - 21:00
🔗 Зарегистрироваться можно вот тут

👍5

512 viewsedited 10:08

Anscombe's Quartet

27 марта буду в Берлине в рамках Data Intelligence Days рассказывать про AI applications on Databricks Data Intelligence Platform.

Расскажу про e2e цикл построения и деплоя AI apps и агентов - от ingestion до деплоя и governance.

Ну и конечно же не только я один выступаю - будут сессии про Unity Catalog и Databricks SQL, а еще есть возможность записаться на тренинг по SQL analytics and BI.

Эвент бесплатный, а зарегистрироваться можно вот здесь

🔥4

447 views13:13

Anscombe's Quartet

В этом году буду (впервые) на Data and AI Summit 2025, да еще и сразу доклад + training!

Мой топик в этом году - это Data applications, и наши Databricks Apps в первую очередь.

Вместе с моим коллегой Giran Moodley мы подготовили 90 минут технического (в первую очередь) контента по следующим вопросам:
- Frameworks & tooling — Pythonic (Dash, Streamlit, Gradio) vs. JS + Python stack
- Development lifecycle — Debugging, issue resolution and best practices
- Testing — Unit, integration and load testing strategies
- CI/CD & deployment — Automating with Databricks Asset Bundles
- Monitoring & observability — OpenTelemetry, metrics collection and analysis

Ссылка на сессию вот тут, трансляция скорее всего будет на сайте саммита и позже выложена на ютуб - и виртуальная часть саммита free for all, достаточно просто зарегистрироваться вот здесь.

Ну а если кто едет in-person, приглашаю на Hands-on training сессию, она будет проходить 11 июня 🔥

👍5🔥1

390 views16:46