Anscombe's Quartet
540 subscribers
107 photos
2 videos
289 links
Data/ML Engineering. Рассуждения по теме и не по теме.
Download Telegram
Нашел интересную статью от апреля 2021 в Microsoft WorkLab.

В статье описывается влияние back-to-back meetings на мозговую активность и способность к фокусировке.

Замеры показателей были сделаны с помощью EEG датчиков непосредственно на голове испытуемых (побольше бы таких исследований!).

Саммари такое - мозг у кожаных мешков очень не любит стрессы и переключения контекста. Даже 10-ти минутный перерыв между встречами значительно снижает этот уровень стресса и позволяет куда эффективнее работать.

https://www.microsoft.com/en-us/worklab/work-trend-index/brain-research
🔥5
Из практики я часто вижу как при дизайне дата приложений инженеры совершают небольшие ошибки и недочеты, не беря в расчет потенциал роста данных и изменения требований.

По счастью Apache Spark достаточно гибок для того чтобы с его помощью писать выразительный код который может быть вполне себе лишен этих недостатков.

Об этом по ссылке - https://polarpersonal.medium.com/on-the-importance-of-future-proof-data-architectures-and-how-apache-spark-helps-to-build-them-9237f8388476
Fresh off the press - мой новый обширный блогпост о том как на чистом Python и с использованием Spark APIs (никаких ORM!) написать UI-приложение для разметки картинок.

Бонус поинт - все данные лежат в клауд сторадже, следовательно и выгружать свои данные куда-то не надо (как и не надо пытаться запихивать эти картинки в БД).
Работает эта вся магия на связке Dash (Pythonic framework for Data Applications), Databricks Connect “V2” и конечно же Lakehouse.

https://polarpersonal.medium.com/building-an-image-classification-app-with-databricks-connect-v2-and-dash-3c7f855f6e6
👍5
Залетайте послушать про Delta Lake и работу с этим форматом от одного из коммитеров в нативные Delta Lake коннекторы на разных языках (outside of Spark ecosystem).
Robert Pack очень крутой технический эксперт из BASF, и он предметно понимает то, о чем говорит.
📍 Thursday, 15 June 2023, 18:00–19:00 CEST
🔗 RSVP Link
1👍1
А еще у нас большой эвент намечается - ежегодный Data + AI Summit 2023.

Я в этом году буду его смотреть в Берлине на Watch Party, 28 июня, и буду рад видеть всех кто захочет поболтать про DE/ML.
Помимо Берлина еще куча мест - приходите социализироваться и узнавать о новых направлениях в Lakehouse architectures:

🔗 RSVP Link
👍1
Заглянул в славный город Белград и пообщался с коллегами в недавно открытом R&D офисе Databricks.

Ребята активно ищут талантливых инженеров в новую команду, и готовы обсуждать варианты с релокацией в Белград.
Позиции можно посмотреть вот здесь, и я конечно же буду рад пореферить - пишите в LinkedIn.
👍3
Пару выходных назад я почитал про концепцию HATEAOS, aka Hypermedia as the Engine of Application State, и фреймворк под названием HTMX.
Если вкратце, то идея HTMX в том чтобы писать как можно меньше client-side кода на JS, а интерактивность обеспечивать путем отправки новых блоков HTML кода обратно с сервера на клиент (в браузер).

Мне показалось что такая концепция хорошо подходит для того чтобы реализовать server-driven UI kit уже на Python.

Идея в целом простая как пробка:
- Python-сервер возвращает на клиента готовую HTML страничку
- действия пользователя на клиенте триггерят события, а htmx эти события заворачивает в вебсокет и отправляет обратно на сервер
- на стороне сервера определяется что и как нужно сделать с этим событием, а в ответ отправляется небольшой кусочек HTML кода, который аккуратно морфится на странице.

После пары выходных за ноутбуком получился небольшой фреймворк под названием schorle. Попробовать его в действии, а так же почитать про его логику можно вот здесь:

https://polarpersonal.medium.com/schorle-testing-the-waters-with-a-python-server-driven-ui-kit-053f85ee6574
2🔥1
Продолжаю развивать идею HATEAOS на Python.

В последнюю неделю я чуть переработал логику рендеринга, и как мне кажется даже не смотря на то что в новом подходе частично теряется типизация, с точки зрения чистого dev experience это выглядит куда приятнее.

Ну и поскольку первым делом в любых UI фреймворках все пишут todo, я тоже решил пройти этот путь и вышло довольно удобно - всего 98 строк, причем с хорошей типизацией и разбивкой на компоненты.

Почитать в деталях можно вот тут. А если кому идея прям зашла, welcome в контрибьюторы 🙌
👍4
6 июня в Цюрихе буду рассказывать про CI/CD на Databricks on AWS.

Буду показывать как использовать современный toolset для такой разработки (hatch, DABs, pytest with testcontainers, Github Actions with self-hosted runners).

ссылка на регистрацию - https://aws-experience.com/emea/dach-cee/e/6c859/aws-builders-day
👍6🔥3🤩1
У нас в Databricks EMEA team открылись две позиции для Sr. Specialist Solutions Engineer по тематике DWH .

Много интересных задач - как миграции так и greenfield проекты, можно работать на ремоуте (но возможен travel up to 30%). Рассматриваем кандидатов с EU work permit, преимущественно в Германии.

🔗 Полное описание позиции здесь
🤝 За рефером можно написать мне в LinkedIn
🔥83
Databricks User Group - это отличный способ узнать новое про современные DE/ML/BI решения, а так же нетворкинг (и пиво конечно же!).

В этот раз мы проводим эвент в Кёльне. David Schenk, Lead Data Platform Engineer будет рассказывать real-life кейс от OBI.
Я же скромно поведаю про наш обновленный Databricks Monitoring, с примерами и демо.

📅 Date: October 10, 2024
🕒 Time: 6 PM welcome reception, 6:30 PM starting with the first talk
📍 Location: Infomotion GmbH - Augustinerstraße 10, Köln 50667

🔗 RSVP и программа здесь
6
Решил написать небольшую серию постов про мое видение прошлого, настоящего и будущего архитектур данных.

Первый про DWH и архитектуры 2000-начала 2010x годов. Если кто что интересное из того периода вспомнит - welcome в комменты 🙂

https://www.linkedin.com/pulse/aevum-data-digitalis-part-1-operations-facts-ivan-trusov-dmnlf
Закончил большой и обстоятельный пост про проект на нашей новенькой технологии - Databricks Apps, и рассказал в деталях по ссылке ниже.
В целом очень рад что платформа за последние год-полтора обросла технологиями которые позволяют отстроить e2e data application - начиная от ingestion/etl, затем serving, а теперь вот еще и API + UI.

https://www.linkedin.com/posts/ivan-trusov_databricks-databricksapps-react-activity-7260033853610725376-UBGh?utm_source=share&utm_medium=member_desktop
Fresh off the press - буквально только-только вышла наша e-book по теме Data Governance и Unity Catalog!

Скачать ее можно вот тут - 🔗 Data Governance Architecture Patterns

Я тоже поучаствовал в процессе и написал пару глав, описывая в деталях потенциальную структуру UC metastore и naming conventions.
👍6🔥21
Язык Python (как впрочем и любой другой) не без проблем и коммьюнити старается эти проблемы решать.

Помню что где-то в 2023 Python Package Index присылали мне как package maintainer письмо с гигантским вопросником на тему “как нам улучшить project and dependency management”. С тех пор утекло немало воды, и появилась целая плеяда утилит для Python package management - poetry, hatch, flit, rye. Сравнительно недавно вышедший uv мне пока что нравится больше остальных.

Нравится мне он своей быстротой и удобной настройкой - и я думаю что это хорошая идея рассказать о том как использовать uv в Pythonic project в связке с Databricks Asset Bundles.

🔗 Почитать можно вот тут
Закончил первый блок работы по добавлению документации к двум нашим Databricks Labs проектам - UCX и DQX.

UCX это migration assistant для Unity Catalog, и для него уже была довольно большая (но не совсем удобная) документация в формате Readme файла. Я этот файл аккуратно раскроил на несколько секций, и получилось вот такое:
- https://databrickslabs.github.io/ucx/

DQX - это наш новый фреймворк для Data Quality. Для него был небольшой Readme, и из него уже получилась вот такая дока - https://databrickslabs.github.io/dqx/

С технической точки зрения в этот раз было решено использовать Docusaurus (dbx docs я писал на mkdocs + mkdocs material). Для стилизации я дополнительно добавил TailwindCSS (самый удобный CSS фреймворк на мой взгляд).

Docusaurus понравился большим набором готовых плагинов и удобной кастомизацией через swizzling. Формат MDX (Markdown + JSX) позволяет очень удобно использовать JSX разметку внутри markdown текста, что удобно читать и редактировать. Если mkdocs опирались на кастомный синтакс внутри .md, вроде такого:


!!! note

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Nulla et euismod
nulla. Curabitur feugiat, tortor non consequat finibus, justo purus auctor
massa, nec semper lorem quam in massa.


То MDX решает эту же проблему через JSX синтаксис который визуально читается понятнее в большом файле, например:


<Admonition type="info" title="Deactivating the Virtual Environment">
Before performing a clean installation, deactivate the virtual environment and follow the commands given above.
</Admonition>


По итогу MDX как инструмент написания понравился больше, а Docusaurus + MDX отличная связка. Почитать про docusaurus больше можно вот тут.
1
Я у мамы стример

Наш новый product surface - Databricks Apps набирает популярность среди клиентов, и в целом открывает много возможностей как для Data/ML Engineers, так и для Software Developer-ов.

Возможность хостить свои приложения в интегрированной среде непосредственно с данными и ML моделями - это классная вещь, ведь теперь можно имплементировать самые сложные сценарии с user feedback loop и прочим. Вот об этом собственно и буду рассказывать 18 февраля совместно с моими коллегами. Формат будет лайв стрим, покажем демо и с удовольствием поотвечаем на вопросы 🙌

👀 YouTube Stream
🔗 LinkedIn Post
🗓 February 18th at 12:00 EST / 18:00 CET
👍4
Весеннее солнце потихоньку размораживает Берлин, и я даже нашел в себе силы выйти на улицу.

Конечно же исключительно для того чтобы 10 апреля прийти на следующую Databricks Berlin User Group.

Коллеги из dbt будут рассказывать про dbt + data quality with dqx.
Я же расскажу про E2E RAG + sources retrieveal с кастомным чатом на Dash + Databricks Apps. Это довольно интересный проект, в нем полная начинка современных LLM приложений - Vector Search, LLaMa и сопутствующие технологии - langchain, langgraph, mlflow (для ML стороны) + FastApi и Dash с кастомным компонентом для чата. В целом будет довольно глубокий технический контент.

В конце по классике - networking, pizza & drinks.

📍Techspace Eiswerk - Köpenicker Str. 41
🗓 Thursday, 10 April 2025, 18:00 - 21:00
🔗 Зарегистрироваться можно вот тут
👍5
27 марта буду в Берлине в рамках Data Intelligence Days рассказывать про AI applications on Databricks Data Intelligence Platform.

Расскажу про e2e цикл построения и деплоя AI apps и агентов - от ingestion до деплоя и governance.

Ну и конечно же не только я один выступаю - будут сессии про Unity Catalog и Databricks SQL, а еще есть возможность записаться на тренинг по SQL analytics and BI.

Эвент бесплатный, а зарегистрироваться можно вот здесь
🔥4
В этом году буду (впервые) на Data and AI Summit 2025, да еще и сразу доклад + training!

Мой топик в этом году - это Data applications, и наши Databricks Apps в первую очередь.

Вместе с моим коллегой Giran Moodley мы подготовили 90 минут технического (в первую очередь) контента по следующим вопросам:
- Frameworks & tooling — Pythonic (Dash, Streamlit, Gradio) vs. JS + Python stack
- Development lifecycle — Debugging, issue resolution and best practices
- Testing — Unit, integration and load testing strategies
- CI/CD & deployment — Automating with Databricks Asset Bundles
- Monitoring & observability — OpenTelemetry, metrics collection and analysis

Ссылка на сессию вот тут, трансляция скорее всего будет на сайте саммита и позже выложена на ютуб - и виртуальная часть саммита free for all, достаточно просто зарегистрироваться вот здесь.

Ну а если кто едет in-person, приглашаю на Hands-on training сессию, она будет проходить 11 июня 🔥
👍5🔥1