Anscombe's Quartet
540 subscribers
107 photos
2 videos
289 links
Data/ML Engineering. Рассуждения по теме и не по теме.
Download Telegram
ну а вот так соответственно новый, со всеми шариками и фонариками.
😁6🔥4
Anscombe's Quartet
Поскольку мне в личку часто приходят вопросы по поводу переезда для айтишников в Германию, а моя инструкция в пяти частях видимо слишком длинная чтобы ее прочитать, пишу этот пост. Ну или выражаясь языком публичных лиц - "распишу за положняк". Процесс Насколько…
Мой предыдущий пост по поводу переезда актуальности не утратил, но к нему добавилось одно важное нововведение - с сегодняшнего дня граждане РФ и Беларуси, не имеющие ВНЖ Грузии имеют возможность подаваться на визы (Blaue Karte, рабочая, для поиска работы и некоторые другие типы виз, см. ссылку ниже) в Тбилиси.

Соответственно если вы в Тбилиси и желаете податься на работу в Германию, с сегодняшнего дня вы можете это сделать не въезжая в РФ. Тоже самое касается ситуаций если вы например находитесь в другой стране - можно приехать в Тбилиси “одним днем" для подачи документов.

Я предполагаю что эта практика расширится на другие страны, и рекомендую мониторить сайты посольств Германии. Информацию по Тбилиси можно найти по ссылке.

Mein Gott, hilf mir, diese tödliche Liebe zu überleben.
👍6
💻 Ну и к слову о позициях - у нас в Databricks в DACH регионе открыты позиции для Solutions Architect (Pre-sales / Professional Services).

Требования по ссылкам ниже, если захотите подаваться через мой реферал - пишите, контакты в описании канала:
- Pre-sales Solutions Architect
- Solutions Architect
не так давно переписал крупный кусок проекта на Python с использованием pydantic, и остался исключительно доволен. На удивление об этой библиотеке нет ни упоминаний на всяких курсах, я не видел ее активного использования где-то кроме веба, а она при этом абсолютно крутая и очень полезная, например для того чтобы держать сложные конфиги для пайплайнов etc. Поделился своими мыслями в блоге:

https://polarpersonal.medium.com/quacks-like-a-duck-why-you-probably-should-use-pydantic-more-in-your-python-apps-197accf1fdfc
👍7
Написал небольшую заметку (серьезным постом это вряд ли можно назвать) с описанием некоторых полезных подходов при разработке Spark приложений на Scala.

https://medium.com/@polarpersonal/useful-patterns-for-scala-spark-application-development-6799ca2ccb15

P.S. К сожалению у меня совсем плохо с "генерацией контента" в смысле современных социальных сетей.
Эти самые соцсети как бы ожидают регулярной поставки (e.g. linkedin поощряет авторов за регулярность).

В целом мотто современных соцсеток - "лучше чаще, а качество само собой".

Я так не очень умею, обычно каждый пост три раза переписывается
, а потом удаляется или лежит в черновиках до скончания веков. В паблик попадают только самые "насиженные" посты.
В этот раз я решил попробовать написать совсем небольшой постец, буквально 3 min read (в сравнении - у предыдущего поста про E2E MLOps p1 таймер показывает 12 min read). Посмотрим как зайдет такой формат, пишите в комментах.
👍12
Интересная статья попалась мне в рекомендации на медиуме.

Заголовок конечно зловещий, но что-то мне подсказывает что он вполне себе “жареный” (невольная игра слов).
Насколько плохо надо уметь в финансовое планирование, чтобы работая хотя бы год-другой в гугле с шестизначной зп после налогов при увольнении оказаться в ситуации “flipping burgers is an only option”.
В комментариях тем временем закоренелые любители рыночка (который все порешает) пишут о том как они на лету переобуваются в соцдемов.

В целом история с layoff-ами в очередной раз намекает на две вещи: как обычно локальные и глобальные.

На глобальном уровне в очередной раз выходит что концепт свободной руки рынка всем нравится только тогда, когда эта рука нежно их гладит. А вот когда перестают гладить и начинают делать некоторые другие вещи, малоразмерные акторы этого самого рынка начинают задумываться про такие интересные концепции как социальное государство и профсоюзы.

На локальном уровне понятна важность критического мышления и анализа ситуации, втч. изучать balance sheets и P&L statements работодателя, и сравнивать его с макроэкономическими показателями и поведением других компаний на рынке.
Ну и конечно в качестве подстраховки стоит еще и развивать скиллы в каком-нибудь другом направлении, возможно связанном с айти, но не являющимся им напрямую (e.g. biotech / manufacturing / agriculture etc.).

https://medium.com/@switchupcb/i-used-to-work-at-google-now-i-flip-burgers-2935cb062588
🔥3👍1😁1
Многие DS часто сталкиваются с необходимостью накидать какое-нибудь приложение для разметки сырых данных (например текста или картинок).
Есть и готовые решения, но они обычно требуют выгрузки данных из формата в формат и вообще стоят денег.

В такиз случаях возникает желание написать какой-нибудь простенький UI для работы с исходными данными, да так чтобы и данные никуда не копировать, а еще желательно чтобы все на Python было.
Еще года 3-4 назад это было конечно сказкой, но вот с современной связкой Python + Dash + Databricks SQL это вполне себе реальная задачка, про которую я написал свежий пост:

https://polarpersonal.medium.com/building-a-data-labeling-app-with-python-dash-and-databricks-lakehouse-48341f618b8f
👍9
Нашел интересную статью от апреля 2021 в Microsoft WorkLab.

В статье описывается влияние back-to-back meetings на мозговую активность и способность к фокусировке.

Замеры показателей были сделаны с помощью EEG датчиков непосредственно на голове испытуемых (побольше бы таких исследований!).

Саммари такое - мозг у кожаных мешков очень не любит стрессы и переключения контекста. Даже 10-ти минутный перерыв между встречами значительно снижает этот уровень стресса и позволяет куда эффективнее работать.

https://www.microsoft.com/en-us/worklab/work-trend-index/brain-research
🔥5
Из практики я часто вижу как при дизайне дата приложений инженеры совершают небольшие ошибки и недочеты, не беря в расчет потенциал роста данных и изменения требований.

По счастью Apache Spark достаточно гибок для того чтобы с его помощью писать выразительный код который может быть вполне себе лишен этих недостатков.

Об этом по ссылке - https://polarpersonal.medium.com/on-the-importance-of-future-proof-data-architectures-and-how-apache-spark-helps-to-build-them-9237f8388476
Fresh off the press - мой новый обширный блогпост о том как на чистом Python и с использованием Spark APIs (никаких ORM!) написать UI-приложение для разметки картинок.

Бонус поинт - все данные лежат в клауд сторадже, следовательно и выгружать свои данные куда-то не надо (как и не надо пытаться запихивать эти картинки в БД).
Работает эта вся магия на связке Dash (Pythonic framework for Data Applications), Databricks Connect “V2” и конечно же Lakehouse.

https://polarpersonal.medium.com/building-an-image-classification-app-with-databricks-connect-v2-and-dash-3c7f855f6e6
👍5
Залетайте послушать про Delta Lake и работу с этим форматом от одного из коммитеров в нативные Delta Lake коннекторы на разных языках (outside of Spark ecosystem).
Robert Pack очень крутой технический эксперт из BASF, и он предметно понимает то, о чем говорит.
📍 Thursday, 15 June 2023, 18:00–19:00 CEST
🔗 RSVP Link
1👍1
А еще у нас большой эвент намечается - ежегодный Data + AI Summit 2023.

Я в этом году буду его смотреть в Берлине на Watch Party, 28 июня, и буду рад видеть всех кто захочет поболтать про DE/ML.
Помимо Берлина еще куча мест - приходите социализироваться и узнавать о новых направлениях в Lakehouse architectures:

🔗 RSVP Link
👍1
Заглянул в славный город Белград и пообщался с коллегами в недавно открытом R&D офисе Databricks.

Ребята активно ищут талантливых инженеров в новую команду, и готовы обсуждать варианты с релокацией в Белград.
Позиции можно посмотреть вот здесь, и я конечно же буду рад пореферить - пишите в LinkedIn.
👍3
Пару выходных назад я почитал про концепцию HATEAOS, aka Hypermedia as the Engine of Application State, и фреймворк под названием HTMX.
Если вкратце, то идея HTMX в том чтобы писать как можно меньше client-side кода на JS, а интерактивность обеспечивать путем отправки новых блоков HTML кода обратно с сервера на клиент (в браузер).

Мне показалось что такая концепция хорошо подходит для того чтобы реализовать server-driven UI kit уже на Python.

Идея в целом простая как пробка:
- Python-сервер возвращает на клиента готовую HTML страничку
- действия пользователя на клиенте триггерят события, а htmx эти события заворачивает в вебсокет и отправляет обратно на сервер
- на стороне сервера определяется что и как нужно сделать с этим событием, а в ответ отправляется небольшой кусочек HTML кода, который аккуратно морфится на странице.

После пары выходных за ноутбуком получился небольшой фреймворк под названием schorle. Попробовать его в действии, а так же почитать про его логику можно вот здесь:

https://polarpersonal.medium.com/schorle-testing-the-waters-with-a-python-server-driven-ui-kit-053f85ee6574
2🔥1
Продолжаю развивать идею HATEAOS на Python.

В последнюю неделю я чуть переработал логику рендеринга, и как мне кажется даже не смотря на то что в новом подходе частично теряется типизация, с точки зрения чистого dev experience это выглядит куда приятнее.

Ну и поскольку первым делом в любых UI фреймворках все пишут todo, я тоже решил пройти этот путь и вышло довольно удобно - всего 98 строк, причем с хорошей типизацией и разбивкой на компоненты.

Почитать в деталях можно вот тут. А если кому идея прям зашла, welcome в контрибьюторы 🙌
👍4
6 июня в Цюрихе буду рассказывать про CI/CD на Databricks on AWS.

Буду показывать как использовать современный toolset для такой разработки (hatch, DABs, pytest with testcontainers, Github Actions with self-hosted runners).

ссылка на регистрацию - https://aws-experience.com/emea/dach-cee/e/6c859/aws-builders-day
👍6🔥3🤩1
У нас в Databricks EMEA team открылись две позиции для Sr. Specialist Solutions Engineer по тематике DWH .

Много интересных задач - как миграции так и greenfield проекты, можно работать на ремоуте (но возможен travel up to 30%). Рассматриваем кандидатов с EU work permit, преимущественно в Германии.

🔗 Полное описание позиции здесь
🤝 За рефером можно написать мне в LinkedIn
🔥83
Databricks User Group - это отличный способ узнать новое про современные DE/ML/BI решения, а так же нетворкинг (и пиво конечно же!).

В этот раз мы проводим эвент в Кёльне. David Schenk, Lead Data Platform Engineer будет рассказывать real-life кейс от OBI.
Я же скромно поведаю про наш обновленный Databricks Monitoring, с примерами и демо.

📅 Date: October 10, 2024
🕒 Time: 6 PM welcome reception, 6:30 PM starting with the first talk
📍 Location: Infomotion GmbH - Augustinerstraße 10, Köln 50667

🔗 RSVP и программа здесь
6
Решил написать небольшую серию постов про мое видение прошлого, настоящего и будущего архитектур данных.

Первый про DWH и архитектуры 2000-начала 2010x годов. Если кто что интересное из того периода вспомнит - welcome в комменты 🙂

https://www.linkedin.com/pulse/aevum-data-digitalis-part-1-operations-facts-ivan-trusov-dmnlf
Закончил большой и обстоятельный пост про проект на нашей новенькой технологии - Databricks Apps, и рассказал в деталях по ссылке ниже.
В целом очень рад что платформа за последние год-полтора обросла технологиями которые позволяют отстроить e2e data application - начиная от ingestion/etl, затем serving, а теперь вот еще и API + UI.

https://www.linkedin.com/posts/ivan-trusov_databricks-databricksapps-react-activity-7260033853610725376-UBGh?utm_source=share&utm_medium=member_desktop
Fresh off the press - буквально только-только вышла наша e-book по теме Data Governance и Unity Catalog!

Скачать ее можно вот тут - 🔗 Data Governance Architecture Patterns

Я тоже поучаствовал в процессе и написал пару глав, описывая в деталях потенциальную структуру UC metastore и naming conventions.
👍6🔥21