Data Engineering / reposts & drafts

Как я коммитил в Open-source или опыт затаскивания сырой библиотеки на проект 2/2

🔸 Нагенерить рабочее решение получилось за пару вечеров, и его можно было использовать в проекте. Я делаю PR, обрадовавшись что могу внести первый значимый вклад в проект, что-то новое. Потом делаю ещё несколько итераций, чтобы пройти проверки по линтеру. Всё, тесты проходит, выдыхаю.

Но теперь PR встречают не так радостно, потому что говнокод получился тот ещё (я не спец по frontend/backend), и изменение вышло масштабным. Не буду тебя томить подробным описанием истории каждой правки, получение Approve & Merge заняло 3 недели.

🔸 И вот что я выяснил за это время:
⁃ Оказалось что “маленькая правка” требует изменения backend и frontend на сотни строк кода
⁃ Мне нужно покрыть код тестами, и их AI генерит неплохо
⁃ CI тесты в контейнерах не запускаются, автор впилил костыль для их пропуска, и пара вечеров ушла на починку "инфры для тестов"
⁃ Часть моего кода не поддерживается в python 3.8, с которым автор либы хочет поддерживать совместимость
⁃ Пакеты в текущих тестах устанавливаются через сложную цепочку действий с обходом проверок pip

⁃ Делая “для себя”, я не учёл половину сценариев “что может пойти не так” и не обрабатывал какие-то исключения/выводил непонятные ошибки
⁃ Моя правка привела к потере загрузки “статического html” даже если проект один и его не нужно выбирать, пришлось учесть пожелание автора либы
⁃ Понадобилось несколько итераций чтобы прийти к понятному “интерфейсу конфигурации”
⁃ И на порядок больше итераций, чтобы выпилить лишние настройки, участки кода и оставить работающим только нужное
⁃ Я так и не смог заставить работать добавление переменной через AIRFLOW_VAR_[VAR_NAME]

⁃ Работа пошла в разы быстрее после установки act и запуска Github Actions тестов локально
⁃ AI Agent всеми силами пытается убедить что всё работает, скрывая явные ошибки и увиливая от ответственности
⁃ Если ты волонтёришь в open-source, тебе никто ничего не должен, в том числе отвечать быстро или что-то исправлять за тебя
⁃ Если планируется глобальная правка, нужно сначала ОТКРЫТЬ ISSUE и обсудить подход

🔸 Результат здесь, если тебе интересно посмотреть подробнее: https://github.com/memiiso/opendbt/pull/104
А у тебя есть подобный опыт? Поделись в комментах)

GitHub

[UI] Add multi-project support for DBT Docs in Airflow by LexxaRRioo · Pull Request #104 · memiiso/opendbt

Multi-Project Support for DBT Docs in Airflow
Summary
This PR adds support for viewing documentation from multiple dbt projects in a single Airflow instance. Users can switch between projects via a...

⚡2😍2👍1🔥1

25 views10:35

Data Engineering / reposts & drafts

Forwarded from A Hillman

Актуальный стек mid_Data_Enginer.pdf

307.7 KB

❤1👍1🔥1👏1

24 views19:32

Data Engineering / reposts & drafts

Forwarded from A Hillman

выгрузил у чатаГПТ актуальный стек на 2025 год

🔥2💯2👏1😍1

24 views19:32

Data Engineering / reposts & drafts

Forwarded from Data & IT Career

A Hillman

Актуальный стек mid_Data_Enginer.pdf

ну хз хз хз...

https://chatgpt.com/share/6943db7c-8b58-8009-9dad-95e769a8a761 – вот более похоже)

покажи свой промпт! 😂

😁

Please open Telegram to view this post

VIEW IN TELEGRAM

ChatGPT

ChatGPT - Частичное согласие по 2024-2025

ChatGPT helps you get answers, find inspiration, and be more productive.

❤2😍2💯2👏1

25 views19:32

Data Engineering / reposts & drafts

Forwarded from Data & IT Career

Data & IT Career

https://chatgpt.com/share/6943db7c-8b58-8009-9dad-95e769a8a761 – вот более похоже)

я бы ещё только
- добавил бы
- Trino (как modern)
- и Hadoop / Greenplum для РФ (как legacy – кто туда хочет, пч до сих пор популярно, особенно у бигтехов)
- заменил бы всё-таки Terraform на Docker / K8S – всё-таки они приоритетнее
- перенёс бы Airbyte / dlt / etc в "Bonus", пч Data Ingest куча разного бывает – не надо именно эти тулы именно учить, в отличе от остального
- разделил бы Data на рынки РФ / не РФ: пч для первого нужны CH + PG, а для загран – Snowflake/ BQ / Databricks

Airflow и dbt – это просто must-have что для РФ, что для загран!
- это прям самое главное и единое для всех DE во всём мире, кроме нишевых, типа streaming-oriented 😁
- Dagster больше для хипстеров) (хотя у нас на работе он))

Please open Telegram to view this post

VIEW IN TELEGRAM

30 views19:32

Data Engineering / reposts & drafts

Forwarded from A Hillman

Data & IT Career

покажи свой промпт! 😂

😁

не сохранился. Запрашивал срез по вакансиям в ЕС на мидла

31 views19:32

Data Engineering / reposts & drafts

Forwarded from Data & IT Career

A Hillman

не сохранился. Запрашивал срез по вакансиям в ЕС на мидла

кароч, ничо личного: фуфел твой промпт был! 😁

вот я те с норм подписки/контектса (я в GPT много ресёрчу по DE) и норм запроса норм скиллсет подобрал – https://t.iss.one/digitalberd/3134/54677
- я тебе как сеньор говорю 😁

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥2👏2👍1😍1💯1

33 views19:32

Data Engineering / reposts & drafts

Forwarded from Архитектор Данных