Инжиниринг Данных

После косяков с clawd/moltbot я не решился ставить его. Но народ прям доволен, кто пользуется? Какие кейсы у вас?

⚡1

5.02K views01:52

Принес вам немножко инсайтов. В одной большой компании, которая управляет большим капиталом (wealth management) внедряют Databricks, чтобы
1) модернизировать legacy
2) дать возможность партнерам использовать централизованную платформу
3) добавить ML и GenAI возможности

В компании прям все очень грустно с точки зрения мотивации, люди просиживают штаны. Соотвественно, компания используют подрядчика. Подрядчик, пользуется этой слабостью компании и диктует свои условия. VP data&ai решил меня записать в advisory и показал мне price в час консультантов:

Accountable Executive - $361
Engagement Lead - $309
Data Architect - $309
Data Engineer - $242
Senior Data & AI Engineer - $278
DevOps Architect - $309

Для сравнения в Канаде, если вы хотите работать как контактор, вы можете максимально получать 95-100$, даже если работать на прямую на компанию. А если на фирму прослойку, то это уже 55-65$. Вот такой вот беспредел.

Особенно интересно смотреть на full time загрузку Engagement Lead, кто по факту просто выполняет роль PM и каждый день проводит standup. И самое печальное в этой истории, что сотрудники самой компании не использую возможность перенять опыт у дорогих консультантов и не хотят развиваться. И так как VP сидит высоко, а инженерам все-равно, получается, что VP покупает “кота в мешке” у консалтинговой компании, которая обещает AI звездолет (по методичке), и каждый новый проект начинается с чистого листа, даже если это продолжение прошлого проекта.

Так как ознакомился со скоупом, я предложил кардинально другое решение, которое лучше и проще и заодно должно быть на 50% дешевле. Можно было и самим все сделать, но “таков путь” большого enterprise.

❤‍🔥24🤷9🙉5

4.84K views19:04

Инжиниринг Данных

Ох уж эти агенты, невозможно оторваться! Сколько всего можно сделать, когда знаешь, как вежливо попросить AI сделать это за тебя:
• новые Airflow DAGs
• добавить новый источник данных Walmart API и встроить его в dbt модели в bronze/silver/gold, а также проверить, что ничего не сломалось
• создать новый проект для Surfalytics, чтобы выгружать всю историю в JSON для автогенерации Weekly Emails и создания RAG на основе накопленных знаний
• создать с нуля AWS хранилище данных на Redshift через AWS CloudFormation и подключить к нему dbt, чтобы через dbt-external-tables читать сотню таблиц, используя Redshift Spectrum — вообще целый проект миграции с on-premise на AWS под ключ можно сделать с AI
• создать упражнения для последней главы нашей новой книги Azure Databricks Data Engineering, причём глава о ML и GenAI
• создать Azure DevOps pipelines для Databricks и написать ко всему этому документацию
• прочитать проектные документы и написать развёрнутые ответы
• добавить интеграцию Plaid API в Airflow и dbt модели
• накатать документацию по Subscription (это единственный прощальный проект, про который я писал, но решил сдаться)
• изучить новую фичу Claude Code Agent Teams и запустить тест по созданию с нуля Azure Data Warehouse с Azure SQL Server, Azure CosmosDB, Azure Postgres, Azure Data Factory, Azure DevOps repos и pipelines. Я дал доступ к своему Azure аккаунту и поставил задачу создать всё самостоятельно — ещё создаёт. То есть если подождать немного, то уже не нужны всякие сложные GasTown, Multi Claude и т.п. У Cursor тоже есть Parallel Agents. Но у меня пока нет таких задач, где нужно вместе так рабоать, лучше просто режим YOLO и погнали 😡

Это что пришло в голову с ходу.

Очевидно одно: с такими возможностями можно реализовать любую идею очень быстро. Не знаю как у вас, но у меня 80-90% работы идёт через AI. Со вчерашнего дня использую уже Opus 4.6. Конечно, где-то бывают затыки, но вместе с AI всё решаемо. Для всех Surfalytics members AI IDE — must have. Без AI, я бы тоже самое делал бы 5 недель.

Please open Telegram to view this post

VIEW IN TELEGRAM

Claude Code Docs

Orchestrate teams of Claude Code sessions - Claude Code Docs

Coordinate multiple Claude Code instances working together as a team, with shared tasks, inter-agent messaging, and centralized management.

❤‍🔥40⚡3🍌2🌚1

4.11K viewsedited 02:23

Инжиниринг Данных

Поделюсь опытом создания Azure инфраструктуры для пет проекта. Сейчас у нас закончился проект Surfalytics, где я 2 часа рассказывал про Azure reference architectures и пример создания решения с и без агентов. Но запись не сработала😿

Вот, что я заказал у agent teams:

Отлично, теперь я использую команду для построения своего рода Azure Data Warehouse используя:

Azure SQL Server как мою source database
Azure CosmosDB как мою source NoSQL database
Azure Postgres как мой data warehouse
Azure Data Factory для загрузки данных из sources в Postgres (destination)
Azure DevOps Repos для кода, мы можем подключить Azure DevOps для Azure Data Factory, а также для любых видов transformations. У меня есть account https://dev.azure.com/surfalytics/

вы можете начать с новой resource group в Azure ⁠rg-surfalytics-ai-agents и создать все resources. Убедитесь, что они находятся в одном Region.

вы можете сгенерировать sample data в SQL Server как OLTP для SQL Server и Documents для CosmosDB

мы выполнили az (Azure CLI) и он залогинен в Azure Subscription

Вы можете использовать team of agents для разделения работы и убедиться, что у нас есть working solution в Azure.

Что сделал Claude Code Team Agents:


| Task                  | Status            | Agent          |
|-----------------------|-------------------|----------------|
| #1 Infrastructure     | Completed         | infra-agent    |
| #2 SQL Server data    | In progress       | data-agent     |
| #3 CosmosDB documents | Starting now      | infra-agent    |
| #4 Warehouse schema   | Completed         | infra-agent    |
| #5 ADF Pipelines      | Waiting on #2, #3 | pipeline-agent |
| #6 DevOps + CI/CD     | Waiting on #5     | pipeline-agent |

То есть создал 6 задач и несколько агентов, причем некоторые задачи могут выполняться параллельно.

Что я получил на выходе и оценка от 1 до 5.

• Azure Resource Group в которой создались все ресурсы - 5
• Azure CosmosDB с одной БД и 3мя контейнерами и JSON документами как sample - 5
• Azure SQL Server с новой базой данных и sample таблица - 5
• Azure Postgres (data warehouse) пустой - 5
• Azure Data Factory сам workspace - 5
• Использование Azure CLI для всех задач - 5 (и не нужен MCP)
• Сохранить все в Azure DevOps Repo - 4 (даже не смотря на то, что это то как я хотел, но я не объяснил нормально)

Теперь, где оказались проблемы

• Когда все закончилось, я пошел в ADF и нашел pipelines, но они не работали, то есть где-то, что-то потерялось. Я попросил агентов починить, и они все починили. И тут я понял, что я не написал заранее про тестирование всего, что мы сделали.
• Все пароли оказались прям в коде pipelines и я попросил использовать Azure Key Vault. Агент все сохранил в Azure Key Vault, но не обновил ничего внутри ADF. Опять же мой косяк, я не просил об этом.
• Сами data pipelines были странные. В CosmosDB у меня было 3 таблицы, в Azure SQL у меня было 4 таблицы. И я хотел что-то вроде dimensional model. По факту он создал 3 pipelines с COPY activity. Тут был прям худший результат. Но и мой запрос был очень поверхностный.

Дальше я попросил агентов добавить Watermark таблицу для инкрементальной загрузки и таблицу для логов запуска pipelines и поставить все на расписание.
• Агенты добавил новый adf pipelines и добавил в каждый возможность logging (но я бы так не сделал бы)
• Для SCD Агнеты сделали блоки с SQL командами INSERT/UPDATE, хотя INSERT блок назвали MERGE.

Поэтому за часть Dimensional Modelling я поставлю 1, даже после моих подсказок он всё равно не выполнил то, что я просил.

❤‍🔥1

3.84K views19:36

Инжиниринг Данных

Что бы я сделал по-другому
Самое очевидное — это банальный prompt engineering. Вы видели мой наивный запрос. Что попросил, то и получил. Причём к самой инфраструктуре почти нет вопросов. А вот там, где уже надо включать голову, оказалось сложнее. Если бы я взял свой prompt и с помощью LLM сделал чёткий и конкретный план, я бы получил совсем другой результат.

Обязательно надо прописывать критерии успеха и пути тестирования.
К сожалению, я не сделал YOLO режим, и нужно было раз 100 нажать accept.
В каком-то смысле агенты работают со своей Spec, планируют и выполняют задачи последовательно, как если бы я использовал OpenSpec и запускал задачи сам.

В реальных задачах я бы ещё не доверил end-to-end агентам, но у меня просто нет такой необходимости и таких задач. Я всё ещё сам хочу контролировать архитектуру, инструменты. Но прогресс налицо.

Цена вопроса
Так как я гонял Opus 4.6 ещё и на рабочие задачки, то сложно сказать конкретно стоимость этого упражнения. Я использую Anthropic API, и там нет привычных лимитов. За вечер я сжёг $40 и потратил 55 млн токенов. Хотя если посмотреть Claude stat, то видно, что больше половины токенов — это cache-токены, которые дешевле.

Цена Azure-ресурсов — $2 в день для моего стенда.
Что можно ещё сделать

Таким образом можно создать готовые решения на Azure, AWS, GCP в целях обучения и pet-проектов. Можно тестировать batch/streaming и моделирование хранилища данных.

Следующее упражнение я хочу сделать на Open Source, чтобы всё деплоилось на локальном Docker или Kubernetes, но уже скормить хороший spec на вход.

PS Я реально получил удовольствие от процесса, и в какой-то степени сессии с Claude Code заменили потребность в doom scrolling и социальных сетях.

PPS Если вы недавно стали работать инженером/аналитиком (не только DE, любым), то вы в опасности.

Нет, не потому, что вас AI заменит, а потому, что теперь можно, не напрягаясь, очень легко получить хороший результат, при этом совершенно не понимая, что происходит.

Вот мне AI сохранил пароль в pipelines и другие ляпы, а для новичка это непонятно.

Вы можете работать месяцами, и AI будет делать за вас работу, но вы не будете развиваться и не будете понимать основ, таким образом годы опыта не будут считаться реальным опытом.

Так что поаккуратнее там с AI.

Почему я такой эффективный с AI? Это не только потому, что AI такой крутой, а потому, что у меня 15 лет опыта, и первые лет 12-13 я всё делал руками и гуглил каждую ошибку.

Поэтому сейчас AI мне помогает делать быстрее то, что я знаю и умею. И это ключевое отличие на данном этапе. Возможно, в будущем и этот эффект пропадёт, и мои знания тоже обесценятся, а пока можно кайфовать - золотое время матерых инженеров📈

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤‍🔥38💯13

4.23K views19:36

Инжиниринг Данных

Последняя глава нашей книги Data engineering with Azure Databricks 🥇

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤‍🔥25🌚3

4.02K views14:31

Инжиниринг Данных

Написал блог пост про AI agents fleet https://blog.surfalytics.com/p/fleet-of-ai-agents-built-my-azure

Surfalytics

Fleet of AI Agents Built My Azure Data Platform

Lessons from giving Claude Code agent teams full control over my Azure subscription

1🌚9❤‍🔥6

3.76K views16:29

Инжиниринг Данных

Меня попросили написать документ про AI инструменты для разработки в компании, где был только Teams Copilot. Я написал документ и конвертнул его в блог пост https://blog.surfalytics.com/p/ai-tools-for-data-engineers-and-data

Surfalytics

AI Tools for Data Engineers and Data Analysts

A practical guide to key concepts, use cases, and tools for using AI assistants in at work.

2❤‍🔥9🌚5⚡2

3.74K viewsedited 01:23

Инжиниринг Данных

Снова инсайты про зарплаты.

Неизвестный банк ищет CDO с зп от 600т рублей. То есть человека, который будет сидеть на митингах, поддерживать tech debt и legacy, нанимать инженеров и аналитиков за 200т и тп.

Зарплата говорит о многом, если компания экономит на сотрудниках, то она экономит на всем и всех и скорей всего коллектив токсичный. По крайней мере так 100% в Северной Америке. Так как крутые люди знают себе цену и хотят работать с хорошим стеком.

Я всегда хотел думать, что CDO в уважаемой компании получает миллионы, ну хотя бы в месяц 1 млн на руки, а в год млн 20-30, даже на себя примерял такую зарплату. А тут 600т, лучше уже не публиковать вилку и держать ее в секрете.

А вот Яндекс наоборот удивил- 680т, хоть и Гросс. Как-то был еще сбер с зарплатой 600т на старшего инженера.

Как там по зарплатам в 2026 году?

🐳22🍌3⚡1

3.18K views15:56

Инжиниринг Данных

Читая о том, как у чувака сломался ноутбук и он 3 года судился с магазином и все бесполезно сразу вспоминаю свой опыт с техникой, когда покупаешь кота в мешке, хоть и нового, и если повезет проблем не будет, а если будет, то шансы поменять или вернуть деньги практически нет. Да что там с техникой, мне кажется с одеждой и продуктами сложно. Вот принесете штаны возвращать, а их будут нюхать на кассе. Может быть сейчас уже по-другому.

Первое время в Канаде мне казалось, что вернуть что-то в магазин — это целый подвиг. Но теперь я понимаю, насколько это просто. Здесь можно купить практически что угодно — даже машину — и вернуть, если не понравится. Некоторые покупают снаряжение для похода, используют его, а потом спокойно сдают обратно. И так во всём. Иногда доходит до абсурда: люди возвращают продукты — вскрытые упаковки — спустя месяцы. А Amazon Prime и вовсе забирает всё прямо из дома. Клиент всегда прав.

Благодаря такой культуре возвратов есть отличный способ экономить — покупать товары категории Renewed/Refurbished со скидкой до 50%, включая технику Apple. Например, ноутбук Lenovo с процессором Core i7, 16 GB оперативной памяти и SSD на 512 GB обойдётся примерно в 450 CAD (около 28 тысяч рублей), тогда как в Москве аналог стоил бы, наверное, 100–150 тысяч. Идеальный вариант для работы. То же самое касается смартфонов на Android, iPhone, iPad, телевизоров и даже мебели. И всё это тоже можно вернуть. Однажды у меня не работал Google Pixel 7 — забрали без единого вопроса.

А как обстоят дела с возвратами в других странах?

DTF

История о том, как я сужусь с DNS уже третий год. — Офтоп на DTF

История Валеры о борьбе с DNS, судебные заседания, экспертизы, ноутбук Dell G515, защита прав, опыт судебной системы в Калининграде

🙈5❤‍🔥2🐳2🍌1

1.57K views20:47

Инжиниринг Данных

Написал про самый простой и самый популярный стек для Северной Америки, где SR DE получают по 200к$ (без шуток)

https://blog.surfalytics.com/p/your-first-data-engineering-project

Этим мы и пользуемся в Surfalytics🏴‍☠️

Please open Telegram to view this post

VIEW IN TELEGRAM

Surfalytics

Your First Data Engineering Project: Build an End-to-End Solution for Free with best tools

What If I Told You This SQL-Only Project Is What $200K Data Engineers Build Every Day?

1 view01:59

About

Blog

Apps

Platform