Инжиниринг Данных

Поделюсь опытом создания Azure инфраструктуры для пет проекта. Сейчас у нас закончился проект Surfalytics, где я 2 часа рассказывал про Azure reference architectures и пример создания решения с и без агентов. Но запись не сработала😿

Вот, что я заказал у agent teams:

Отлично, теперь я использую команду для построения своего рода Azure Data Warehouse используя:

Azure SQL Server как мою source database
Azure CosmosDB как мою source NoSQL database
Azure Postgres как мой data warehouse
Azure Data Factory для загрузки данных из sources в Postgres (destination)
Azure DevOps Repos для кода, мы можем подключить Azure DevOps для Azure Data Factory, а также для любых видов transformations. У меня есть account https://dev.azure.com/surfalytics/

вы можете начать с новой resource group в Azure ⁠rg-surfalytics-ai-agents и создать все resources. Убедитесь, что они находятся в одном Region.

вы можете сгенерировать sample data в SQL Server как OLTP для SQL Server и Documents для CosmosDB

мы выполнили az (Azure CLI) и он залогинен в Azure Subscription

Вы можете использовать team of agents для разделения работы и убедиться, что у нас есть working solution в Azure.

Что сделал Claude Code Team Agents:


| Task                  | Status            | Agent          |
|-----------------------|-------------------|----------------|
| #1 Infrastructure     | Completed         | infra-agent    |
| #2 SQL Server data    | In progress       | data-agent     |
| #3 CosmosDB documents | Starting now      | infra-agent    |
| #4 Warehouse schema   | Completed         | infra-agent    |
| #5 ADF Pipelines      | Waiting on #2, #3 | pipeline-agent |
| #6 DevOps + CI/CD     | Waiting on #5     | pipeline-agent |

То есть создал 6 задач и несколько агентов, причем некоторые задачи могут выполняться параллельно.

Что я получил на выходе и оценка от 1 до 5.

• Azure Resource Group в которой создались все ресурсы - 5
• Azure CosmosDB с одной БД и 3мя контейнерами и JSON документами как sample - 5
• Azure SQL Server с новой базой данных и sample таблица - 5
• Azure Postgres (data warehouse) пустой - 5
• Azure Data Factory сам workspace - 5
• Использование Azure CLI для всех задач - 5 (и не нужен MCP)
• Сохранить все в Azure DevOps Repo - 4 (даже не смотря на то, что это то как я хотел, но я не объяснил нормально)

Теперь, где оказались проблемы

• Когда все закончилось, я пошел в ADF и нашел pipelines, но они не работали, то есть где-то, что-то потерялось. Я попросил агентов починить, и они все починили. И тут я понял, что я не написал заранее про тестирование всего, что мы сделали.
• Все пароли оказались прям в коде pipelines и я попросил использовать Azure Key Vault. Агент все сохранил в Azure Key Vault, но не обновил ничего внутри ADF. Опять же мой косяк, я не просил об этом.
• Сами data pipelines были странные. В CosmosDB у меня было 3 таблицы, в Azure SQL у меня было 4 таблицы. И я хотел что-то вроде dimensional model. По факту он создал 3 pipelines с COPY activity. Тут был прям худший результат. Но и мой запрос был очень поверхностный.

Дальше я попросил агентов добавить Watermark таблицу для инкрементальной загрузки и таблицу для логов запуска pipelines и поставить все на расписание.
• Агенты добавил новый adf pipelines и добавил в каждый возможность logging (но я бы так не сделал бы)
• Для SCD Агнеты сделали блоки с SQL командами INSERT/UPDATE, хотя INSERT блок назвали MERGE.

Поэтому за часть Dimensional Modelling я поставлю 1, даже после моих подсказок он всё равно не выполнил то, что я просил.

❤‍🔥2🙉1

4.65K views19:36

Инжиниринг Данных

Что бы я сделал по-другому
Самое очевидное — это банальный prompt engineering. Вы видели мой наивный запрос. Что попросил, то и получил. Причём к самой инфраструктуре почти нет вопросов. А вот там, где уже надо включать голову, оказалось сложнее. Если бы я взял свой prompt и с помощью LLM сделал чёткий и конкретный план, я бы получил совсем другой результат.

Обязательно надо прописывать критерии успеха и пути тестирования.
К сожалению, я не сделал YOLO режим, и нужно было раз 100 нажать accept.
В каком-то смысле агенты работают со своей Spec, планируют и выполняют задачи последовательно, как если бы я использовал OpenSpec и запускал задачи сам.

В реальных задачах я бы ещё не доверил end-to-end агентам, но у меня просто нет такой необходимости и таких задач. Я всё ещё сам хочу контролировать архитектуру, инструменты. Но прогресс налицо.

Цена вопроса
Так как я гонял Opus 4.6 ещё и на рабочие задачки, то сложно сказать конкретно стоимость этого упражнения. Я использую Anthropic API, и там нет привычных лимитов. За вечер я сжёг $40 и потратил 55 млн токенов. Хотя если посмотреть Claude stat, то видно, что больше половины токенов — это cache-токены, которые дешевле.

Цена Azure-ресурсов — $2 в день для моего стенда.
Что можно ещё сделать

Таким образом можно создать готовые решения на Azure, AWS, GCP в целях обучения и pet-проектов. Можно тестировать batch/streaming и моделирование хранилища данных.

Следующее упражнение я хочу сделать на Open Source, чтобы всё деплоилось на локальном Docker или Kubernetes, но уже скормить хороший spec на вход.

PS Я реально получил удовольствие от процесса, и в какой-то степени сессии с Claude Code заменили потребность в doom scrolling и социальных сетях.

PPS Если вы недавно стали работать инженером/аналитиком (не только DE, любым), то вы в опасности.

Нет, не потому, что вас AI заменит, а потому, что теперь можно, не напрягаясь, очень легко получить хороший результат, при этом совершенно не понимая, что происходит.

Вот мне AI сохранил пароль в pipelines и другие ляпы, а для новичка это непонятно.

Вы можете работать месяцами, и AI будет делать за вас работу, но вы не будете развиваться и не будете понимать основ, таким образом годы опыта не будут считаться реальным опытом.

Так что поаккуратнее там с AI.

Почему я такой эффективный с AI? Это не только потому, что AI такой крутой, а потому, что у меня 15 лет опыта, и первые лет 12-13 я всё делал руками и гуглил каждую ошибку.

Поэтому сейчас AI мне помогает делать быстрее то, что я знаю и умею. И это ключевое отличие на данном этапе. Возможно, в будущем и этот эффект пропадёт, и мои знания тоже обесценятся, а пока можно кайфовать - золотое время матерых инженеров📈

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤‍🔥39💯14

5.12K views19:36

Инжиниринг Данных

Последняя глава нашей книги Data engineering with Azure Databricks 🥇

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤‍🔥27🌚3

4.75K views14:31

Инжиниринг Данных

Написал блог пост про AI agents fleet https://blog.surfalytics.com/p/fleet-of-ai-agents-built-my-azure

Surfalytics

Fleet of AI Agents Built My Azure Data Platform

Lessons from giving Claude Code agent teams full control over my Azure subscription

1🌚9❤‍🔥7⚡1

4.2K views16:29

Инжиниринг Данных

Меня попросили написать документ про AI инструменты для разработки в компании, где был только Teams Copilot. Я написал документ и конвертнул его в блог пост https://blog.surfalytics.com/p/ai-tools-for-data-engineers-and-data

Surfalytics

AI Tools for Data Engineers and Data Analysts

A practical guide to key concepts, use cases, and tools for using AI assistants in at work.

2❤‍🔥12🌚6⚡3

4.3K viewsedited 01:23

Инжиниринг Данных

Снова инсайты про зарплаты.

Неизвестный банк ищет CDO с зп от 600т рублей. То есть человека, который будет сидеть на митингах, поддерживать tech debt и legacy, нанимать инженеров и аналитиков за 200т и тп.

Зарплата говорит о многом, если компания экономит на сотрудниках, то она экономит на всем и всех и скорей всего коллектив токсичный. По крайней мере так 100% в Северной Америке. Так как крутые люди знают себе цену и хотят работать с хорошим стеком.

Я всегда хотел думать, что CDO в уважаемой компании получает миллионы, ну хотя бы в месяц 1 млн на руки, а в год млн 20-30, даже на себя примерял такую зарплату. А тут 600т, лучше уже не публиковать вилку и держать ее в секрете.

А вот Яндекс наоборот удивил- 680т, хоть и Гросс. Как-то был еще сбер с зарплатой 600т на старшего инженера.

Как там по зарплатам в 2026 году?

🐳26🍌4⚡2

4.3K views15:56

Инжиниринг Данных

Читая о том, как у чувака сломался ноутбук и он 3 года судился с магазином и все бесполезно сразу вспоминаю свой опыт с техникой, когда покупаешь кота в мешке, хоть и нового, и если повезет проблем не будет, а если будет, то шансы поменять или вернуть деньги практически нет. Да что там с техникой, мне кажется с одеждой и продуктами сложно. Вот принесете штаны возвращать, а их будут нюхать на кассе. Может быть сейчас уже по-другому.

Первое время в Канаде мне казалось, что вернуть что-то в магазин — это целый подвиг. Но теперь я понимаю, насколько это просто. Здесь можно купить практически что угодно — даже машину — и вернуть, если не понравится. Некоторые покупают снаряжение для похода, используют его, а потом спокойно сдают обратно. И так во всём. Иногда доходит до абсурда: люди возвращают продукты — вскрытые упаковки — спустя месяцы. А Amazon Prime и вовсе забирает всё прямо из дома. Клиент всегда прав.

Благодаря такой культуре возвратов есть отличный способ экономить — покупать товары категории Renewed/Refurbished со скидкой до 50%, включая технику Apple. Например, ноутбук Lenovo с процессором Core i7, 16 GB оперативной памяти и SSD на 512 GB обойдётся примерно в 450 CAD (около 28 тысяч рублей), тогда как в Москве аналог стоил бы, наверное, 100–150 тысяч. Идеальный вариант для работы. То же самое касается смартфонов на Android, iPhone, iPad, телевизоров и даже мебели. И всё это тоже можно вернуть. Однажды у меня не работал Google Pixel 7 — забрали без единого вопроса.

А как обстоят дела с возвратами в других странах?

DTF

История о том, как я сужусь с DNS уже третий год. — Офтоп на DTF

История Валеры о борьбе с DNS, судебные заседания, экспертизы, ноутбук Dell G515, защита прав, опыт судебной системы в Калининграде

🙈11❤‍🔥6🐳3🍌1

3.8K views20:47

Инжиниринг Данных

Написал про самый простой и самый популярный стек для Северной Америки, где SR DE получают по 200к$ (без шуток)

https://blog.surfalytics.com/p/your-first-data-engineering-project

Этим мы и пользуемся в Surfalytics🏴‍☠️

Please open Telegram to view this post

VIEW IN TELEGRAM

Surfalytics

Your First Data Engineering Project: Build an End-to-End Solution for Free with best tools

What If I Told You This SQL-Only Project Is What $200K Data Engineers Build Every Day?

❤‍🔥24⚡8👨‍💻3

3.7K views01:59

Инжиниринг Данных

Написал пост про Python. Типа, что нужно знать в Python, чтобы работать с данными и как лучше его начать изучать. Как обычно, никакого hardcore.

В модуле 0 Surfalytics есть такой же урок. А то все думают, что нельзя начать работу пока не станут экспертом по Python.

https://blog.surfalytics.com/p/just-enough-python-for-data-roles

PS в РФ конечно все наоборот, но если у вас есть Claude Code на работе, то вы не пропадете😊

PPS расскажите как вы учили питон и какие ресурсы помогли? Если будет ссылка, то шарьте как код или цитата

Surfalytics

Just Enough Python for Data Roles 🐍

Python is important, but don't let it overwhelm you. Focus on problem-solving first—especially in the early stages of your career.

❤‍🔥19💯5

3.25K viewsedited 16:44

Инжиниринг Данных

Автор известного блога про AI factory - Gas Town (не путать с районом Ванкувера) написал книгу Vibe Coding.

«Vibe Coding» — Стив Йегге и Джин Ким

Книга о том, как генеративный ИИ радикально меняет разработку ПО. Авторы — ветераны индустрии (Йегге работал в Google, Amazon; Ким — автор бестселлера The Phoenix Project) — описывают новый подход, при котором программист не пишет код вручную, а описывает свои намерения ИИ-помощнику и наблюдает, как тот генерирует результат.

Ключевые идеи:
• Вместо синтаксиса — намерение. Разработка превращается в диалог с ИИ: вы объясняете, что хотите, а не как это реализовать.
• Кратный рост продуктивности. Один человек может делать то, для чего раньше требовалась целая команда.
• Свобода от ограничений. Можно уверенно работать с незнакомыми языками и фреймворками.
• Качество сохраняется. Авторы дают практические стратегии, как применять подход и на маленьких проектах, и в масштабах предприятия, не жертвуя инженерной культурой.

Для кого:
• Опытные разработчики, желающие не отстать от ИИ-революции
• Технические лидеры, ведущие команды через трансформацию
• Бывшие программисты, возвращающиеся в профессию
• Новички в разработке

Главный посыл: вайб-кодинг — самый большой сдвиг в индустрии со времён интернета, и книга служит практическим руководством, чтобы в нём преуспеть.

Так же он встретился с Pragmatic Engineer, где обсудили влияние AI на инженеров:

1. Конец ручного кодирования и S-кривая
Йегге признаёт, что поначалу был скептиком, но после знакомства с Claude Code полностью изменил мнение. Он убеждён, что индустрия находится на крутом участке экспоненциальной кривой, и каждая новая модель значительно превосходит предыдущую. Цикл выхода моделей сократился с ~4 месяцев до ~2.

2. «Ручка на 50%» — массовые сокращения
Йегге предсказывает, что крупные компании уволят до 50% инженеров, чтобы оплатить ИИ-инструменты для оставшихся. Это будет масштабнее, чем сокращения эпохи пандемии. При этом снизу будет расти волна инноваций от маленьких ИИ-усиленных команд.

3. Восемь уровней принятия ИИ
Йегге описывает спектр — от «без ИИ» (уровень 1) до «строишь собственный оркестратор агентов» (уровень 8). Промежуточные этапы: использование агента в IDE → режим YOLO → отказ от ревью диффов → работа с несколькими агентами параллельно → 10+ агентов вручную.

4. «Эффект Дракулы» — истощение от ИИ
Вайб-кодинг на полной скорости физически выматывает. Йегге и его знакомые стартаперы начали засыпать днём. Его вывод: от инженера разумно ожидать не более 3 часов продуктивной работы с ИИ в день — но эти 3 часа дают в 100 раз больше результата.
5. Крупные компании обречены
Инновации в больших корпорациях фактически мертвы — они не могут «переварить» возросшую продуктивность инженеров. Настоящие прорывы будут приходить от маленьких команд, как это было с появлением облаков. Крупные компании — «уже мертвы, просто ещё не знают об этом».
6. Ценности, которые устарели
«Инженеры — особенные» — больше не работает. Умение писать код вручную перестало быть уникальным навыком, потому что ИИ делает это за нас. Но спрос на софт будет только расти, а роль инженера смещается к сотворчеству с ИИ.

Главный посыл: ИИ — не замена инженерам, а усиление. Но те, кто застрянет на нижних уровнях принятия, рискуют остаться за бортом.

PS ну все, вы в теме всего движа в AI разработке ;)

💯11🫡1

2.86K viewsedited 17:31

Инжиниринг Данных

И в подтверждение всего вышесказанного расскажу, что мне удалось сделать вчера. На базе Surfalytics я могу экспериментировать, и у меня были в команде UX/UI-дизайнеры, SDE, маркетинговые эксперты, reels-мейкеры и т.п. У каждого была возможность за мой счёт реализовать их же идеи 🍪

🍪

Остановлюсь на примере SDE, а именно — разработке backend/frontend. Мы решили мигрировать с GitHub Pages и Zapier на Netlify (хостинг) и Supabase (бэк). Идея была простая — добавить личный кабинет и в нём сделать roadmap и множество других фич.
Supabase оказался очень крутым продуктом — по сути это Postgres и множество фич: аутентификация, возможность запускать функции (как AWS Lambda) и т.п. Можно создавать новые таблицы и трекать разные активности.

Товарищ смог справиться с миграцией as is, но дальше пока у нас не очень хорошо шло. Я решил поэкспериментировать. С помощью Claude Code я запустил сайт локально с подключением к Supabase prod и начал добавлять фичи и менять структуру Supabase и страницы сайта. У меня не было много времени, но я прифигел от результата. Даже мой SDE офигел от результата и попросил его научить.

Я смог добавить визуализацию как у GitHub, которая показывает вашу активность. Пока это только логины в кабинет, но потом я смогу подключить активность в Discord.
Но самое крутое — это как AI начал решать задачу вместе со мной для создания Roadmap. Мне нужно было сделать конфигуратор задач с описанием и возможностью сохранять результат в Supabase БД, и он справился.

Я добавил несколько скринов.

Параллельно с этим локально я развернул Airflow 3.1, чтобы выгрузить всю историю сообщений из Discord с 2023 года — там самый сок. Я знал про DuckLake, но не использовал. Ну как я? Claude Code постарался, учит меня родной.

Я сделал себе DuckLake:
• сторадж в S3 (копейки)
• каталог в Neon Postgres (бесплатно)

Я ещё экспериментировал с Open Source BI — долго пытался завести Evidence, но не сработало, переключился на Cube.js.

Далее я подвяжу мой DuckLake на бэк и смогу обновить график активности. И сделать AI-интеграцию:
• на базе всех сообщений сделать RAG и подвязать его к боту, который будет помогать в Discord и отвечать на базе прошлых сообщений
• автоматически создавать Weekly Newsletter на базе переписок и статей, которые мы шарим (делать выжимку из статей)

То есть задача — максимально мотивировать участников сообщества, чтобы не ленились и не расслаблялись. В целом наличие всего это никак не влияет на успех сообщества, но хочется реализовать свои идеи.

И всё это возможно благодаря AI-разработке, где мне лишь достаточно иметь намерение.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥22⚡14💯1

3.27K views17:52

Инжиниринг Данных

А как у всех настрой с мессенджером MAX? 😫

https://t.iss.one/groks/4932

Please open Telegram to view this post

VIEW IN TELEGRAM

Грокс

Как патриот хочу помочь казённым медийщикам и дать им совет по пропаганде. Вы когда реакции под постом накручиваете в канале с открытыми комментариями, не забудьте их в комментах накрутить. Ну или хотя бы модерируйте негатив, вам за что платят вообще?!
…

🙈28😭104🫡2⚡1🍌1

2.97K views21:35

Инжиниринг Данных

Запись вебинара про Tengri от Николая.

Вебинар представляет Tengri Data Platform — корпоративную аналитическую платформу класса LakeHouse от Николая Голова, который ранее проектировал решения на Snowflake и Databricks.

Суть платформы: Tengri объединяет загрузку, хранение, трансформацию, аналитику и визуализацию данных в одном месте. Из коробки доступны SQL, Python и AI-агенты. Архитектура построена на разделении вычислений и хранения (Compute & Storage), используется формат Iceberg поверх S3-совместимых хранилищ (MinIO, Ceph, AWS, Yandex, VK) с поддержкой ACID-транзакций.

Проблема, которую решает: компании вынуждены собирать «зоопарк» из ETL, BI, ML-инструментов, а облачные платформы вроде Snowflake имеют ограничения — привязка к облаку, стоимость, невозможность держать данные у себя. Tengri — это альтернатива, которую можно развернуть on-prem, в облаке или гибридно, от одного сервера до кластера.
Отличия от конкурентов: в отличие от ClickHouse, Greenplum, Trino+Spark и классических DWH, Tengri — это единая платформа, а не отдельный компонент. Не нужно искать редких специалистов, минимальное администрирование, встроенные RBAC, аудит и контроль доступа.

AI-агенты встроены в платформу и помогают аналитикам и бизнесу автоматизировать работу с данными.
Целевая аудитория: те, кто ищет замену Snowflake/Databricks, хочет держать данные на своей инфраструктуре, строит LakeHouse или устал от сложной интеграции множества инструментов.

https://youtu.be/B377-Dvn_xc?si=gAKy2PPQFXufLY-p

YouTube

Единое пространство аналитики — Tengri Data Platform | Альтернатива Snowflake и Databricks | Голов Н

В этом вебинаре мы разбираем Tengri Data Platform — корпоративную аналитическую платформу класса LakeHouse, которая объединяет хранение, трансформацию, аналитику, визуализацию данных, SQL, Python и AI-агентов в едином пространстве.

Меня зовут Николай Голов…

❤‍🔥6⚡4

1.53K views07:16

About

Blog

Apps

Platform