ETL в облаке: от хаоса к управляемым процессам
Разрозненные источники данных, ручные скрипты и постоянные сбои в ETL-процессах создают хаос. Это приводит к задержкам в аналитике, ошибкам в отчетах и потере времени на поддержку инфраструктуры вместо создания ценности для бизнеса.
На вебинаре 12 февраля эксперт Cloud.ru расскажет, как создать надежную и масштабируемую ETL-платформу в облаке за считанные часы.
В программе:
😶🌫️ как интегрировать данные из различных источников (базы данных, S3, API) в единую экосистему с помощью Evolution Managed Spark и Managed Airflow;
😶🌫️ как централизовать управление метаданными и схемами с помощью Evolution Managed Metastore для согласованности и качества данных;
😶🌫️ как настроить SQL-запросы к разнородным источникам через Evolution Managed Trino без переноса данных;
😶🌫️ как оценить экономию времени и ресурсов при переходе с self-hosted решений на managed-сервисы.
В практической части получится настроить ETL-пайплайн от извлечения данных до формирования витрины и выполнить трансформации.
Зарегистрироваться
Разрозненные источники данных, ручные скрипты и постоянные сбои в ETL-процессах создают хаос. Это приводит к задержкам в аналитике, ошибкам в отчетах и потере времени на поддержку инфраструктуры вместо создания ценности для бизнеса.
На вебинаре 12 февраля эксперт Cloud.ru расскажет, как создать надежную и масштабируемую ETL-платформу в облаке за считанные часы.
В программе:
В практической части получится настроить ETL-пайплайн от извлечения данных до формирования витрины и выполнить трансформации.
Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡7🙈6🫡1
Хороший update от эксперта в AI https://x.com/karpathy/status/2015883857489522876?s=46
Мне особенно нравится секция “последствия”.
Это заметки о том, как AI-ассистенты (особенно Claude) радикально изменили процесс программирования за последние месяцы.
Основные идеи:
Революция в рабочем процессе
• Автор перешёл от 80% ручного кодирования к 80% работы через AI-агентов за несколько недель (ноябрь-декабрь 2025)
• Теперь он буквально "программирует на английском языке", описывая словами, что должен делать код
• Это самое большое изменение в его практике программирования за 20 лет
Проблемы и ограничения
• Модели всё ещё делают ошибки — не синтаксические, а концептуальные (как "торопливый джуниор")
• Они делают предположения без проверки, не просят уточнений, не указывают на противоречия
• Усложняют код без необходимости, раздувают абстракции, не убирают мёртвый код
• Нужно следить за их работой в IDE
Новые возможности
• Выносливость: агенты никогда не устают и не деморализуются, могут работать над проблемой 30+ минут
• Расширение возможностей: можно делать вещи, которые раньше "не стоили усилий", или работать с незнакомым кодом
• Веселье: программирование стало интереснее, осталась только творческая часть
Последствия
• Атрофия навыков ручного кодирования
• Грядущий "slopacolypse" (лавина низкокачественного AI-контента) в 2026 году
• Вопросы о будущем: что станет с "10x инженерами"? Будут ли генералисты превосходить специалистов?
Вывод: В декабре 2025 AI-агенты (Claude, Codex) пересекли порог когерентности, вызвав фазовый переход в софтверной инженерии. 2026 будет годом адаптации индустрии к этой новой реальности.
Мне особенно нравится секция “последствия”.
X (formerly Twitter)
Andrej Karpathy (@karpathy) on X
A few random notes from claude coding quite a bit last few weeks.
Coding workflow. Given the latest lift in LLM coding capability, like many others I rapidly went from about 80% manual+autocomplete coding and 20% agents in November to 80% agent coding and…
Coding workflow. Given the latest lift in LLM coding capability, like many others I rapidly went from about 80% manual+autocomplete coding and 20% agents in November to 80% agent coding and…
⚡15🍌2🌚1
Принес вам немножко инсайтов. В одной большой компании, которая управляет большим капиталом (wealth management) внедряют Databricks, чтобы
1) модернизировать legacy
2) дать возможность партнерам использовать централизованную платформу
3) добавить ML и GenAI возможности
В компании прям все очень грустно с точки зрения мотивации, люди просиживают штаны. Соотвественно, компания используют подрядчика. Подрядчик, пользуется этой слабостью компании и диктует свои условия. VP data&ai решил меня записать в advisory и показал мне price в час консультантов:
Accountable Executive - $361
Engagement Lead - $309
Data Architect - $309
Data Engineer - $242
Senior Data & AI Engineer - $278
DevOps Architect - $309
Для сравнения в Канаде, если вы хотите работать как контактор, вы можете максимально получать 95-100$, даже если работать на прямую на компанию. А если на фирму прослойку, то это уже 55-65$. Вот такой вот беспредел.
Особенно интересно смотреть на full time загрузку Engagement Lead, кто по факту просто выполняет роль PM и каждый день проводит standup. И самое печальное в этой истории, что сотрудники самой компании не использую возможность перенять опыт у дорогих консультантов и не хотят развиваться. И так как VP сидит высоко, а инженерам все-равно, получается, что VP покупает “кота в мешке” у консалтинговой компании, которая обещает AI звездолет (по методичке), и каждый новый проект начинается с чистого листа, даже если это продолжение прошлого проекта.
Так как ознакомился со скоупом, я предложил кардинально другое решение, которое лучше и проще и заодно должно быть на 50% дешевле. Можно было и самим все сделать, но “таков путь” большого enterprise.
1) модернизировать legacy
2) дать возможность партнерам использовать централизованную платформу
3) добавить ML и GenAI возможности
В компании прям все очень грустно с точки зрения мотивации, люди просиживают штаны. Соотвественно, компания используют подрядчика. Подрядчик, пользуется этой слабостью компании и диктует свои условия. VP data&ai решил меня записать в advisory и показал мне price в час консультантов:
Accountable Executive - $361
Engagement Lead - $309
Data Architect - $309
Data Engineer - $242
Senior Data & AI Engineer - $278
DevOps Architect - $309
Для сравнения в Канаде, если вы хотите работать как контактор, вы можете максимально получать 95-100$, даже если работать на прямую на компанию. А если на фирму прослойку, то это уже 55-65$. Вот такой вот беспредел.
Особенно интересно смотреть на full time загрузку Engagement Lead, кто по факту просто выполняет роль PM и каждый день проводит standup. И самое печальное в этой истории, что сотрудники самой компании не использую возможность перенять опыт у дорогих консультантов и не хотят развиваться. И так как VP сидит высоко, а инженерам все-равно, получается, что VP покупает “кота в мешке” у консалтинговой компании, которая обещает AI звездолет (по методичке), и каждый новый проект начинается с чистого листа, даже если это продолжение прошлого проекта.
Так как ознакомился со скоупом, я предложил кардинально другое решение, которое лучше и проще и заодно должно быть на 50% дешевле. Можно было и самим все сделать, но “таков путь” большого enterprise.
❤🔥23🤷9🙉5
Ох уж эти агенты, невозможно оторваться! Сколько всего можно сделать, когда знаешь, как вежливо попросить AI сделать это за тебя:
• новые Airflow DAGs
• добавить новый источник данных Walmart API и встроить его в dbt модели в bronze/silver/gold, а также проверить, что ничего не сломалось
• создать новый проект для Surfalytics, чтобы выгружать всю историю в JSON для автогенерации Weekly Emails и создания RAG на основе накопленных знаний
• создать с нуля AWS хранилище данных на Redshift через AWS CloudFormation и подключить к нему dbt, чтобы через dbt-external-tables читать сотню таблиц, используя Redshift Spectrum — вообще целый проект миграции с on-premise на AWS под ключ можно сделать с AI
• создать упражнения для последней главы нашей новой книги Azure Databricks Data Engineering, причём глава о ML и GenAI
• создать Azure DevOps pipelines для Databricks и написать ко всему этому документацию
• прочитать проектные документы и написать развёрнутые ответы
• добавить интеграцию Plaid API в Airflow и dbt модели
• накатать документацию по Subscription (это единственный прощальный проект, про который я писал, но решил сдаться)
• изучить новую фичу Claude Code Agent Teams и запустить тест по созданию с нуля Azure Data Warehouse с Azure SQL Server, Azure CosmosDB, Azure Postgres, Azure Data Factory, Azure DevOps repos и pipelines. Я дал доступ к своему Azure аккаунту и поставил задачу создать всё самостоятельно — ещё создаёт. То есть если подождать немного, то уже не нужны всякие сложные GasTown, Multi Claude и т.п. У Cursor тоже есть Parallel Agents. Но у меня пока нет таких задач, где нужно вместе так рабоать, лучше просто режим YOLO и погнали😡
Это что пришло в голову с ходу.
Очевидно одно: с такими возможностями можно реализовать любую идею очень быстро. Не знаю как у вас, но у меня 80-90% работы идёт через AI. Со вчерашнего дня использую уже Opus 4.6. Конечно, где-то бывают затыки, но вместе с AI всё решаемо. Для всех Surfalytics members AI IDE — must have. Без AI, я бы тоже самое делал бы 5 недель.
• новые Airflow DAGs
• добавить новый источник данных Walmart API и встроить его в dbt модели в bronze/silver/gold, а также проверить, что ничего не сломалось
• создать новый проект для Surfalytics, чтобы выгружать всю историю в JSON для автогенерации Weekly Emails и создания RAG на основе накопленных знаний
• создать с нуля AWS хранилище данных на Redshift через AWS CloudFormation и подключить к нему dbt, чтобы через dbt-external-tables читать сотню таблиц, используя Redshift Spectrum — вообще целый проект миграции с on-premise на AWS под ключ можно сделать с AI
• создать упражнения для последней главы нашей новой книги Azure Databricks Data Engineering, причём глава о ML и GenAI
• создать Azure DevOps pipelines для Databricks и написать ко всему этому документацию
• прочитать проектные документы и написать развёрнутые ответы
• добавить интеграцию Plaid API в Airflow и dbt модели
• накатать документацию по Subscription (это единственный прощальный проект, про который я писал, но решил сдаться)
• изучить новую фичу Claude Code Agent Teams и запустить тест по созданию с нуля Azure Data Warehouse с Azure SQL Server, Azure CosmosDB, Azure Postgres, Azure Data Factory, Azure DevOps repos и pipelines. Я дал доступ к своему Azure аккаунту и поставил задачу создать всё самостоятельно — ещё создаёт. То есть если подождать немного, то уже не нужны всякие сложные GasTown, Multi Claude и т.п. У Cursor тоже есть Parallel Agents. Но у меня пока нет таких задач, где нужно вместе так рабоать, лучше просто режим YOLO и погнали
Это что пришло в голову с ходу.
Очевидно одно: с такими возможностями можно реализовать любую идею очень быстро. Не знаю как у вас, но у меня 80-90% работы идёт через AI. Со вчерашнего дня использую уже Opus 4.6. Конечно, где-то бывают затыки, но вместе с AI всё решаемо. Для всех Surfalytics members AI IDE — must have. Без AI, я бы тоже самое делал бы 5 недель.
Please open Telegram to view this post
VIEW IN TELEGRAM
Claude Code Docs
Orchestrate teams of Claude Code sessions - Claude Code Docs
Coordinate multiple Claude Code instances working together as a team, with shared tasks, inter-agent messaging, and centralized management.
❤🔥39⚡3🍌2🌚1
Поделюсь опытом создания Azure инфраструктуры для пет проекта. Сейчас у нас закончился проект Surfalytics, где я 2 часа рассказывал про Azure reference architectures и пример создания решения с и без агентов. Но запись не сработала😿
Вот, что я заказал у agent teams:
Что сделал Claude Code Team Agents:
То есть создал 6 задач и несколько агентов, причем некоторые задачи могут выполняться параллельно.
Что я получил на выходе и оценка от 1 до 5.
• Azure Resource Group в которой создались все ресурсы - 5
• Azure CosmosDB с одной БД и 3мя контейнерами и JSON документами как sample - 5
• Azure SQL Server с новой базой данных и sample таблица - 5
• Azure Postgres (data warehouse) пустой - 5
• Azure Data Factory сам workspace - 5
• Использование Azure CLI для всех задач - 5 (и не нужен MCP)
• Сохранить все в Azure DevOps Repo - 4 (даже не смотря на то, что это то как я хотел, но я не объяснил нормально)
Теперь, где оказались проблемы
• Когда все закончилось, я пошел в ADF и нашел pipelines, но они не работали, то есть где-то, что-то потерялось. Я попросил агентов починить, и они все починили. И тут я понял, что я не написал заранее про тестирование всего, что мы сделали.
• Все пароли оказались прям в коде pipelines и я попросил использовать Azure Key Vault. Агент все сохранил в Azure Key Vault, но не обновил ничего внутри ADF. Опять же мой косяк, я не просил об этом.
• Сами data pipelines были странные. В CosmosDB у меня было 3 таблицы, в Azure SQL у меня было 4 таблицы. И я хотел что-то вроде dimensional model. По факту он создал 3 pipelines с COPY activity. Тут был прям худший результат. Но и мой запрос был очень поверхностный.
Дальше я попросил агентов добавить Watermark таблицу для инкрементальной загрузки и таблицу для логов запуска pipelines и поставить все на расписание.
• Агенты добавил новый adf pipelines и добавил в каждый возможность logging (но я бы так не сделал бы)
• Для SCD Агнеты сделали блоки с SQL командами INSERT/UPDATE, хотя INSERT блок назвали MERGE.
Поэтому за часть Dimensional Modelling я поставлю 1, даже после моих подсказок он всё равно не выполнил то, что я просил.
Вот, что я заказал у agent teams:
Отлично, теперь я использую команду для построения своего рода Azure Data Warehouse используя:
Azure SQL Server как мою source database
Azure CosmosDB как мою source NoSQL database
Azure Postgres как мой data warehouse
Azure Data Factory для загрузки данных из sources в Postgres (destination)
Azure DevOps Repos для кода, мы можем подключить Azure DevOps для Azure Data Factory, а также для любых видов transformations. У меня есть account https://dev.azure.com/surfalytics/
вы можете начать с новой resource group в Azure rg-surfalytics-ai-agents и создать все resources. Убедитесь, что они находятся в одном Region.
вы можете сгенерировать sample data в SQL Server как OLTP для SQL Server и Documents для CosmosDB
мы выполнили az (Azure CLI) и он залогинен в Azure Subscription
Вы можете использовать team of agents для разделения работы и убедиться, что у нас есть working solution в Azure.
Что сделал Claude Code Team Agents:
| Task | Status | Agent |
|-----------------------|-------------------|----------------|
| #1 Infrastructure | Completed | infra-agent |
| #2 SQL Server data | In progress | data-agent |
| #3 CosmosDB documents | Starting now | infra-agent |
| #4 Warehouse schema | Completed | infra-agent |
| #5 ADF Pipelines | Waiting on #2, #3 | pipeline-agent |
| #6 DevOps + CI/CD | Waiting on #5 | pipeline-agent |
То есть создал 6 задач и несколько агентов, причем некоторые задачи могут выполняться параллельно.
Что я получил на выходе и оценка от 1 до 5.
• Azure Resource Group в которой создались все ресурсы - 5
• Azure CosmosDB с одной БД и 3мя контейнерами и JSON документами как sample - 5
• Azure SQL Server с новой базой данных и sample таблица - 5
• Azure Postgres (data warehouse) пустой - 5
• Azure Data Factory сам workspace - 5
• Использование Azure CLI для всех задач - 5 (и не нужен MCP)
• Сохранить все в Azure DevOps Repo - 4 (даже не смотря на то, что это то как я хотел, но я не объяснил нормально)
Теперь, где оказались проблемы
• Когда все закончилось, я пошел в ADF и нашел pipelines, но они не работали, то есть где-то, что-то потерялось. Я попросил агентов починить, и они все починили. И тут я понял, что я не написал заранее про тестирование всего, что мы сделали.
• Все пароли оказались прям в коде pipelines и я попросил использовать Azure Key Vault. Агент все сохранил в Azure Key Vault, но не обновил ничего внутри ADF. Опять же мой косяк, я не просил об этом.
• Сами data pipelines были странные. В CosmosDB у меня было 3 таблицы, в Azure SQL у меня было 4 таблицы. И я хотел что-то вроде dimensional model. По факту он создал 3 pipelines с COPY activity. Тут был прям худший результат. Но и мой запрос был очень поверхностный.
Дальше я попросил агентов добавить Watermark таблицу для инкрементальной загрузки и таблицу для логов запуска pipelines и поставить все на расписание.
• Агенты добавил новый adf pipelines и добавил в каждый возможность logging (но я бы так не сделал бы)
• Для SCD Агнеты сделали блоки с SQL командами INSERT/UPDATE, хотя INSERT блок назвали MERGE.
Поэтому за часть Dimensional Modelling я поставлю 1, даже после моих подсказок он всё равно не выполнил то, что я просил.
Что бы я сделал по-другому
Самое очевидное — это банальный prompt engineering. Вы видели мой наивный запрос. Что попросил, то и получил. Причём к самой инфраструктуре почти нет вопросов. А вот там, где уже надо включать голову, оказалось сложнее. Если бы я взял свой prompt и с помощью LLM сделал чёткий и конкретный план, я бы получил совсем другой результат.
Обязательно надо прописывать критерии успеха и пути тестирования.
К сожалению, я не сделал YOLO режим, и нужно было раз 100 нажать accept.
В каком-то смысле агенты работают со своей Spec, планируют и выполняют задачи последовательно, как если бы я использовал OpenSpec и запускал задачи сам.
В реальных задачах я бы ещё не доверил end-to-end агентам, но у меня просто нет такой необходимости и таких задач. Я всё ещё сам хочу контролировать архитектуру, инструменты. Но прогресс налицо.
Цена вопроса
Так как я гонял Opus 4.6 ещё и на рабочие задачки, то сложно сказать конкретно стоимость этого упражнения. Я использую Anthropic API, и там нет привычных лимитов. За вечер я сжёг $40 и потратил 55 млн токенов. Хотя если посмотреть Claude stat, то видно, что больше половины токенов — это cache-токены, которые дешевле.
Цена Azure-ресурсов — $2 в день для моего стенда.
Что можно ещё сделать
Таким образом можно создать готовые решения на Azure, AWS, GCP в целях обучения и pet-проектов. Можно тестировать batch/streaming и моделирование хранилища данных.
Следующее упражнение я хочу сделать на Open Source, чтобы всё деплоилось на локальном Docker или Kubernetes, но уже скормить хороший spec на вход.
PS Я реально получил удовольствие от процесса, и в какой-то степени сессии с Claude Code заменили потребность в doom scrolling и социальных сетях.
PPS Если вы недавно стали работать инженером/аналитиком (не только DE, любым), то вы в опасности.
Нет, не потому, что вас AI заменит, а потому, что теперь можно, не напрягаясь, очень легко получить хороший результат, при этом совершенно не понимая, что происходит.
Вот мне AI сохранил пароль в pipelines и другие ляпы, а для новичка это непонятно.
Вы можете работать месяцами, и AI будет делать за вас работу, но вы не будете развиваться и не будете понимать основ, таким образом годы опыта не будут считаться реальным опытом.
Так что поаккуратнее там с AI.
Почему я такой эффективный с AI? Это не только потому, что AI такой крутой, а потому, что у меня 15 лет опыта, и первые лет 12-13 я всё делал руками и гуглил каждую ошибку.
Поэтому сейчас AI мне помогает делать быстрее то, что я знаю и умею. И это ключевое отличие на данном этапе. Возможно, в будущем и этот эффект пропадёт, и мои знания тоже обесценятся, а пока можно кайфовать - золотое время матерых инженеров📈
Самое очевидное — это банальный prompt engineering. Вы видели мой наивный запрос. Что попросил, то и получил. Причём к самой инфраструктуре почти нет вопросов. А вот там, где уже надо включать голову, оказалось сложнее. Если бы я взял свой prompt и с помощью LLM сделал чёткий и конкретный план, я бы получил совсем другой результат.
Обязательно надо прописывать критерии успеха и пути тестирования.
К сожалению, я не сделал YOLO режим, и нужно было раз 100 нажать accept.
В каком-то смысле агенты работают со своей Spec, планируют и выполняют задачи последовательно, как если бы я использовал OpenSpec и запускал задачи сам.
В реальных задачах я бы ещё не доверил end-to-end агентам, но у меня просто нет такой необходимости и таких задач. Я всё ещё сам хочу контролировать архитектуру, инструменты. Но прогресс налицо.
Цена вопроса
Так как я гонял Opus 4.6 ещё и на рабочие задачки, то сложно сказать конкретно стоимость этого упражнения. Я использую Anthropic API, и там нет привычных лимитов. За вечер я сжёг $40 и потратил 55 млн токенов. Хотя если посмотреть Claude stat, то видно, что больше половины токенов — это cache-токены, которые дешевле.
Цена Azure-ресурсов — $2 в день для моего стенда.
Что можно ещё сделать
Таким образом можно создать готовые решения на Azure, AWS, GCP в целях обучения и pet-проектов. Можно тестировать batch/streaming и моделирование хранилища данных.
Следующее упражнение я хочу сделать на Open Source, чтобы всё деплоилось на локальном Docker или Kubernetes, но уже скормить хороший spec на вход.
PS Я реально получил удовольствие от процесса, и в какой-то степени сессии с Claude Code заменили потребность в doom scrolling и социальных сетях.
PPS Если вы недавно стали работать инженером/аналитиком (не только DE, любым), то вы в опасности.
Нет, не потому, что вас AI заменит, а потому, что теперь можно, не напрягаясь, очень легко получить хороший результат, при этом совершенно не понимая, что происходит.
Вот мне AI сохранил пароль в pipelines и другие ляпы, а для новичка это непонятно.
Вы можете работать месяцами, и AI будет делать за вас работу, но вы не будете развиваться и не будете понимать основ, таким образом годы опыта не будут считаться реальным опытом.
Так что поаккуратнее там с AI.
Почему я такой эффективный с AI? Это не только потому, что AI такой крутой, а потому, что у меня 15 лет опыта, и первые лет 12-13 я всё делал руками и гуглил каждую ошибку.
Поэтому сейчас AI мне помогает делать быстрее то, что я знаю и умею. И это ключевое отличие на данном этапе. Возможно, в будущем и этот эффект пропадёт, и мои знания тоже обесценятся, а пока можно кайфовать - золотое время матерых инженеров
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥36💯9
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥18🌚2