Инжиниринг Данных
23.6K subscribers
2K photos
57 videos
193 files
3.22K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
После волны AI-стартапов что станет новым фокусом для венчурных инвестиций и технологических компаний?
Anonymous Poll
35%
🧬 Биотехнологии и продление жизни — технологии anti-aging и борьбы со старением
17%
⚛️ Квантовые вычисления — компьютеры нового поколения для невозможных сейчас задач
8%
☀️ Термоядерная энергетика — чистая и практически безграничная энергия
18%
🧠 Нейроинтерфейсы — прямое подключение мозга к компьютерам и устройствам
3%
🚀 Космическая экономика — добыча ресурсов, туризм и инфраструктура в космосе
5%
🌐 Децентрализованный интернет — возврат контроля над данными пользователям
3%
🔬 Синтетическая биология — программирование живых организмов как кода
3%
💎 Новые материалы — графен, метаматериалы и программируемая материя
4%
🧘 Ментальное здоровье и нейронаука — технологии работы с сознанием и психикой
5%
🥩 Культивированная еда — выращивание мяса и продуктов из клеток в лабораториях
Все самое лучшее всегда должно быть простым и понятным. Это применимо ко всему.

Если взять пример внедрение аналитических решений, взаимодействия с другими командами, то я ничего лучше не видел, чем framework DACI.

Матрица DACI (да́си) — это таблица, в которой описывают роли членов команды на всех этапах проекта. Каждый участник может узнать, за что сейчас отвечает и что должен сделать.

Всего существуют четыре роли:
• Driver (организатор) — отвечает за процесс и результат.
• Approver (заказчик) — принимает и оценивает итоги работы.
• Contributor (исполнитель) — работает руками или консультирует.
• Informed (информированный) — находится в курсе процесса.


Для меня это простой инструмент экономии моего (и команды) времени. Нет смысла сидеть на встречах и слушать мнения некомпетентных коллег, особенно там, где у меня есть опыт.

Один из недавних примеров - организация хочет строить аналитическое решение в AWS. У них сейчас on-premise SQL Server, SSIS, SSRS, и они уже месяцев 8 двигаются в эту сторону. Даже создали кластер Redshift, за который платят по $1000 в месяц, но только ничего на нём не сделали. Оно и понятно, ведь организация почти государственного масштаба, даже есть профсоюз, поэтому они не боятся увольнения, и AI им тоже не к чему.

Что может быть проще, чем сделать хранилище на AWS и Redshift? Поэтому, чтобы ускорить процесс, мы создаём в Confluence Decision Log и список горячих вопросов. Для каждого вопроса у нас создаётся документ DACI, в моём случае список документов:

1. Количество AWS акаунтов - один общий для Dev/Prod или несколько, для каждой среды. Очевидно, чем больше акаунтов, тем дороже в линейной зависимости.

2. Каким образом мы накатываем изменения в AWS аккаунт? CloudFormation, Terraform, CDK - нужно выбрать один способ, и мне вообще всё равно, я больше сам код не пишу для инфраструктуры, хоть на Rust. Но важно, чтобы репозиторий был вне периметра IT, чтобы у нас были все козырные права.

3. Framework для трансформации данных - dbt, Glue, stored procedures. Они уже вовсю гоняют Glue Spark, чтобы данные внутри Redshift трансформировать. Про dbt не слышали. Хотя специально для таких консервативных пользователей лучше, чем dbt, нет.

4. Orchestration инструмент - AWS Batch, AWS Step Functions, on-premise Airflow (уже есть), Airflow on ECS, Managed Airflow. Так как я уже два раза внедрял Managed Airflow и остался очень доволен, то мой выбор очевиден. Но IT хотели бы свой Airflow on-premise.

5. Среда разработки - виртуальная рабочая станция (для работы с on-premise) или сам ноутбук. Даже без админского доступа я уже всё себе смог настроить через Python, VSCode. Но хотелось бы, чтобы они немного поменяли mindset и жили в современном мире.

Написать эти 5 документов у меня заняло где-то час. И то пришлось копировать руками из Markdown в Confluence, потому что я не смог поставить Confluence MCP, так как нет прав на установку npm. А через Python не получилось. Без AI я мог бы писать по одному документу в день. А если взять их pace time, то можно писать один документ в неделю.

В данном контексте AI лишь помог расширить мою мысль про правильное решение и подтянул дополнительные факты. Вообще через такие документы можно манипулировать мнением других. Дальше все желающие оставят комментарии, мы на них ответим, и, как говорится, полный газ.

Менеджера я тоже очень воодушевил, рассказал ему, что он Leader (с большой буквы) и его задача убирать road blockers для команды и всех делать счастливыми (типа иди договаривайся с IT, как все доступы получить).

У них ещё команда не обычная: главный ETL-разработчик уже не один десяток лет работает с ними, и, к сожалению, он практически ослеп на старость лет, но он всё ещё главный ETL-разработчик и делает мне демо, как у них там всё работает. А вы тут говорите, у вас времени нет учить AI и зарабатывать 😊
❤‍🔥29💯8
Media is too big
VIEW IN TELEGRAM
Я: 2 зума подряд — выгорел, productivity на нуле

Чувак с 5 remote jobs…
🙈30❤‍🔥84🐳2
Тут накопилось несколько событий.

1️⃣Во вторник 3го февраля по Москве в 6 вечера будет вебинар про Iceberg и Lakehouse, вот детали:

Ссылка:
https://us06web.zoom.us/j/84412299387?pwd=0nAeguTrx40NPv7Ny7rGaVhyvUBvqa.1

Пост:
https://t.iss.one/analyticsfromzero/435 (в комментах есть ссылка календарь)

Описание
С первого взгляда кажется, что Лейкхаус - это чудовищный зоопарк решений, компонентов и сервисов. И так оно и есть ) Для демонстрации и курса Алексей собрал небольшой стенд на одной виртуальной машинке. Хватает простой Убунты на 6 ядрах, чтобы запустить полноценную функциональную сборку и посмотреть, как работает этот класс решений.

На открытом воркшопе Алексей покажет компонентный состав, а по итогу - даст ссылку на GitHub, с помощью которого можно собрать стенд за пару скриптов.

Об авторе
Алексей Белозерский - самый главный по BigDataстроению @ VK Cloud 🤩

———

2️⃣Недавно собрались отцы основатели отечественного дашбордостроения (скорей всего они уже строят свои дашборды на весь мир) и обсудили изменения в индустрии - Dashboardless Analytics - Алексей Колоколов, Дмитрий Некрасов, Роман Бунин.

Описание тут: https://t.iss.one/jetmetrics/370 | https://t.iss.one/analyst_club/2726
Запись тут: https://insba.getcourse.ru/after_web_23-01-26

PS Никого не забыл упомянуть?!🟢
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥94🌚1
Команды Яндекса ищут продуктовых и data-аналитиков, а также data scientists с опытом на Python от 3 лет.

Участвуйте в Weekend Offer, чтобы всего за 2 дня пройти все собеседования и получить офер.

Как участвовать?
Зарегистрироваться на сайте до 25 февраля.
Пройти две технические секции 28 февраля.
Познакомиться с командами и получить офер 1 марта.

Мы опираемся на научные исследования и аналитические данные, а потом превращаем их в реальные продукты для миллионов пользователей. Присоединяйтесь, чтобы строить полезные сервисы вокруг ИИ-технологий, находить новые решения и делать то, что другим не по силам.

Подробности и регистрация — по ссылке: https://yandex.ru/project/events/wo-analytics-0226
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚9🙈6❤‍🔥41🤷1
🎓Снова вебинар 🎓
Сегодня 3 февраля в 20:00 по мск

🖥 Тема: OLAP Cервер для нового стека данных
Ребята сделали штуку - XLTable, в которой можно работать с ClickHouse, BigQuery, Snowflake из сводной таблицы Excel.
Аналог MS OLAP (SSAS) для больших данных.
В общем послушаем, что расскажут об инструменте и про олап кубики, заявляют, что из эксельки можно работать с миллиардами строк данных, у меня например при 500 тыс. все тормозит 😄

Спикер: Богдан Калиновский

#Вебинар #datalearn
Please open Telegram to view this post
VIEW IN TELEGRAM
218❤‍🔥5🙉5💯3🙈2🐳1
Live stream finished (56 minutes)
Life hack для менеджера и тимлида — Монополия на знание

• Ставите себе Claude Code / Cursor.
• Подключаете все возможные MCP (Confluence, Git, базы данных и т. д.).
• Настраиваете CLI для ваших сервисов (CI/CD, Infra, Monitoring и т. д.).
• Подключаетесь к Jira, чтобы всё мониторилось за вас.
• Записи всех встреч скармливаете в AI и получаете готовый backlog и Action Items.

Добавляете еще несколько полезных интеграций по вкусу.

Но самое главное: вы официально запрещаете использовать AI на работе под страхом увольнения. Ведь это «небезопасно» и «не комплаенс».

Таким образом, вы становитесь «Брюсом Тимлидом Всемогущим», реализуя исторические модели доминирования:

• «Вассал собирал оброк с крестьян»
• «Феодал взимал дань с зависимых крестьян»
• «Помещик собирал подати с крепостных»
• «Землевладелец получал ренту от крестьян»

Но пока часто получается наоборот: один инженер втихую делает всё сам, пока менеджеры пропадают на встречах, а команда погрязла в рутине и не находит времени на самосовершенствование.
🌚3565🤷2
This media is not supported in your browser
VIEW IN TELEGRAM
Планируем поезду в LA в середине марта, чтобы взять 911 и на нем покататься по побережью до SF.

Можно как обычно на сидр где-нибудь встретиться или еще чего сделать🥇
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥25🫡41
Строчка из свежего job offer

Увольнения: В связи с экономическими или иными деловыми условиями Компания может временно отстранить вас от работы. Любое такое временное отстранение, при условии что оно соответствует требованиям ESA, не будет являться прекращением вашей трудовой деятельности или конструктивным увольнением.


Ну то есть если вы выходите на новую работу, у вас нет абсолютно никаких гарантий. Раньше я такой пункт не видел, а теперь это обычная практика.

🙅‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡21🐳842👨‍💻1
Больше всего в ру сегменте люблю читать про 🐺- https://habr.com/ru/companies/it_sense/articles/916176/

Одни кайфуют и сыпят баблом, другие им завидуют и размышляют на тему как это плохо, как страдает вся индустрия.

Русский АйТи как ковчег, где на всех места не хватит все ссорятся между собой.

А тем временем AI наступает на пятки, компании могут сокращать, а зарплаты не растут.

Какие там еще движухи интересные? Вот слышал про млн индусов, они как в ИТ или куда планируют?
ETL в облаке: от хаоса к управляемым процессам

Разрозненные источники данных, ручные скрипты и постоянные сбои в ETL-процессах создают хаос. Это приводит к задержкам в аналитике, ошибкам в отчетах и потере времени на поддержку инфраструктуры вместо создания ценности для бизнеса.

На вебинаре 12 февраля эксперт Cloud.ru расскажет, как создать надежную и масштабируемую ETL-платформу в облаке за считанные часы.

В программе:
😶‍🌫️как интегрировать данные из различных источников (базы данных, S3, API) в единую экосистему с помощью Evolution Managed Spark и Managed Airflow;

😶‍🌫️как централизовать управление метаданными и схемами с помощью Evolution Managed Metastore для согласованности и качества данных;

😶‍🌫️как настроить SQL-запросы к разнородным источникам через Evolution Managed Trino без переноса данных;

😶‍🌫️как оценить экономию времени и ресурсов при переходе с self-hosted решений на managed-сервисы.

В практической части получится настроить ETL-пайплайн от извлечения данных до формирования витрины и выполнить трансформации.

Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
7🙈6🫡1
Хороший update от эксперта в AI https://x.com/karpathy/status/2015883857489522876?s=46

Это заметки о том, как AI-ассистенты (особенно Claude) радикально изменили процесс программирования за последние месяцы.
Основные идеи:
Революция в рабочем процессе
• Автор перешёл от 80% ручного кодирования к 80% работы через AI-агентов за несколько недель (ноябрь-декабрь 2025)
• Теперь он буквально "программирует на английском языке", описывая словами, что должен делать код
• Это самое большое изменение в его практике программирования за 20 лет
Проблемы и ограничения
• Модели всё ещё делают ошибки — не синтаксические, а концептуальные (как "торопливый джуниор")
• Они делают предположения без проверки, не просят уточнений, не указывают на противоречия
• Усложняют код без необходимости, раздувают абстракции, не убирают мёртвый код
• Нужно следить за их работой в IDE
Новые возможности
• Выносливость: агенты никогда не устают и не деморализуются, могут работать над проблемой 30+ минут
• Расширение возможностей: можно делать вещи, которые раньше "не стоили усилий", или работать с незнакомым кодом
• Веселье: программирование стало интереснее, осталась только творческая часть
Последствия
• Атрофия навыков ручного кодирования
• Грядущий "slopacolypse" (лавина низкокачественного AI-контента) в 2026 году
• Вопросы о будущем: что станет с "10x инженерами"? Будут ли генералисты превосходить специалистов?
Вывод: В декабре 2025 AI-агенты (Claude, Codex) пересекли порог когерентности, вызвав фазовый переход в софтверной инженерии. 2026 будет годом адаптации индустрии к этой новой реальности.


Мне особенно нравится секция “последствия”.
15🍌2
После косяков с clawd/moltbot я не решился ставить его. Но народ прям доволен, кто пользуется? Какие кейсы у вас?
1
Принес вам немножко инсайтов. В одной большой компании, которая управляет большим капиталом (wealth management) внедряют Databricks, чтобы
1) модернизировать legacy
2) дать возможность партнерам использовать централизованную платформу
3) добавить ML и GenAI возможности

В компании прям все очень грустно с точки зрения мотивации, люди просиживают штаны. Соотвественно, компания используют подрядчика. Подрядчик, пользуется этой слабостью компании и диктует свои условия. VP data&ai решил меня записать в advisory и показал мне price в час консультантов:

Accountable Executive - $361
Engagement Lead - $309
Data Architect - $309
Data Engineer - $242
Senior Data & AI Engineer - $278
DevOps Architect - $309


Для сравнения в Канаде, если вы хотите работать как контактор, вы можете максимально получать 95-100$, даже если работать на прямую на компанию. А если на фирму прослойку, то это уже 55-65$. Вот такой вот беспредел.

Особенно интересно смотреть на full time загрузку Engagement Lead, кто по факту просто выполняет роль PM и каждый день проводит standup. И самое печальное в этой истории, что сотрудники самой компании не использую возможность перенять опыт у дорогих консультантов и не хотят развиваться. И так как VP сидит высоко, а инженерам все-равно, получается, что VP покупает “кота в мешке” у консалтинговой компании, которая обещает AI звездолет (по методичке), и каждый новый проект начинается с чистого листа, даже если это продолжение прошлого проекта.

Так как ознакомился со скоупом, я предложил кардинально другое решение, которое лучше и проще и заодно должно быть на 50% дешевле. Можно было и самим все сделать, но “таков путь” большого enterprise.
❤‍🔥21🤷6🙉5
Ох уж эти агенты, невозможно оторваться! Сколько всего можно сделать, когда знаешь, как вежливо попросить AI сделать это за тебя:
• новые Airflow DAGs
• добавить новый источник данных Walmart API и встроить его в dbt модели в bronze/silver/gold, а также проверить, что ничего не сломалось
• создать новый проект для Surfalytics, чтобы выгружать всю историю в JSON для автогенерации Weekly Emails и создания RAG на основе накопленных знаний
• создать с нуля AWS хранилище данных на Redshift через AWS CloudFormation и подключить к нему dbt, чтобы через dbt-external-tables читать сотню таблиц, используя Redshift Spectrum — вообще целый проект миграции с on-premise на AWS под ключ можно сделать с AI
• создать упражнения для последней главы нашей новой книги Azure Databricks Data Engineering, причём глава о ML и GenAI
• создать Azure DevOps pipelines для Databricks и написать ко всему этому документацию
• прочитать проектные документы и написать развёрнутые ответы
• добавить интеграцию Plaid API в Airflow и dbt модели
• накатать документацию по Subscription (это единственный прощальный проект, про который я писал, но решил сдаться)
• изучить новую фичу Claude Code Agent Teams и запустить тест по созданию с нуля Azure Data Warehouse с Azure SQL Server, Azure CosmosDB, Azure Postgres, Azure Data Factory, Azure DevOps repos и pipelines. Я дал доступ к своему Azure аккаунту и поставил задачу создать всё самостоятельно — ещё создаёт. То есть если подождать немного, то уже не нужны всякие сложные GasTown, Multi Claude и т.п. У Cursor тоже есть Parallel Agents. Но у меня пока нет таких задач, где нужно вместе так рабоать, лучше просто режим YOLO и погнали 😡

Это что пришло в голову с ходу.

Очевидно одно: с такими возможностями можно реализовать любую идею очень быстро. Не знаю как у вас, но у меня 80-90% работы идёт через AI. Со вчерашнего дня использую уже Opus 4.6. Конечно, где-то бывают затыки, но вместе с AI всё решаемо. Для всех Surfalytics members AI IDE — must have. Без AI, я бы тоже самое делал бы 5 недель.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥373🍌2🌚1
Поделюсь опытом создания Azure инфраструктуры для пет проекта. Сейчас у нас закончился проект Surfalytics, где я 2 часа рассказывал про Azure reference architectures и пример создания решения с и без агентов. Но запись не сработала😿

Вот, что я заказал у agent teams:

Отлично, теперь я использую команду для построения своего рода Azure Data Warehouse используя:

Azure SQL Server как мою source database
Azure CosmosDB как мою source NoSQL database
Azure Postgres как мой data warehouse
Azure Data Factory для загрузки данных из sources в Postgres (destination)
Azure DevOps Repos для кода, мы можем подключить Azure DevOps для Azure Data Factory, а также для любых видов transformations. У меня есть account https://dev.azure.com/surfalytics/

вы можете начать с новой resource group в Azure ⁠rg-surfalytics-ai-agents и создать все resources. Убедитесь, что они находятся в одном Region.

вы можете сгенерировать sample data в SQL Server как OLTP для SQL Server и Documents для CosmosDB

мы выполнили az (Azure CLI) и он залогинен в Azure Subscription

Вы можете использовать team of agents для разделения работы и убедиться, что у нас есть working solution в Azure.



Что сделал Claude Code Team Agents:


| Task | Status | Agent |
|-----------------------|-------------------|----------------|
| #1 Infrastructure | Completed | infra-agent |
| #2 SQL Server data | In progress | data-agent |
| #3 CosmosDB documents | Starting now | infra-agent |
| #4 Warehouse schema | Completed | infra-agent |
| #5 ADF Pipelines | Waiting on #2, #3 | pipeline-agent |
| #6 DevOps + CI/CD | Waiting on #5 | pipeline-agent |


То есть создал 6 задач и несколько агентов, причем некоторые задачи могут выполняться параллельно.

Что я получил на выходе и оценка от 1 до 5.

• Azure Resource Group в которой создались все ресурсы - 5
• Azure CosmosDB с одной БД и 3мя контейнерами и JSON документами как sample - 5
• Azure SQL Server с новой базой данных и sample таблица - 5
• Azure Postgres (data warehouse) пустой - 5
• Azure Data Factory сам workspace - 5
• Использование Azure CLI для всех задач - 5 (и не нужен MCP)
• Сохранить все в Azure DevOps Repo - 4 (даже не смотря на то, что это то как я хотел, но я не объяснил нормально)

Теперь, где оказались проблемы

• Когда все закончилось, я пошел в ADF и нашел pipelines, но они не работали, то есть где-то, что-то потерялось. Я попросил агентов починить, и они все починили. И тут я понял, что я не написал заранее про тестирование всего, что мы сделали.
• Все пароли оказались прям в коде pipelines и я попросил использовать Azure Key Vault. Агент все сохранил в Azure Key Vault, но не обновил ничего внутри ADF. Опять же мой косяк, я не просил об этом.
• Сами data pipelines были странные. В CosmosDB у меня было 3 таблицы, в Azure SQL у меня было 4 таблицы. И я хотел что-то вроде dimensional model. По факту он создал 3 pipelines с COPY activity. Тут был прям худший результат. Но и мой запрос был очень поверхностный.

Дальше я попросил агентов добавить Watermark таблицу для инкрементальной загрузки и таблицу для логов запуска pipelines и поставить все на расписание.
• Агенты добавил новый adf pipelines и добавил в каждый возможность logging (но я бы так не сделал бы)
• Для SCD Агнеты сделали блоки с SQL командами INSERT/UPDATE, хотя INSERT блок назвали MERGE.

Поэтому за часть Dimensional Modelling я поставлю 1, даже после моих подсказок он всё равно не выполнил то, что я просил.