Инжиниринг Данных
23.6K subscribers
1.99K photos
56 videos
193 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Forwarded from Книжный куб (Alexander Polomodov)
Сайт по system design (Рубрика #Architecture)

Многие мои подписчики знают, что я планировал написать книгу ... но я не уточнял какую. Суть была в том, что я параллельно занимался работой над несколькими книгами. Ближе всего к готовности была книга по System Design (с фокусом на подготовке к интервью) - мне просто было проще всего ее собрать из своих материалов. Я работал по стартинке - сделал желаемое оглавление, собрал часть глав из своих материалов и получил большой Google Doc. Но на каникулах меня осенило, что цель-то не в книге, а в удобной компиляции моих мыслей. Поэтому я поменял подход - скормил google doc сервису Lovable для создания интерактивного сайта, а дальше инкрементально начал его дорабатывать. Я этим занимался больше месяца и получился такой вот сайт system-design.space. Конечно, нет предела совершенству и я собираюсь продолжить его наполнение, но думаю, что он уже может принести пользу тем, кто хочет прокачаться в проектировании.

Если найдете какие-то ошибки или опечатки, то пишите - я буду править их по мере своих сил. В ближайшие месяцы я планирую добавить еще рекомендованных книг, поработать над пулом задачек, чтобы тут были не только классические из других книг + сделаю побольше красивых визуализаций. На более далеком горизонте я планирую пойти в стороне не только классическо system design, но и других типов, что описаны в главе про специфику интервью.

#SystemDesign #Interview #Career #Architecture #DistributedSystems #Databases #Engineering #Software
❤‍🔥57👨‍💻41
Давайте проведем опрос про уровень использования AI вами в работе.

Этап 1: Нулевой или почти нулевой ИИ: возможно автодополнение кода, иногда вопросы в чат

Этап 2: Агент для кодирования в IDE с разрешениями. Узкоспециализированный агент для кодирования в боковой панели запрашивает ваше разрешение на запуск инструментов.

Этап 3: Агент в IDE, режим YOLO: Доверие растёт. Вы отключаете разрешения, агент становится более широким.

Этап 4: В IDE, широкий агент: Ваш агент постепенно заполняет весь экран. Код нужен только для просмотра различий (diff).

Этап 5: CLI, один агент. YOLO. Различия (diff) пролетают перед глазами. Вы можете смотреть на них, а можете и нет.

Этап 6: CLI, мультиагентность, YOLO. Вы регулярно используете от 3 до 5 параллельных экземпляров. Вы работаете очень быстро.

Этап 7: 10+ агентов, ручное управление. Вы начинаете достигать пределов ручного управления.

Этап 8: Создание собственного оркестратора. Вы на передовой, автоматизируете свой рабочий процесс.

Я где-то между 4 и 6. Я не использую Cursor, поэтому CLI слово ко мне не очень подходит.

Сегодня у Cursor появилось обновление - CLI Agent. В целом я понимаю, что в IDE намного больше ограничений, так как она занимает весь экран и сложно иметь много окон с IDE, у меня обычно 2-3 сессии параллельно.

В след посте добавлю опрос.
4❤‍🔥3
🎓Старый добрый формат вебинаров 🎓
27 января в 20:00 по мск
Здесь в канале трансляция...

🖥 Тема: Единое пространство аналитики, или просто Тенгри.



Спикер - Голов Николай, последние годы строил аналитические платформы на таких системах как Snowflake и Databricks, о которых часто говорит Дмитрий.
🧩Собрал стартап, вместе с командой запилили аналог, о чем и расскажет нам.

На вебинаре мы попробуем разобраться, почему десятки тысяч компаний выбрали Snowflake, а те, кто хочет локальное развертывание, смогут выбрать Tengri Data Platform ( который доступнен как на своем железе так и в облаках, объединяющий хранение, трансформацию, визуализацию данных, SQL и Python, и все это для десятков и сотен TB).


🧠 Николай неоднократно выступал у нас, легендарные материалы про Data Vault Modeling (Можете найти на ютуб канале)

#Вебинар #datalearn
❤‍🔥30
Live stream finished (1 hour)
Там много классных AI штук появляется на рынке, что и не успеваешь за всем уследить, в Discord Surfalytics у нас даже есть специальные канал dev-boost-with-ai, где я собираю самое важное, что может повлиять на нашу работу.

Буквально на днях увидел про Clawbot. Судя по отзывам топ инструмент, который служит персональным ассистентом и живет на локальной машине (бесплатный и открытый).

Я хотел его попробовать для автоматизации создания и мониторинга задач в Jira, Notion, Asana. У меня всегда с этим проблема, я не создаю и не обновляю задачки.

А сегодня ребята скинули пост - From Clawdbot to Moltbot: How a C&D, Crypto Scammers, and 10 Seconds of Chaos Took Down the Internet's Hottest AI Project

Эта статья рассказывает о драматической истории проекта Clawdbot (теперь Moltbot) — самостоятельно размещаемого AI-ассистента, который за 72 часа пережил настоящий хаос.
Основные моменты:

Взлёт проекта
• Clawdbot набрал 60,800+ звёзд на GitHub за рекордно короткое время
• Это был AI-ассистент с "руками" — не просто чат, а инструмент, который реально выполнял действия (доступ к файлам, браузеру, командной строке)
• Поддерживал 50+ интеграций и работал через WhatsApp, Telegram, Slack, iMessage и другие платформы

Принудительный ребрендинг
• Anthropic (создатели Claude) потребовали сменить название из-за схожести "Clawd" с "Claude"
• Проект переименовали в Moltbot (от слова "molt" — линька у омаров, символ роста)

10 секунд хаоса
• При переименовании аккаунтов GitHub и X/Twitter основатель допустил ошибку
• Криптоскамеры перехватили старые аккаунты за ~10 секунд и начали рассылать мошеннические объявления
• Появились фейковые токены
$CLAWD на Solana с капитализацией до $16 млн, которые затем обрушились

Проблемы безопасности
• Исследователи обнаружили сотни публично доступных экземпляров Moltbot с открытыми учётными данными
• Через Shodan можно было найти API-ключи, токены ботов, историю переписок и возможность удалённого выполнения кода
• Демонстрация показала, как за 5 минут можно перехватить письма пользователя через prompt injection

Вопросы к Anthropic
• Многие пользователи Moltbot использовали Claude как основную модель, фактически продвигая продукт Anthropic
• Сообщество недоумевает: зачем компания преследует проект, который увеличивал продажи их подписок?

Выводы статьи:
История показывает хрупкость экосистемы AI и open-source проектов — один юридический запрос может запустить цепную реакцию из взломов, скамов и хаоса. Проект технически остаётся сильным, но репутационный ущерб огромен.

Будьте аккуратны с новыми инструментами.
❤‍🔥13
А Antropic есть станица с курсами. Я сам не проходил, но дал задание сыну (13 лет)

AI Fluency for Students
Claude 101
Claude Code in Action

Раньше
у него был VSCode + KiloCode, и он создавал простые игры. Я ему настроил Claude Code в CLI, и он сказал ему намного удобней работать в командной строке, чем в VSCode. Для меня это было неожиданно. Мне вот неудобно в CLI работать, я же не вижу файлы, которые меняется. А для него эти файлы были шумом, он сфокусирован на конечном продукте, и всякие там js, css файлы это лишняя абстракция, которую он еще не знает. Я его похвалил, что он делает крутые успехи, ведь даже в этом канале мало кто использует Claude Code😝

Конечно возникает вопрос - как же так, отдать AI весь процесс создания, а самому только смотреть на input/output. Возможно так и будет скоро и новое поколение явно будет использовать AI по другому. Я ему помог нарисовать диаграмму карандашом, что у нас происходит и как можно через API генерить картинки при загрузке страницы. Дальше я хочу, чтобы он загрузил эту игру (продукт) в Netlify (хостинг) и добавь настоящий домен. Таким образом будет пример end-to-end продукта. Я в 8 классе играл в Sims, Fallout 2 и Commandos, а тут такое раздолье. Так же каждый вечер мы слушаем summary книг про компании и бизнес и мой главный point для детей, что важна дисциплина, фокус и consistency.

На подходе у нас Mini Reachy - open source робот (300 деталей), который умеет разговорить и видеть, обязательно напишу про него, когда соберем. Еще детям очень понравились проекты от Mark Robert - Crunch Labs.

Что касается меня, то я решил параллельно работать на Cursor и на Claude Code (CLI), чтобы не отставать от трендов.

PS Вот прям сейчас AI сэкономил мне 150$. На кухне выбило пробки и перестал работать фильтр и половину розеток. В щитке я включал/выключал все - не помогло. Уже думали завтра вызвать мастера. Я сфоткал свои розетки и щиток, рассказал симптомы и получил решение - на одной из розеток на кухне есть circuit breaker, я его нашел и нажал, все заработало! Электрики скоро без работы останутся! 😆

#дети #ai
🙈40👨‍💻20❤‍🔥117🙉54🐳2
Недавно столкнулся с задачкой, когде мне понадобился git worktree и tmux для агента. Первый шаг к AI конвейеру.

tmux — программа для терминала, которая позволяет:
• Разделить один терминал на несколько окон — работай в нескольких местах одновременно
• Не терять работу при отключении — закрыл терминал или оборвалось SSH-соединение? Всё продолжает работать, можно вернуться позже
• Запускать долгие процессы на сервере — отключился, а программа работает

Простой пример
Подключился к серверу → запустил tmux → запустил долгую задачу → отключился от сервера → задача продолжает работать → подключился обратно → всё на месте

Коротко: это как вкладки в браузере, но для терминала, и они не закрываются, даже если ты вышел.



Git worktree — это возможность Git создать несколько рабочих копий одного репозитория с разными бранчами одновременно.
Зачем нужен:
Обычно в одной папке репозитория можно работать только с одним бранчем. Git worktree позволяет работать с несколькими бранчами параллельно без переключения.

Как работает:

```
# Основной репозиторий в ~/project (бранч main)
cd ~/project

# Создать worktree для другого бранча
git worktree add ../project-feature-1 feature-1
git worktree add ../project-feature-2 feature-2
```

Теперь у тебя:
• ⁠~/project — бранч main
• ⁠~/project-feature-1 — бранч feature-1
• ⁠~/project-feature-2 — бранч feature-2
Все три папки связаны с одним репозиторием (один ⁠.git), но работают с разными бранчами.

Преимущества:
• Не нужно переключать бранчи и коммитить незаконченную работу
• Можно открыть разные бранчи в разных редакторах (Claude Code в одном, Cursor в другом)
• Экономит время — не нужно клонировать репозиторий несколько раз

Коротко: один репозиторий, несколько папок, разные бранчи одновременно.





Так как я теперь работаю сразу в Claude Code и Cursor на своём Mac, я не могу работать в одном Git Branch. Точнее, я начал это делать, и потом у меня 2 задачи склеились в одну внутри одной ветки, причём частично. (На Windows машинах я использую VSCode + KiloCode, так как нет админского доступа)

Таким образом, сразу возникает потребность в разделении веток на одной машине. Git worktree решает эту проблему, а tmux помогает удобно управлять несколькими терминальными сессиями для работы с разными worktree одновременно.

Дальше нужно попробовать добавить OpenSpec, чтобы поставить задачу и разбить её на подзадачи, чтобы запустить несколько агентов параллельно.

Именно в AI у меня три направления:
1. Разработка с AI — это самое простое, просто нужно следить за обновлениями и примерами и пробовать на своих задачах.
2. Бизнес-кейсы для DE — тут в теории понятно, а вот техническая реализация требует времени. Сейчас очень популярно делать RAG, chat bot, Agent workflow или использовать GenAI для автоматизации. Часть кейсов хочу внедрить в Surfalytics, для этого мигрирую на Netlify + Supabase.
3. Личные агенты и ассистенты — на рынке много продуктов, которые могут делать простые задачи. Например, на базе моих календарей и задач в Notion, Jira, Asana сделать примерное расписание дня и забукать слоты в календаре. Или совсем простой кейс — каждый раз, когда делаю PR или работаю над задачей, заводить новый тикет через MCP и отслеживать все тикеты и обновлять статусы.
❤‍🔥143
После волны AI-стартапов что станет новым фокусом для венчурных инвестиций и технологических компаний?
Anonymous Poll
35%
🧬 Биотехнологии и продление жизни — технологии anti-aging и борьбы со старением
17%
⚛️ Квантовые вычисления — компьютеры нового поколения для невозможных сейчас задач
8%
☀️ Термоядерная энергетика — чистая и практически безграничная энергия
18%
🧠 Нейроинтерфейсы — прямое подключение мозга к компьютерам и устройствам
3%
🚀 Космическая экономика — добыча ресурсов, туризм и инфраструктура в космосе
5%
🌐 Децентрализованный интернет — возврат контроля над данными пользователям
4%
🔬 Синтетическая биология — программирование живых организмов как кода
3%
💎 Новые материалы — графен, метаматериалы и программируемая материя
3%
🧘 Ментальное здоровье и нейронаука — технологии работы с сознанием и психикой
5%
🥩 Культивированная еда — выращивание мяса и продуктов из клеток в лабораториях
Все самое лучшее всегда должно быть простым и понятным. Это применимо ко всему.

Если взять пример внедрение аналитических решений, взаимодействия с другими командами, то я ничего лучше не видел, чем framework DACI.

Матрица DACI (да́си) — это таблица, в которой описывают роли членов команды на всех этапах проекта. Каждый участник может узнать, за что сейчас отвечает и что должен сделать.

Всего существуют четыре роли:
• Driver (организатор) — отвечает за процесс и результат.
• Approver (заказчик) — принимает и оценивает итоги работы.
• Contributor (исполнитель) — работает руками или консультирует.
• Informed (информированный) — находится в курсе процесса.


Для меня это простой инструмент экономии моего (и команды) времени. Нет смысла сидеть на встречах и слушать мнения некомпетентных коллег, особенно там, где у меня есть опыт.

Один из недавних примеров - организация хочет строить аналитическое решение в AWS. У них сейчас on-premise SQL Server, SSIS, SSRS, и они уже месяцев 8 двигаются в эту сторону. Даже создали кластер Redshift, за который платят по $1000 в месяц, но только ничего на нём не сделали. Оно и понятно, ведь организация почти государственного масштаба, даже есть профсоюз, поэтому они не боятся увольнения, и AI им тоже не к чему.

Что может быть проще, чем сделать хранилище на AWS и Redshift? Поэтому, чтобы ускорить процесс, мы создаём в Confluence Decision Log и список горячих вопросов. Для каждого вопроса у нас создаётся документ DACI, в моём случае список документов:

1. Количество AWS акаунтов - один общий для Dev/Prod или несколько, для каждой среды. Очевидно, чем больше акаунтов, тем дороже в линейной зависимости.

2. Каким образом мы накатываем изменения в AWS аккаунт? CloudFormation, Terraform, CDK - нужно выбрать один способ, и мне вообще всё равно, я больше сам код не пишу для инфраструктуры, хоть на Rust. Но важно, чтобы репозиторий был вне периметра IT, чтобы у нас были все козырные права.

3. Framework для трансформации данных - dbt, Glue, stored procedures. Они уже вовсю гоняют Glue Spark, чтобы данные внутри Redshift трансформировать. Про dbt не слышали. Хотя специально для таких консервативных пользователей лучше, чем dbt, нет.

4. Orchestration инструмент - AWS Batch, AWS Step Functions, on-premise Airflow (уже есть), Airflow on ECS, Managed Airflow. Так как я уже два раза внедрял Managed Airflow и остался очень доволен, то мой выбор очевиден. Но IT хотели бы свой Airflow on-premise.

5. Среда разработки - виртуальная рабочая станция (для работы с on-premise) или сам ноутбук. Даже без админского доступа я уже всё себе смог настроить через Python, VSCode. Но хотелось бы, чтобы они немного поменяли mindset и жили в современном мире.

Написать эти 5 документов у меня заняло где-то час. И то пришлось копировать руками из Markdown в Confluence, потому что я не смог поставить Confluence MCP, так как нет прав на установку npm. А через Python не получилось. Без AI я мог бы писать по одному документу в день. А если взять их pace time, то можно писать один документ в неделю.

В данном контексте AI лишь помог расширить мою мысль про правильное решение и подтянул дополнительные факты. Вообще через такие документы можно манипулировать мнением других. Дальше все желающие оставят комментарии, мы на них ответим, и, как говорится, полный газ.

Менеджера я тоже очень воодушевил, рассказал ему, что он Leader (с большой буквы) и его задача убирать road blockers для команды и всех делать счастливыми (типа иди договаривайся с IT, как все доступы получить).

У них ещё команда не обычная: главный ETL-разработчик уже не один десяток лет работает с ними, и, к сожалению, он практически ослеп на старость лет, но он всё ещё главный ETL-разработчик и делает мне демо, как у них там всё работает. А вы тут говорите, у вас времени нет учить AI и зарабатывать 😊
❤‍🔥24💯6
Media is too big
VIEW IN TELEGRAM
Я: 2 зума подряд — выгорел, productivity на нуле

Чувак с 5 remote jobs…
🙈12❤‍🔥52🐳1
Тут накопилось несколько событий.

1️⃣Во вторник 3го февраля по Москве в 6 вечера будет вебинар про Iceberg и Lakehouse, вот детали:

Ссылка:
https://us06web.zoom.us/j/84412299387?pwd=0nAeguTrx40NPv7Ny7rGaVhyvUBvqa.1

Пост:
https://t.iss.one/analyticsfromzero/435 (в комментах есть ссылка календарь)

Описание
С первого взгляда кажется, что Лейкхаус - это чудовищный зоопарк решений, компонентов и сервисов. И так оно и есть ) Для демонстрации и курса Алексей собрал небольшой стенд на одной виртуальной машинке. Хватает простой Убунты на 6 ядрах, чтобы запустить полноценную функциональную сборку и посмотреть, как работает этот класс решений.

На открытом воркшопе Алексей покажет компонентный состав, а по итогу - даст ссылку на GitHub, с помощью которого можно собрать стенд за пару скриптов.

Об авторе
Алексей Белозерский - самый главный по BigDataстроению @ VK Cloud 🤩

———

2️⃣Недавно собрались отцы основатели отечественного дашбордостроения (скорей всего они уже строят свои дашборды на весь мир) и обсудили изменения в индустрии - Dashboardless Analytics - Алексей Колоколов, Дмитрий Некрасов, Роман Бунин.

Описание тут: https://t.iss.one/jetmetrics/370 | https://t.iss.one/analyst_club/2726
Запись тут: https://insba.getcourse.ru/after_web_23-01-26

PS Никого не забыл упомянуть?!🟢
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥21