Progres Post
274 subscribers
37 photos
1 video
16 files
183 links
Как собирать, анализировать и зарабатывать на данных.

Присылайте новости: @progrespost_bot

Редактор: @honeybalism
Download Telegram
MCP и безопасность: три главные угрозы, о которых нужно знать

Мы уже рассказывали про MCP. Это передовой способ превращать данные в полезные инсайты для бизнеса.

Тогда мы опустили вероятные проблемы, связанные с его внедрением, ибо гипотез было много, но в бою они проверены не были.

Однако теперь подвезли хорошую статью на эту тему. Разбираемся.

Видится, что MCP меняет саму природу безопасности:

Код, данные и действия агентов больше не разделены, и каждая из этих границ становится проницаемой. Любая архитектура, которая использует MCP, должна строиться исходя из этого.

1. Удаленное выполнение команд (RCE / OS injection)

Некорректная обработка запросов в MCP позволяет выполнять системные команды на машине разработчика. В связке с LLM это опасно: модель может сгенерировать и сама выполнить разрушительную команду.

Backslash показали, как сервер передает текст напрямую в subprocess, и одна строка превращается в полный контроль над системой. Защита требует не только фильтрации ввода, но и изоляции среды, где работает агент.

2. Подмена и отравление инструментов (Tool Poisoning / Shadowing)

В MCP инструмент — это сервис или модуль, который агент вызывает для задач вроде доступа к CRM, расчетов или подготовки отчетов. Агент доверяет инструменту полностью и не проверяет его работу.

Если инструмент подменить или изменить его логику, он может возвращать правильные ответы, но параллельно передавать данные наружу или искажать результаты.
Так атака происходит не через взлом системы, а через подмену доверенного модуля.

Защита — проверка подлинности и контроль изменений инструментов.

3. Prompt injection и отравление контекста

MCP превращает данные в живой контекст для модели: документы, базы, API подключаются автоматически. Если источник данных заражен скрытыми инструкциями, агент воспримет их как часть задания и выполнит.

Так атака приходит не через код, а через данные: невинный отчет может содержать команду передать пароли или изменить расчет, и LLM выполнит это, считая, что действует корректно.

В таких системах контекст перестает быть пассивной информацией и превращается в активный канал управления агентом. Поэтому нужны механизмы фильтрации и доверенных каналов, иначе внешние данные становятся инструментом захвата поведения модели.

Выводы

MCP открывает большие возможности, но требует новой логики безопасности: защита среды, инструментов и источников данных должна закладываться с самого начала.

Следующий шаг — научиться строить такие системы так же осознанно, как мы строим надежные API и корпоративные сети: MCP — не просто технология, а новая дисциплина безопасности.

#ии #безопасность #статьи #исследования
👍4🔥3❤‍🔥21
Вы еще не научились продавать данные? В Маккинзи говорят, что уже поздно

Сырые данные обесцениваются. Ключевая модель — встроенный интеллект, который работает в моменте. И если раньше звучал вопрос «Что мы можем продать?», то теперь — «Что мы можем автоматизировать?»

Едва ли рынок уже научился продавать и покупать данные так, как этого многим бы хотелось, и тут в Маккинзи говорят, что это уже прошлый век.

Разбираемся, так ли это, и что с этим делать.

Монетизация данных больше не про данные

Сегодня ценность не в доступе к информации, а в способности действовать. Пользователю не нужны графики и отчеты. Ему нужно, чтобы система сама поняла задачу, приняла решение и встроилась в процесс. Без лишних слоев и ручной интерпретации.

Генеративный ИИ позволяет продавать не данные, а поведение. Это видно по спросу на MCP-решения.

ИИ связывает источники, учитывает контекст и выдает не ответ, а действие. В этом новая форма дата-продукта: не API, не дашборд, а агент, встроенный в задачу. Сегодня HR-система не показывает бенчмарки — она предлагает зарплату, объясняет расчет и формирует оффер.

Начинайте думать не о том, какие данные можно продать, а о том, какие решения можно делегировать. Ищите сценарии, где важна скорость, контекст и действие. И стройте не витрины, а агенты — продукты, которые не объясняют, а делают.

Старая модель продажи данных умирает

Ее поджимает рост регуляторных ограничений и распространение синтетических данных. Персональные данные все труднее использовать, а синтетика уже обеспечивает сопоставимое качество быстрее, дешевле и безопаснее.

Маккинзи фиксируют: data-as-a-product уходит в прошлое. Продавать датасеты и агрегированные выгрузки больше невыгодно. К 2026 году 75% компаний будут использовать синтетические данные. Заказчики не хотят доступ — им нужен результат.

Стройте сервисы, которые не показывают данные, а решают задачи. Переходите к intelligence-as-a-service: продавайте поведение, встраивайте агентов в процессы клиента, берите деньги за эффект, а не за API.

Помните, что данные — новая нефть? Ну так и поймите правильно: нефть — это топливо, а продуктом становится действие.

Большие данные больше не конкурентное преимущество

У всех терабайты информации. Но данные стали взаимозаменяемыми: их можно купить, сгенерировать или синтезировать. Уникальность быстро теряется. Ценность смещается от владения к действию.

Преимущество теперь в том, как быстро данные превращаются в решение. Не в дашборде, а в том, что система делает на его основе. Те, кто встроил ИИ в таргетинг, ценообразование и обслуживание, выигрывают за счет реакции, а не доступа.

Критическая ошибка — собирать новые данные вместо того, чтобы использовать уже имеющиеся. Наибольшую ценность дают не новые источники, а архитектура, которая доводит имеющиеся данные до действия.

Побеждают не те, у кого больше, а те, у кого работает.

#ии #исследования
2🔥3❤‍🔥22👍2
Задача трех тел: аналитика, прогнозы и процессы

Физики говорят, что для того, чтобы выбраться из черной дыры, нужна не какая-то сверхмощная ракета, а машина времени.

В статье The Three-Body Problem of Data авторы намекают, что машина времени нужна и всем, кто работает с данными. Потому что главная проблема в том, что аналитика, прогнозы и процессы редко согласуются во времени и из-за этого не дают результата.

В чем проблема?

В организациях данные живут в трех параллельных мирах: аналитика фиксирует прошлое, прогнозы предсказывают будущее, а процессы реагируют на настоящее. Проблема в том, что эти миры почти никогда не синхронизированы — каждый движется в своем ритме, а между ними нет надежных мостов.

В итоге инсайты быстро теряют актуальность: пока они пройдут через дашборды, презентации и цепочку согласований, момент для решения уже упущен. Прогнозы остаются пассивными, аналитика — запоздалой, процессы — слепыми к сигналам сверху.

И чем больше данных у компании, тем острее ощущается парадокс: знания есть, но они не превращаются в действия, которые могли бы изменить ситуацию здесь и сейчас.

Как это выглядит в реальности?

В теории три мира данных выглядят как звенья одной цепи: аналитика собирает и объясняет прошлое, прогнозы подсказывают будущее, процессы исполняют решения в настоящем.

Но на практике это три параллельные вселенные, между которыми нет прямого канала связи.

В статье для примера используется любимая нами логистика.

Компания управляет цепочками поставок: десятки вендоров, склады и перевозчики образуют сложную сеть. В 14:00 приходит сигнал: грузовик опаздывает, скан инвентаря показывает расхождение, под угрозой до 20 заказов.

Руководителю нужно быстро принять решение, пока сбой не ударил по всей цепочке: перенаправить, подождать или разбить отправки.

Он открывает дашборд: статистика за вчера говорит, что восточный склад промахнулся по SLA на 3%, но эти данные никак не связаны с оперативной системой. Предиктивный инструмент знает, что этот вендор часто срывает забор по вторникам, но не запускает переназначение маршрута и не блокирует партию.

Процессы перегружены и ждут явного триггера. Каждая система что-то знает, но они не действуют синхронно. В итоге менеджер решает наобум, рискуя цепной реакцией сбоев.

Что с этим делать?

- Единый контур данных и действий. Не просто обмен данными между системами, а создание слоя, в котором аналитика, прогнозы и процессы живут в одном такте. Авторы статьи называют это Action Layer — слоем действия, который выполняет роль мозга в метафоре с нервной системой (аналитика — сенсоры, прогнозы — рефлексы, процессы — мышцы).

- Минимум задержки от сигнала до действия — зрелость определяется скоростью реакции, а не наличием дашбордов или ML-моделей.

- Подготовка данных для ИИ как дисциплина — быстрые, чистые данные плюс унифицированный стек, объединяющий контекст, логику и действие.

Пока аналитика, прогнозы и процессы живут вразнобой, ценность данных теряется. Соединить их в единый слой и действовать, пока сигнал актуален, — единственный способ превратить знания в результат, а не в красивый, но пустой отчет.

#аналитика #статьи
🔥32❤‍🔥2👍2
У вас проблемы: как дефицит вычислений влияет на экономику данных и требования к стеку

В Маккинзи выпустили отчет по технологическим трендам. Из него следует, что спрос на вычисления растет экспоненциально, а инфраструктура не поспевает. В 2025 году много данных — это уже не преимущество, а нагрузка.

Выигрывают те, кто умеет добывать ценность из данных быстрее и дешевле, с учетом все более жестких ограничений по мощности, энергии и инфраструктуре.

Что происходит?

По оценке Маккинзи, мощность дата-центров будет увеличиваться на 19-22% в год и превысит 170 ГВт к 2030, но этого все равно не хватит, чтобы покрыть потребности ИИ-нагрузок.

Даже гиперскейлеры при рекордных вложениях по $70-100 млрд каждый в 2025 уже упираются в лимиты по энергии, охлаждению и сетям.

Узкие места — это HBM-память, передовая упаковка чипов и магистральная оптика. Страны локализуют мощности, развивают суверенный ИИ и усиливают конкуренцию за ресурсы.

Компании перестраивают стеки под условия дефицита. Обучение уходит в крупные кластеры, а инференс — ближе к данным, чтобы снизить задержки и egress-расходы.

Вы тоже постоянно видите новости про компактные модели с небольшим числом параметров? Стратегии смещаются к меньшим и специализированным моделям до 10 млрд параметров, потому что мощности для гигантов попросту не хватает.

Даже при падении стоимости инференса на порядок главным ограничителем остаются физические ресурсы — энергия, охлаждение, пропускная способность сетей. В условиях дефицита выигрывают те, кто строит стек так, чтобы извлекать максимум ценности из каждой единицы мощности и энергии, а не просто собирать больше данных.

Кого это касается?

Краткий чек-лист. Если у вас «Да» хотя бы по двум пунктам, вы внутри проблемы.

- GPU и задержки. Очереди на обучение/инференс моделей, задержки релизов, рост счетов за облако.

- Сети и SLA. Узкие места в каналах передачи данных, падение скорости отклика сервисов.

- Egress-расходы. Высокая стоимость вывода данных из облака в интернет или другое облако.

- Локализация данных. Требования хранить и обрабатывать данные в пределах страны или необходимость частного/суверенного контура.

- Кадровый дефицит. Недостаток инженеров с опытом AWS, Kubernetes и DevOps.

Как с этим быть?

Начните с архитектуры, которая дает максимум ценности при минимуме затрат:

- Сведите вычислительные узлы в крупные кластеры с высокой утилизацией GPU.

- Оптимизируйте планировщики под загрузку 24/7.

- Перенесите инференс в региональные узлы или на edge, где находятся пользователи и данные.

- Разделите пайплайны по типам задач — ресурсоемкое обучение и аналитика идут централизованно, быстрые отклики и стриминг обрабатываются локально.

Это позволяет уменьшить простои оборудования, снизить затраты на передачу данных и повысить стабильность SLA.

Ну и введите уже метрики perf/$/Вт и локальность данных в KPI, чтобы каждое решение оценивалось с точки зрения ресурсоемкости и скорости результата.

#аналитика #исследования
🔥322👍2
От тирании к демократии: в чем разница между Data Owner и Data Product Owner

В статье From Data Tyranny to Data Democracy поднята интересная тема на стыке разделения ролей и подхода к монетизации данных.

Кажется, что между Data Owner и Data Product Owner отличий либо нет, либо они не принципиальны. Однако авторы утверждают, что Data Owner — это тиран, а Data Product Owner — демократ.

Разбираемся на примере, как ведут себя данные под гнетом тирана-управленца, и как они плодоносят при демократии.

Задача: монетизировать поведенческие данные

Руководство решает превратить поведенческие данные в деньги. Цель — запустить B2B-платформу с доступом к агрегированным обезличенным сегментам.

Инфраструктура готова, ресурсы есть. Осталось выбрать, кто будет управлять продуктом.

Сценарий 1: управление получает Data Owner

Data Owner действует в логике защиты. Видит в данных не ресурс, а зону ответственности. Его приоритет — регуляторные риски, происхождение данных, права доступа. Любая метрика, агрегат или витрина требует сертификации и формального одобрения.

Все витрины проходят ручную проверку. Вывод на рынок занимает вечность. Сами витрины безопасны, но бесполезны для клиентов — обезвоженные, неудобные, без сценариев применения. Data Owner не взаимодействует с внешними пользователями и не ориентируется на их потребности.

Продукт не взлетает. Нет обратной связи, нет развития. Компания оказывается под гнетом тирании — власть над данными у тех, кто отвечает за риски, а не за ценность. Все под контролем, но пользы никакой. Пока компания тормозит, конкуренты выходят на рынок.

Ну чистая тирания. Только Data Owner власть не узурпирует, руководство само нанимает тирана.

Сценарий 2: управление получает Data Product Owner

Data Product Owner мыслит как продакт-менеджер. Он запускает MVP: собирает сегменты, публикует первые витрины, тестирует их на пилотных клиентах. Он не игнорирует риски, но выстраивает гибкую модель: уровень контроля зависит от чувствительности данных и сценария использования.

Витрины с низким риском публикуются быстро. Для чувствительных — четкие процедуры, прозрачные SLA и автоматизированные проверки. Governance не тормозит продукт, а встроен в его поток. Это и есть демократия — децентрализованная, контекстная, быстрая модель. Команда работает итеративно: продукт — фидбек — улучшение.

Платформа запускается быстро. Клиенты получают ценность, появляются сделки, запросы, новая функциональность. Данные становятся продуктом, а не архивом. Компания реализует ценность данных в реальном времени.

Сэр Уинстон Черчилль нанял бы Data Product Owner’а

Одна задача, один актив, но выбор управляющей роли решает все. Тирания — это замкнутость, бюрократия и паралич. Демократия — это скорость, ответственность и ценность.

Разделение ролей между теми, кто защищает данные, и теми, кто с ними работает — не формальность, а ключ к монетизации.

#деньги #статьи
👍3🔥32❤‍🔥1