Теперь официально: вместо «уверенных пользователей ПК» работодатели ищут «уверенных пользователей ИИ»
В Сбере намерены нанимать на все ключевые позиции только кандидатов с навыками работы с искусственным интеллектом. Все уже трудоустроенные сотрудники тоже в обязательном порядке учатся работать с ИИ.
К специалистам первой линии ключевое требование — умение применять ИИ для эффективного решения повседневных задач. Каких — не уточняют. Это базовые навыки работы с нейросетями — о них спрашивают на собеседовании.
Специалистам аналитических и айти-направлений нужны более глубокие знания и интеграция ИИ в профессиональную деятельность. Для проверки на собеседованиях будут практические задания. Какие — не говорят. Также будут тестировать способность переписывать тексты и проверять факты при помощи нейросетей.
Разработчики должны свободно ориентироваться в ИИ-инструментах, понимать принципы работы и в идеале уметь создавать ИИ-решения. Руководителям же критически важно понимать возможности ИИ и принимать решения с опорой на данные, полученные от него.
Стажерам и студентам нужно только желание обучиться работе с ИИ, этому их научат во время работы. Кроме того, если кандидат подходит, но еще не использовал нейросети, банк готов нанять его с обязательным прохождением базовых курсов Сбера. Среди них: про ИИ-агентов, генерацию видео и аудио, машинное обучение, промпт-инжиринг и другие.
— Нас всех заменит ИИ?
— Нет, вас всех заменят люди, которые владеют ИИ.
#ии #исследования
В Сбере намерены нанимать на все ключевые позиции только кандидатов с навыками работы с искусственным интеллектом. Все уже трудоустроенные сотрудники тоже в обязательном порядке учатся работать с ИИ.
К специалистам первой линии ключевое требование — умение применять ИИ для эффективного решения повседневных задач. Каких — не уточняют. Это базовые навыки работы с нейросетями — о них спрашивают на собеседовании.
Специалистам аналитических и айти-направлений нужны более глубокие знания и интеграция ИИ в профессиональную деятельность. Для проверки на собеседованиях будут практические задания. Какие — не говорят. Также будут тестировать способность переписывать тексты и проверять факты при помощи нейросетей.
Разработчики должны свободно ориентироваться в ИИ-инструментах, понимать принципы работы и в идеале уметь создавать ИИ-решения. Руководителям же критически важно понимать возможности ИИ и принимать решения с опорой на данные, полученные от него.
Стажерам и студентам нужно только желание обучиться работе с ИИ, этому их научат во время работы. Кроме того, если кандидат подходит, но еще не использовал нейросети, банк готов нанять его с обязательным прохождением базовых курсов Сбера. Среди них: про ИИ-агентов, генерацию видео и аудио, машинное обучение, промпт-инжиринг и другие.
— Нас всех заменит ИИ?
— Нет, вас всех заменят люди, которые владеют ИИ.
#ии #исследования
🔥6❤4👍4🤔2
Контекст важнее промпта
Тренер ставит новичку задачу: прыгнуть в длину на 8 метров. У того не получается. Тогда тренер в подробностях объясняет технику: как разбегаться, в какой момент отталкиваться, как группироваться и все такое. У того опять не получается.
Неважно, насколько хорошо тренер объяснит новичку технику, если тому не хватает опыта и тренировок, ничего не выйдет.
В работе с LLM бывает так же: можно написать предельно точный и учитывающий все тонкости промпт, но если модели не хватает контекста, задачу она не решит.
И это работа для контекст-инженера.
Это кто? Это специалист, который отвечает за то, чтобы модель получила все нужное для выполнения задачи: данные, инструкции, формат ответа, историю, внешние источники и доступ к инструментам.
Если вчера главным было мастерство формулировки промпта, то сегодня куда важнее качество всей среды, в которой модель принимает решение.
Представьте, что ИИ просят назначить встречу на основе письма: «Привет, ты завтра свободен для быстрой встречи?»
Если у агента нет контекста, он видит только этот текст и отвечает формально и бесполезно: «Спасибо за сообщение. Завтра мне подходит. В какое время?»
Такой ответ — результат работы модели без понимания ситуации. Он может быть технически корректным, но не помогает делу.
Теперь сравните с агентом, у которого есть контекст:
- Он видит ваш календарь и знает, что вы заняты весь день.
- Считывает стиль общения из предыдущих писем.
- Знает, кто вам пишет.
- Имеет доступ к инструментам и может отправить приглашение на встречу.
В этом случае ответ будет таким: «Привет! Завтра я весь день занят, но в четверг утром свободен. Отправил приглашение — дай знать, если все окей».
Магия не в более умной модели или более хитром алгоритме. Она в предоставлении правильного контекста для задачи. Поэтому контекстная инженерия будет важна. Неудачи агентов — это не только неудачи модели, это неудачи контекста.
Сегодня в работе с ИИ куда важнее не то, что и как мы спрашиваем у модели, а что она уже знает и умеет в этот момент.
#ии
Тренер ставит новичку задачу: прыгнуть в длину на 8 метров. У того не получается. Тогда тренер в подробностях объясняет технику: как разбегаться, в какой момент отталкиваться, как группироваться и все такое. У того опять не получается.
Неважно, насколько хорошо тренер объяснит новичку технику, если тому не хватает опыта и тренировок, ничего не выйдет.
В работе с LLM бывает так же: можно написать предельно точный и учитывающий все тонкости промпт, но если модели не хватает контекста, задачу она не решит.
И это работа для контекст-инженера.
Это кто? Это специалист, который отвечает за то, чтобы модель получила все нужное для выполнения задачи: данные, инструкции, формат ответа, историю, внешние источники и доступ к инструментам.
Если вчера главным было мастерство формулировки промпта, то сегодня куда важнее качество всей среды, в которой модель принимает решение.
Представьте, что ИИ просят назначить встречу на основе письма: «Привет, ты завтра свободен для быстрой встречи?»
Если у агента нет контекста, он видит только этот текст и отвечает формально и бесполезно: «Спасибо за сообщение. Завтра мне подходит. В какое время?»
Такой ответ — результат работы модели без понимания ситуации. Он может быть технически корректным, но не помогает делу.
Теперь сравните с агентом, у которого есть контекст:
- Он видит ваш календарь и знает, что вы заняты весь день.
- Считывает стиль общения из предыдущих писем.
- Знает, кто вам пишет.
- Имеет доступ к инструментам и может отправить приглашение на встречу.
В этом случае ответ будет таким: «Привет! Завтра я весь день занят, но в четверг утром свободен. Отправил приглашение — дай знать, если все окей».
Магия не в более умной модели или более хитром алгоритме. Она в предоставлении правильного контекста для задачи. Поэтому контекстная инженерия будет важна. Неудачи агентов — это не только неудачи модели, это неудачи контекста.
Сегодня в работе с ИИ куда важнее не то, что и как мы спрашиваем у модели, а что она уже знает и умеет в этот момент.
#ии
❤8🔥4👍3❤🔥2
Качественные данные ≠ готовые для ИИ данные
В 2016 году аналитики IBM посчитали, что из-за некачественных данных экономика США теряет $3 трлн ежегодно. До 80% проектов по внедрению ИИ проваливаются из-за некачественных данных.
И сегодня все бьются над качеством данных. Но штука в том, что мы уже не в 2016 году, и сегодня этого недостаточно.
Ваши данные должны быть не только качественными в традиционном смысле, а готовыми к использованию в ИИ.
Самим качеством, кстати, можно пожертвовать.
В статья на Financial Times Маккензи Хоу из Atheni выдала такой пассаж:
Однако выводы в статье не такие однозначные:
В чем разница между качественными данными и готовыми для ИИ данными?
Качественные данные — это про корректность. Готовые к ИИ данные — это еще и про релевантность, доступность и управляемость.
ИИ требует, чтобы данные не только были чистыми, но и легко встраивались в процессы.
Качественные данные — это данные, которые:
- Точные, полные, актуальные.
- Не содержат дубликатов и ошибок.
- Согласованы по форматам и источникам.
Такие данные подходят для отчетности, BI и аналитики.
Готовые для ИИ данные — понятие шире.
Помимо качества, готовые для ИИ данные должны:
- Быть релевантны конкретной задаче ИИ (подобраны под конкретный use case).
- Быть доступны в нужной форме и скорости (API, потоки, батчи).
- Быть интероперабельными и описанными (метаданные, словари).
- Учитывать правовые, этические и безопасностные требования.
- Постоянно обновляться и отслеживаться для предотвращения дрейфа данных.
Данные о транзакциях клиентов, например, могут быть качественными, но для предсказания оттока нужны еще поведенческие данные, метаданные, история изменений и контроль доступности этих данных.
Как подготовить данные для ИИ?
В Gartner сделали неплохой гайд по подготовке данные для ИИ.
1. Увязка данных с задачей ИИ
Подготовка начинается с увязки бизнес‑задачи с нужными источниками и атрибутами, включая поиск недостающих данных.
Для прогноза коррозии на буровых к датчикам добавляют десятилетние ряды погоды, химсостав воды и историю ремонтов.
2. Управление и соблюдение норм
Данные очищаются от персональной информации, снабжаются правилами использования и частотой обновления под конкретный сценарий.
В фарме при обучении моделей на медицинских картах автоматические фильтры блокируют записи с истекшим согласием.
3. Метаданные и контекст
Создается слой активных метаданных, который хранит происхождение, смысл и условия применения данных и управляет их выбором.
В телекоме прогноз нагрузки учитывает не только трафик, но и метаданные об архитектуре сети и параметрах оборудования.
4. Автоматизация потоков
Разнородные данные очищаются, нормализуются и объединяются в сквозные конвейеры, дающие модели стабильный поток.
В агротехе данные с дронов и сенсоров приводят к общей сетке координат и времени, чтобы ИИ корректно интерпретировал их.
5. Валидация и контроль
Новые данные и потоки постоянно тестируются и мониторятся, чтобы предотвратить дрейф и деградацию модели.
В кредитном скоринге система замечает изменение поведения заемщиков и автоматически перестраивает данные и модель, чтобы сохранять точность прогноза.
Чистота — это прошлый век?
Чистить данные, конечно, нужно, но если раньше почистить их было достаточно, то теперь этого мало. ИИ требует данных, которые живут вместе с процессами компании, а не лежат чистенькие в хранилищах.
#ии
В 2016 году аналитики IBM посчитали, что из-за некачественных данных экономика США теряет $3 трлн ежегодно. До 80% проектов по внедрению ИИ проваливаются из-за некачественных данных.
И сегодня все бьются над качеством данных. Но штука в том, что мы уже не в 2016 году, и сегодня этого недостаточно.
Ваши данные должны быть не только качественными в традиционном смысле, а готовыми к использованию в ИИ.
Самим качеством, кстати, можно пожертвовать.
В статья на Financial Times Маккензи Хоу из Atheni выдала такой пассаж:
Ждать идеальных данных — все равно что ждать, когда освободятся дороги, чтобы научиться водить.
Однако выводы в статье не такие однозначные:
Не стоит по полной вкладываться в ИИ, если ваши данные не готовы. Но и откладывать внедрение ИИ, сетуя на плохие данные, не стоит.
В чем разница между качественными данными и готовыми для ИИ данными?
Качественные данные — это про корректность. Готовые к ИИ данные — это еще и про релевантность, доступность и управляемость.
ИИ требует, чтобы данные не только были чистыми, но и легко встраивались в процессы.
Качественные данные — это данные, которые:
- Точные, полные, актуальные.
- Не содержат дубликатов и ошибок.
- Согласованы по форматам и источникам.
Такие данные подходят для отчетности, BI и аналитики.
Готовые для ИИ данные — понятие шире.
Помимо качества, готовые для ИИ данные должны:
- Быть релевантны конкретной задаче ИИ (подобраны под конкретный use case).
- Быть доступны в нужной форме и скорости (API, потоки, батчи).
- Быть интероперабельными и описанными (метаданные, словари).
- Учитывать правовые, этические и безопасностные требования.
- Постоянно обновляться и отслеживаться для предотвращения дрейфа данных.
Данные о транзакциях клиентов, например, могут быть качественными, но для предсказания оттока нужны еще поведенческие данные, метаданные, история изменений и контроль доступности этих данных.
Как подготовить данные для ИИ?
В Gartner сделали неплохой гайд по подготовке данные для ИИ.
1. Увязка данных с задачей ИИ
Подготовка начинается с увязки бизнес‑задачи с нужными источниками и атрибутами, включая поиск недостающих данных.
Для прогноза коррозии на буровых к датчикам добавляют десятилетние ряды погоды, химсостав воды и историю ремонтов.
2. Управление и соблюдение норм
Данные очищаются от персональной информации, снабжаются правилами использования и частотой обновления под конкретный сценарий.
В фарме при обучении моделей на медицинских картах автоматические фильтры блокируют записи с истекшим согласием.
3. Метаданные и контекст
Создается слой активных метаданных, который хранит происхождение, смысл и условия применения данных и управляет их выбором.
В телекоме прогноз нагрузки учитывает не только трафик, но и метаданные об архитектуре сети и параметрах оборудования.
4. Автоматизация потоков
Разнородные данные очищаются, нормализуются и объединяются в сквозные конвейеры, дающие модели стабильный поток.
В агротехе данные с дронов и сенсоров приводят к общей сетке координат и времени, чтобы ИИ корректно интерпретировал их.
5. Валидация и контроль
Новые данные и потоки постоянно тестируются и мониторятся, чтобы предотвратить дрейф и деградацию модели.
В кредитном скоринге система замечает изменение поведения заемщиков и автоматически перестраивает данные и модель, чтобы сохранять точность прогноза.
Чистота — это прошлый век?
Чистить данные, конечно, нужно, но если раньше почистить их было достаточно, то теперь этого мало. ИИ требует данных, которые живут вместе с процессами компании, а не лежат чистенькие в хранилищах.
#ии
👍4🔥4❤3❤🔥1
Парадокс Эрроу, и как он мешает торговать данными
Сперва разберемся, в чем суть парадокса.
На рынках данных возникает фундаментальная дилемма:
Чтобы понять, насколько набор данных полезен и ценен, покупатель должен получить к нему доступ и изучить его. Но если данные уже раскрыты до сделки, продавец теряет контроль и ценность своего актива — данные можно скопировать без оплаты.
Выходит, что определить ценность данных до покупки нельзя, а раскрывать их заранее — опасно. Это создает замкнутый круг, описанный Кеннетом Эрроу еще в 1962 году для информационных товаров.
Очевидно, это сильно тормозит потенциально огромный рынок дата-маркетплейсов.
Какие есть решения?
1. Определение ценности без раскрытия данных
Представьте маркетплейс, где вы ищете данные для улучшения прогноза спроса. Файлы вам не дают, но показывают: если добавить этот набор в вашу модель, точность вырастет на 8 %.
Вы видите, какие признаки сработали и чем набор полезен именно для вашей задачи, при этом сами данные остаются закрыты. Это делают алгоритмы на стороне продавца — они выдают не сырой файл, а доказательство ценности. В итоге вы покупаете не вслепую, а понимая, что получите.
Такой подход уже тестируют, например, в прототипе DQSM, который встраивают прямо в маркетплейсы данных.
2. Временный доступ и нейрализатор из «Людей в черном»
Вы приходите на тот же маркетплейс и говорите агенту‑помощнику: «Посмотри вот эти три набора данных и скажи, какой из них реально подходит для нашей задачи».
Агент получает временный доступ, открывает данные, делает серию проверок и даже пробует построить несколько моделей. После этого он говорит: «Первый набор — слабый, второй ничего не добавляет, а третий дает хорошую прибавку, его стоит купить».
Но если вы решаете не покупать, тогда появляется Джей из «Людей в черном» и использует нейрализатор, агент забывает все, что видел.
То есть вы получили возможность проверить ценность данных до сделки, но без риска их утечки. Такую идею тоже уже тестируют.
3. Data clean rooms
В этом подходе данные вообще не покидают контур владельца.
Вы формулируете вопрос или задачу: «постройте мне модель прогноза», «посчитайте пересечение наших клиентов», а расчет делается на стороне продавца. Вам возвращают не файлы, а результат — модель, набор коэффициентов или готовый отчет.
Именно так работают рекламные clean rooms Google и Meta: бренды видят аналитику по аудиториям, но не получают доступ к исходным данным пользователей.
Какие еще есть перспективы?
Помимо описанных подходов, исследователи обсуждают гибридные механизмы:
Объединение временного доступа с юридическими гарантиями через смарт‑контракты, а также создание стандартов описания наборов данных, которые позволят оценивать их ценность еще на уровне метаданных.
Правда со вторым вариантом беда — если сейчас мы не доверяем продавцу, боясь, что данные нам не подойдут, с чего бы нам вдруг доверять какому-то стандарту?
#деньги
Сперва разберемся, в чем суть парадокса.
На рынках данных возникает фундаментальная дилемма:
Чтобы понять, насколько набор данных полезен и ценен, покупатель должен получить к нему доступ и изучить его. Но если данные уже раскрыты до сделки, продавец теряет контроль и ценность своего актива — данные можно скопировать без оплаты.
Выходит, что определить ценность данных до покупки нельзя, а раскрывать их заранее — опасно. Это создает замкнутый круг, описанный Кеннетом Эрроу еще в 1962 году для информационных товаров.
Очевидно, это сильно тормозит потенциально огромный рынок дата-маркетплейсов.
Какие есть решения?
1. Определение ценности без раскрытия данных
Представьте маркетплейс, где вы ищете данные для улучшения прогноза спроса. Файлы вам не дают, но показывают: если добавить этот набор в вашу модель, точность вырастет на 8 %.
Вы видите, какие признаки сработали и чем набор полезен именно для вашей задачи, при этом сами данные остаются закрыты. Это делают алгоритмы на стороне продавца — они выдают не сырой файл, а доказательство ценности. В итоге вы покупаете не вслепую, а понимая, что получите.
Такой подход уже тестируют, например, в прототипе DQSM, который встраивают прямо в маркетплейсы данных.
2. Временный доступ и нейрализатор из «Людей в черном»
Вы приходите на тот же маркетплейс и говорите агенту‑помощнику: «Посмотри вот эти три набора данных и скажи, какой из них реально подходит для нашей задачи».
Агент получает временный доступ, открывает данные, делает серию проверок и даже пробует построить несколько моделей. После этого он говорит: «Первый набор — слабый, второй ничего не добавляет, а третий дает хорошую прибавку, его стоит купить».
Но если вы решаете не покупать, тогда появляется Джей из «Людей в черном» и использует нейрализатор, агент забывает все, что видел.
То есть вы получили возможность проверить ценность данных до сделки, но без риска их утечки. Такую идею тоже уже тестируют.
3. Data clean rooms
В этом подходе данные вообще не покидают контур владельца.
Вы формулируете вопрос или задачу: «постройте мне модель прогноза», «посчитайте пересечение наших клиентов», а расчет делается на стороне продавца. Вам возвращают не файлы, а результат — модель, набор коэффициентов или готовый отчет.
Именно так работают рекламные clean rooms Google и Meta: бренды видят аналитику по аудиториям, но не получают доступ к исходным данным пользователей.
Какие еще есть перспективы?
Помимо описанных подходов, исследователи обсуждают гибридные механизмы:
Объединение временного доступа с юридическими гарантиями через смарт‑контракты, а также создание стандартов описания наборов данных, которые позволят оценивать их ценность еще на уровне метаданных.
Правда со вторым вариантом беда — если сейчас мы не доверяем продавцу, боясь, что данные нам не подойдут, с чего бы нам вдруг доверять какому-то стандарту?
#деньги
👍6🤔3❤2❤🔥1
Как начать думать про данные по-новому
В 2007 году консорциум The Green Grid для оценки энергоэффективности дата‑центров ввел новую метрику — PUE (Power Usage Effectiveness).
PUE = (общая энергия, потребляемая дата-центром) ÷ (энергия, идущая на айти-оборудование).
Внедрение PUE изменило индустрию: компании начали конкурировать за снижение PUE, повышая эффективность и снижая стоимость владения.
Нам про энергетику не очень интересно, но этот опыт прекрасно ложится на проблемы в сфере больших данных.
Знакомьтесь, DUE (Data Usage Effectiveness).
DUE = (объем данных, который используется для аналитики и принятия решений) ÷ (общий объем данных, который хранится в компании).
Если DUE = 0.25, это значит, что 75% данных организации лежат мертвым грузом.
Если PUE изменил то, как дата-центры думают об энергии, DUE может изменить то, как компании думают о своих данных.
DUE может стать цифровым показателем зрелости компании. Показатель можно будет указывать в отчетах об устойчивом развитии, а аналитики смогут сравнивать компании по эффективности работы с данными.
Повторяйте за большими ребятами, не стесняйтесь
Microsoft в отчетах по Sustainability и Responsible AI говорит о Data Value Ratio — проценте данных, которые активно используются в аналитике и ИИ‑моделях.
Splunk и Gartner истошно публикуют показатели dark data — по сути, это обратная метрика DUE: чем больше dark data, тем ниже эффективность использования.
Облачные провайдеры (AWS, Google Cloud, Azure) вводят KPI вроде Data Utilization и Active Data Sets, которые фактически оценивают DUE на уровне облачных клиентов.
Финансовые компании (JP Morgan, Capital One) используют метрику Share of actively governed data assets для оценки зрелости управления данными.
Это выгодно
McKinsey в исследовании The Missing Data Link показали простую вещь: ценность дает не количество данных, а умение работать с тем, что уже накоплено.
Когда компании превращают хаотичные массивы в понятные дата-продукты и повышают свой DUE, новые решения и инсайты появляются до 90% быстрее, а затраты на хранение и обработку падают на треть.
Оркам из «Варкрафта» нужно больше золота, а вам не нужно больше данных, вам нужен высокий DUE.
#деньги
В 2007 году консорциум The Green Grid для оценки энергоэффективности дата‑центров ввел новую метрику — PUE (Power Usage Effectiveness).
PUE = (общая энергия, потребляемая дата-центром) ÷ (энергия, идущая на айти-оборудование).
Внедрение PUE изменило индустрию: компании начали конкурировать за снижение PUE, повышая эффективность и снижая стоимость владения.
Нам про энергетику не очень интересно, но этот опыт прекрасно ложится на проблемы в сфере больших данных.
Знакомьтесь, DUE (Data Usage Effectiveness).
DUE = (объем данных, который используется для аналитики и принятия решений) ÷ (общий объем данных, который хранится в компании).
Если DUE = 0.25, это значит, что 75% данных организации лежат мертвым грузом.
Если PUE изменил то, как дата-центры думают об энергии, DUE может изменить то, как компании думают о своих данных.
DUE может стать цифровым показателем зрелости компании. Показатель можно будет указывать в отчетах об устойчивом развитии, а аналитики смогут сравнивать компании по эффективности работы с данными.
Повторяйте за большими ребятами, не стесняйтесь
Microsoft в отчетах по Sustainability и Responsible AI говорит о Data Value Ratio — проценте данных, которые активно используются в аналитике и ИИ‑моделях.
Splunk и Gartner истошно публикуют показатели dark data — по сути, это обратная метрика DUE: чем больше dark data, тем ниже эффективность использования.
Облачные провайдеры (AWS, Google Cloud, Azure) вводят KPI вроде Data Utilization и Active Data Sets, которые фактически оценивают DUE на уровне облачных клиентов.
Финансовые компании (JP Morgan, Capital One) используют метрику Share of actively governed data assets для оценки зрелости управления данными.
Это выгодно
McKinsey в исследовании The Missing Data Link показали простую вещь: ценность дает не количество данных, а умение работать с тем, что уже накоплено.
Когда компании превращают хаотичные массивы в понятные дата-продукты и повышают свой DUE, новые решения и инсайты появляются до 90% быстрее, а затраты на хранение и обработку падают на треть.
Оркам из «Варкрафта» нужно больше золота, а вам не нужно больше данных, вам нужен высокий DUE.
#деньги
⚡4❤2👍2🔥2
Боится ли Америка Китая
Почти одновременно США и Китай опубликовали планы по развитию искусственного интеллекта. Нам кажется интересным не просто сравнить их между собой, но и сопоставить с трендами рынка, которые описаны на 340 страницах исследования Bond Capital, вышедшего в мае.
Поехали.
Битва при данных
И США, и Китай исходят из того, что вычислительные мощности можно нарастить за пару лет, а вот большие и качественные датасеты — нет.
США делают ставку на закрытую модель: строят собственные национальные наборы и минимизируют зависимость от внешних источников. Китай напротив — предлагает создать международные платформы и хранилища, где данные циркулируют по общим правилам.
Подход Китая, кстати, выливается в то, что у них пока лучше всех получаются маркетплейсы данных.
Возникает прямой конфликт интересов: чем ценнее становятся данные, тем сильнее страны закрывают их внутри границ, а для прогресса в ИИ, наоборот, нужна их глобальная доступность.
По мере роста ценности наборов данных борьба развернется не за алгоритмы, а за контроль над потоками данных и условиями их обмена.
Пока вы 7 раз отмеряли, кто-то уже отрезал
ИИ развивается быстрее, чем когда‑то интернет. Количество пользователей и разработчиков растет лавинообразно, а время между поколениями моделей сокращается.
План США буквально заточен под скорость: он убирает регуляторные барьеры, упрощает строительство дата‑центров и ориентируется на то, чтобы новые версии моделей выходили максимально быстро.
Логика проста: чем выше темп, тем быстрее собирается обратная связь и данные, которые нужны для следующего поколения моделей.
Китайский план тоже говорит о развитии инфраструктуры, но делает упор на долгосрочность и глобальную координацию. В нем меньше про скорость, больше про системность и совместимость.
В итоге подход США — это стратегия ускорения без пауз, а подход Китая — создание условий для долгой дистанции. И в гонке ИИ это означает, что сама скорость становится капиталом, который не купить и не догнать.
Экология, или как США и Китай поменялись местами
Глобальное потепление, альтернативная энергетика и вся зеленая повестка — это часть западного дискурса. Китай же напротив — крупнейший в мире импортер угля, что плохо рифмуется с заботой об экологии.
В плане США по развитию ИИ в разделе про инфраструктуру делается акцент на упрощении разрешений для дата‑центров, а скорость строительства инфраструктуры ставится выше климатической повестки:
В Китайском же плане наоборот — неожиданно много внимания к экологии:
Да, это только риторика. Не утверждаем, что Китай будет спасать планету, а США начнут сжигать больше угля, чем в Поднебесной. Однако это показательная риторика — кажется, США чувствуют уязвимость и нехило боятся отстать от Китая.
#ии #исследования
Почти одновременно США и Китай опубликовали планы по развитию искусственного интеллекта. Нам кажется интересным не просто сравнить их между собой, но и сопоставить с трендами рынка, которые описаны на 340 страницах исследования Bond Capital, вышедшего в мае.
Поехали.
Битва при данных
И США, и Китай исходят из того, что вычислительные мощности можно нарастить за пару лет, а вот большие и качественные датасеты — нет.
США делают ставку на закрытую модель: строят собственные национальные наборы и минимизируют зависимость от внешних источников. Китай напротив — предлагает создать международные платформы и хранилища, где данные циркулируют по общим правилам.
Подход Китая, кстати, выливается в то, что у них пока лучше всех получаются маркетплейсы данных.
Возникает прямой конфликт интересов: чем ценнее становятся данные, тем сильнее страны закрывают их внутри границ, а для прогресса в ИИ, наоборот, нужна их глобальная доступность.
По мере роста ценности наборов данных борьба развернется не за алгоритмы, а за контроль над потоками данных и условиями их обмена.
Пока вы 7 раз отмеряли, кто-то уже отрезал
ИИ развивается быстрее, чем когда‑то интернет. Количество пользователей и разработчиков растет лавинообразно, а время между поколениями моделей сокращается.
План США буквально заточен под скорость: он убирает регуляторные барьеры, упрощает строительство дата‑центров и ориентируется на то, чтобы новые версии моделей выходили максимально быстро.
Логика проста: чем выше темп, тем быстрее собирается обратная связь и данные, которые нужны для следующего поколения моделей.
Китайский план тоже говорит о развитии инфраструктуры, но делает упор на долгосрочность и глобальную координацию. В нем меньше про скорость, больше про системность и совместимость.
В итоге подход США — это стратегия ускорения без пауз, а подход Китая — создание условий для долгой дистанции. И в гонке ИИ это означает, что сама скорость становится капиталом, который не купить и не догнать.
Экология, или как США и Китай поменялись местами
Глобальное потепление, альтернативная энергетика и вся зеленая повестка — это часть западного дискурса. Китай же напротив — крупнейший в мире импортер угля, что плохо рифмуется с заботой об экологии.
В плане США по развитию ИИ в разделе про инфраструктуру делается акцент на упрощении разрешений для дата‑центров, а скорость строительства инфраструктуры ставится выше климатической повестки:
Мы продолжим отвергать радикальные климатические догмы и бюрократические препоны, как это делала Администрация с первого дня работы. Проще говоря, нам нужно строить, строить и еще раз строить!
В Китайском же плане наоборот — неожиданно много внимания к экологии:
Поддерживаем развитие ресурсосберегающих и экологичных моделей ИИ, совместную выработку стандартов энергоэффективности, распространение низкопотребляющих чипов и эффективных алгоритмов. ИИ должен способствовать зеленой трансформации, борьбе с изменением климата и защите биоразнообразия, а международный диалог поможет находить лучшие решения в этих областях.
Да, это только риторика. Не утверждаем, что Китай будет спасать планету, а США начнут сжигать больше угля, чем в Поднебесной. Однако это показательная риторика — кажется, США чувствуют уязвимость и нехило боятся отстать от Китая.
#ии #исследования
👍3❤🔥2🔥2❤1🏆1
MCP и безопасность: три главные угрозы, о которых нужно знать
Мы уже рассказывали про MCP. Это передовой способ превращать данные в полезные инсайты для бизнеса.
Тогда мы опустили вероятные проблемы, связанные с его внедрением, ибо гипотез было много, но в бою они проверены не были.
Однако теперь подвезли хорошую статью на эту тему. Разбираемся.
Видится, что MCP меняет саму природу безопасности:
Код, данные и действия агентов больше не разделены, и каждая из этих границ становится проницаемой. Любая архитектура, которая использует MCP, должна строиться исходя из этого.
1. Удаленное выполнение команд (RCE / OS injection)
Некорректная обработка запросов в MCP позволяет выполнять системные команды на машине разработчика. В связке с LLM это опасно: модель может сгенерировать и сама выполнить разрушительную команду.
Backslash показали, как сервер передает текст напрямую в subprocess, и одна строка превращается в полный контроль над системой. Защита требует не только фильтрации ввода, но и изоляции среды, где работает агент.
2. Подмена и отравление инструментов (Tool Poisoning / Shadowing)
В MCP инструмент — это сервис или модуль, который агент вызывает для задач вроде доступа к CRM, расчетов или подготовки отчетов. Агент доверяет инструменту полностью и не проверяет его работу.
Если инструмент подменить или изменить его логику, он может возвращать правильные ответы, но параллельно передавать данные наружу или искажать результаты.
Так атака происходит не через взлом системы, а через подмену доверенного модуля.
Защита — проверка подлинности и контроль изменений инструментов.
3. Prompt injection и отравление контекста
MCP превращает данные в живой контекст для модели: документы, базы, API подключаются автоматически. Если источник данных заражен скрытыми инструкциями, агент воспримет их как часть задания и выполнит.
Так атака приходит не через код, а через данные: невинный отчет может содержать команду передать пароли или изменить расчет, и LLM выполнит это, считая, что действует корректно.
В таких системах контекст перестает быть пассивной информацией и превращается в активный канал управления агентом. Поэтому нужны механизмы фильтрации и доверенных каналов, иначе внешние данные становятся инструментом захвата поведения модели.
Выводы
MCP открывает большие возможности, но требует новой логики безопасности: защита среды, инструментов и источников данных должна закладываться с самого начала.
Следующий шаг — научиться строить такие системы так же осознанно, как мы строим надежные API и корпоративные сети: MCP — не просто технология, а новая дисциплина безопасности.
#ии #безопасность #статьи #исследования
Мы уже рассказывали про MCP. Это передовой способ превращать данные в полезные инсайты для бизнеса.
Тогда мы опустили вероятные проблемы, связанные с его внедрением, ибо гипотез было много, но в бою они проверены не были.
Однако теперь подвезли хорошую статью на эту тему. Разбираемся.
Видится, что MCP меняет саму природу безопасности:
Код, данные и действия агентов больше не разделены, и каждая из этих границ становится проницаемой. Любая архитектура, которая использует MCP, должна строиться исходя из этого.
1. Удаленное выполнение команд (RCE / OS injection)
Некорректная обработка запросов в MCP позволяет выполнять системные команды на машине разработчика. В связке с LLM это опасно: модель может сгенерировать и сама выполнить разрушительную команду.
Backslash показали, как сервер передает текст напрямую в subprocess, и одна строка превращается в полный контроль над системой. Защита требует не только фильтрации ввода, но и изоляции среды, где работает агент.
2. Подмена и отравление инструментов (Tool Poisoning / Shadowing)
В MCP инструмент — это сервис или модуль, который агент вызывает для задач вроде доступа к CRM, расчетов или подготовки отчетов. Агент доверяет инструменту полностью и не проверяет его работу.
Если инструмент подменить или изменить его логику, он может возвращать правильные ответы, но параллельно передавать данные наружу или искажать результаты.
Так атака происходит не через взлом системы, а через подмену доверенного модуля.
Защита — проверка подлинности и контроль изменений инструментов.
3. Prompt injection и отравление контекста
MCP превращает данные в живой контекст для модели: документы, базы, API подключаются автоматически. Если источник данных заражен скрытыми инструкциями, агент воспримет их как часть задания и выполнит.
Так атака приходит не через код, а через данные: невинный отчет может содержать команду передать пароли или изменить расчет, и LLM выполнит это, считая, что действует корректно.
В таких системах контекст перестает быть пассивной информацией и превращается в активный канал управления агентом. Поэтому нужны механизмы фильтрации и доверенных каналов, иначе внешние данные становятся инструментом захвата поведения модели.
Выводы
MCP открывает большие возможности, но требует новой логики безопасности: защита среды, инструментов и источников данных должна закладываться с самого начала.
Следующий шаг — научиться строить такие системы так же осознанно, как мы строим надежные API и корпоративные сети: MCP — не просто технология, а новая дисциплина безопасности.
#ии #безопасность #статьи #исследования
👍4🔥3❤🔥2❤1
Вы еще не научились продавать данные? В Маккинзи говорят, что уже поздно
Сырые данные обесцениваются. Ключевая модель — встроенный интеллект, который работает в моменте. И если раньше звучал вопрос «Что мы можем продать?», то теперь — «Что мы можем автоматизировать?»
Едва ли рынок уже научился продавать и покупать данные так, как этого многим бы хотелось, и тут в Маккинзи говорят, что это уже прошлый век.
Разбираемся, так ли это, и что с этим делать.
Монетизация данных больше не про данные
Сегодня ценность не в доступе к информации, а в способности действовать. Пользователю не нужны графики и отчеты. Ему нужно, чтобы система сама поняла задачу, приняла решение и встроилась в процесс. Без лишних слоев и ручной интерпретации.
Генеративный ИИ позволяет продавать не данные, а поведение. Это видно по спросу на MCP-решения.
ИИ связывает источники, учитывает контекст и выдает не ответ, а действие. В этом новая форма дата-продукта: не API, не дашборд, а агент, встроенный в задачу. Сегодня HR-система не показывает бенчмарки — она предлагает зарплату, объясняет расчет и формирует оффер.
Начинайте думать не о том, какие данные можно продать, а о том, какие решения можно делегировать. Ищите сценарии, где важна скорость, контекст и действие. И стройте не витрины, а агенты — продукты, которые не объясняют, а делают.
Старая модель продажи данных умирает
Ее поджимает рост регуляторных ограничений и распространение синтетических данных. Персональные данные все труднее использовать, а синтетика уже обеспечивает сопоставимое качество быстрее, дешевле и безопаснее.
Маккинзи фиксируют: data-as-a-product уходит в прошлое. Продавать датасеты и агрегированные выгрузки больше невыгодно. К 2026 году 75% компаний будут использовать синтетические данные. Заказчики не хотят доступ — им нужен результат.
Стройте сервисы, которые не показывают данные, а решают задачи. Переходите к intelligence-as-a-service: продавайте поведение, встраивайте агентов в процессы клиента, берите деньги за эффект, а не за API.
Помните, что данные — новая нефть? Ну так и поймите правильно: нефть — это топливо, а продуктом становится действие.
Большие данные больше не конкурентное преимущество
У всех терабайты информации. Но данные стали взаимозаменяемыми: их можно купить, сгенерировать или синтезировать. Уникальность быстро теряется. Ценность смещается от владения к действию.
Преимущество теперь в том, как быстро данные превращаются в решение. Не в дашборде, а в том, что система делает на его основе. Те, кто встроил ИИ в таргетинг, ценообразование и обслуживание, выигрывают за счет реакции, а не доступа.
Критическая ошибка — собирать новые данные вместо того, чтобы использовать уже имеющиеся. Наибольшую ценность дают не новые источники, а архитектура, которая доводит имеющиеся данные до действия.
Побеждают не те, у кого больше, а те, у кого работает.
#ии #исследования
Сырые данные обесцениваются. Ключевая модель — встроенный интеллект, который работает в моменте. И если раньше звучал вопрос «Что мы можем продать?», то теперь — «Что мы можем автоматизировать?»
Едва ли рынок уже научился продавать и покупать данные так, как этого многим бы хотелось, и тут в Маккинзи говорят, что это уже прошлый век.
Разбираемся, так ли это, и что с этим делать.
Монетизация данных больше не про данные
Сегодня ценность не в доступе к информации, а в способности действовать. Пользователю не нужны графики и отчеты. Ему нужно, чтобы система сама поняла задачу, приняла решение и встроилась в процесс. Без лишних слоев и ручной интерпретации.
Генеративный ИИ позволяет продавать не данные, а поведение. Это видно по спросу на MCP-решения.
ИИ связывает источники, учитывает контекст и выдает не ответ, а действие. В этом новая форма дата-продукта: не API, не дашборд, а агент, встроенный в задачу. Сегодня HR-система не показывает бенчмарки — она предлагает зарплату, объясняет расчет и формирует оффер.
Начинайте думать не о том, какие данные можно продать, а о том, какие решения можно делегировать. Ищите сценарии, где важна скорость, контекст и действие. И стройте не витрины, а агенты — продукты, которые не объясняют, а делают.
Старая модель продажи данных умирает
Ее поджимает рост регуляторных ограничений и распространение синтетических данных. Персональные данные все труднее использовать, а синтетика уже обеспечивает сопоставимое качество быстрее, дешевле и безопаснее.
Маккинзи фиксируют: data-as-a-product уходит в прошлое. Продавать датасеты и агрегированные выгрузки больше невыгодно. К 2026 году 75% компаний будут использовать синтетические данные. Заказчики не хотят доступ — им нужен результат.
Стройте сервисы, которые не показывают данные, а решают задачи. Переходите к intelligence-as-a-service: продавайте поведение, встраивайте агентов в процессы клиента, берите деньги за эффект, а не за API.
Помните, что данные — новая нефть? Ну так и поймите правильно: нефть — это топливо, а продуктом становится действие.
Большие данные больше не конкурентное преимущество
У всех терабайты информации. Но данные стали взаимозаменяемыми: их можно купить, сгенерировать или синтезировать. Уникальность быстро теряется. Ценность смещается от владения к действию.
Преимущество теперь в том, как быстро данные превращаются в решение. Не в дашборде, а в том, что система делает на его основе. Те, кто встроил ИИ в таргетинг, ценообразование и обслуживание, выигрывают за счет реакции, а не доступа.
Критическая ошибка — собирать новые данные вместо того, чтобы использовать уже имеющиеся. Наибольшую ценность дают не новые источники, а архитектура, которая доводит имеющиеся данные до действия.
Побеждают не те, у кого больше, а те, у кого работает.
#ии #исследования
2🔥3❤🔥2❤2👍2
Задача трех тел: аналитика, прогнозы и процессы
Физики говорят, что для того, чтобы выбраться из черной дыры, нужна не какая-то сверхмощная ракета, а машина времени.
В статье The Three-Body Problem of Data авторы намекают, что машина времени нужна и всем, кто работает с данными. Потому что главная проблема в том, что аналитика, прогнозы и процессы редко согласуются во времени и из-за этого не дают результата.
В чем проблема?
В организациях данные живут в трех параллельных мирах: аналитика фиксирует прошлое, прогнозы предсказывают будущее, а процессы реагируют на настоящее. Проблема в том, что эти миры почти никогда не синхронизированы — каждый движется в своем ритме, а между ними нет надежных мостов.
В итоге инсайты быстро теряют актуальность: пока они пройдут через дашборды, презентации и цепочку согласований, момент для решения уже упущен. Прогнозы остаются пассивными, аналитика — запоздалой, процессы — слепыми к сигналам сверху.
И чем больше данных у компании, тем острее ощущается парадокс: знания есть, но они не превращаются в действия, которые могли бы изменить ситуацию здесь и сейчас.
Как это выглядит в реальности?
В теории три мира данных выглядят как звенья одной цепи: аналитика собирает и объясняет прошлое, прогнозы подсказывают будущее, процессы исполняют решения в настоящем.
Но на практике это три параллельные вселенные, между которыми нет прямого канала связи.
В статье для примера используется любимая нами логистика.
Компания управляет цепочками поставок: десятки вендоров, склады и перевозчики образуют сложную сеть. В 14:00 приходит сигнал: грузовик опаздывает, скан инвентаря показывает расхождение, под угрозой до 20 заказов.
Руководителю нужно быстро принять решение, пока сбой не ударил по всей цепочке: перенаправить, подождать или разбить отправки.
Он открывает дашборд: статистика за вчера говорит, что восточный склад промахнулся по SLA на 3%, но эти данные никак не связаны с оперативной системой. Предиктивный инструмент знает, что этот вендор часто срывает забор по вторникам, но не запускает переназначение маршрута и не блокирует партию.
Процессы перегружены и ждут явного триггера. Каждая система что-то знает, но они не действуют синхронно. В итоге менеджер решает наобум, рискуя цепной реакцией сбоев.
Что с этим делать?
- Единый контур данных и действий. Не просто обмен данными между системами, а создание слоя, в котором аналитика, прогнозы и процессы живут в одном такте. Авторы статьи называют это Action Layer — слоем действия, который выполняет роль мозга в метафоре с нервной системой (аналитика — сенсоры, прогнозы — рефлексы, процессы — мышцы).
- Минимум задержки от сигнала до действия — зрелость определяется скоростью реакции, а не наличием дашбордов или ML-моделей.
- Подготовка данных для ИИ как дисциплина — быстрые, чистые данные плюс унифицированный стек, объединяющий контекст, логику и действие.
Пока аналитика, прогнозы и процессы живут вразнобой, ценность данных теряется. Соединить их в единый слой и действовать, пока сигнал актуален, — единственный способ превратить знания в результат, а не в красивый, но пустой отчет.
#аналитика #статьи
Физики говорят, что для того, чтобы выбраться из черной дыры, нужна не какая-то сверхмощная ракета, а машина времени.
В статье The Three-Body Problem of Data авторы намекают, что машина времени нужна и всем, кто работает с данными. Потому что главная проблема в том, что аналитика, прогнозы и процессы редко согласуются во времени и из-за этого не дают результата.
В чем проблема?
В организациях данные живут в трех параллельных мирах: аналитика фиксирует прошлое, прогнозы предсказывают будущее, а процессы реагируют на настоящее. Проблема в том, что эти миры почти никогда не синхронизированы — каждый движется в своем ритме, а между ними нет надежных мостов.
В итоге инсайты быстро теряют актуальность: пока они пройдут через дашборды, презентации и цепочку согласований, момент для решения уже упущен. Прогнозы остаются пассивными, аналитика — запоздалой, процессы — слепыми к сигналам сверху.
И чем больше данных у компании, тем острее ощущается парадокс: знания есть, но они не превращаются в действия, которые могли бы изменить ситуацию здесь и сейчас.
Как это выглядит в реальности?
В теории три мира данных выглядят как звенья одной цепи: аналитика собирает и объясняет прошлое, прогнозы подсказывают будущее, процессы исполняют решения в настоящем.
Но на практике это три параллельные вселенные, между которыми нет прямого канала связи.
В статье для примера используется любимая нами логистика.
Компания управляет цепочками поставок: десятки вендоров, склады и перевозчики образуют сложную сеть. В 14:00 приходит сигнал: грузовик опаздывает, скан инвентаря показывает расхождение, под угрозой до 20 заказов.
Руководителю нужно быстро принять решение, пока сбой не ударил по всей цепочке: перенаправить, подождать или разбить отправки.
Он открывает дашборд: статистика за вчера говорит, что восточный склад промахнулся по SLA на 3%, но эти данные никак не связаны с оперативной системой. Предиктивный инструмент знает, что этот вендор часто срывает забор по вторникам, но не запускает переназначение маршрута и не блокирует партию.
Процессы перегружены и ждут явного триггера. Каждая система что-то знает, но они не действуют синхронно. В итоге менеджер решает наобум, рискуя цепной реакцией сбоев.
Что с этим делать?
- Единый контур данных и действий. Не просто обмен данными между системами, а создание слоя, в котором аналитика, прогнозы и процессы живут в одном такте. Авторы статьи называют это Action Layer — слоем действия, который выполняет роль мозга в метафоре с нервной системой (аналитика — сенсоры, прогнозы — рефлексы, процессы — мышцы).
- Минимум задержки от сигнала до действия — зрелость определяется скоростью реакции, а не наличием дашбордов или ML-моделей.
- Подготовка данных для ИИ как дисциплина — быстрые, чистые данные плюс унифицированный стек, объединяющий контекст, логику и действие.
Пока аналитика, прогнозы и процессы живут вразнобой, ценность данных теряется. Соединить их в единый слой и действовать, пока сигнал актуален, — единственный способ превратить знания в результат, а не в красивый, но пустой отчет.
#аналитика #статьи
🔥3❤2❤🔥2👍2