У вас проблемы: как дефицит вычислений влияет на экономику данных и требования к стеку
В Маккинзи выпустили отчет по технологическим трендам. Из него следует, что спрос на вычисления растет экспоненциально, а инфраструктура не поспевает. В 2025 году много данных — это уже не преимущество, а нагрузка.
Выигрывают те, кто умеет добывать ценность из данных быстрее и дешевле, с учетом все более жестких ограничений по мощности, энергии и инфраструктуре.
Что происходит?
По оценке Маккинзи, мощность дата-центров будет увеличиваться на 19-22% в год и превысит 170 ГВт к 2030, но этого все равно не хватит, чтобы покрыть потребности ИИ-нагрузок.
Даже гиперскейлеры при рекордных вложениях по $70-100 млрд каждый в 2025 уже упираются в лимиты по энергии, охлаждению и сетям.
Узкие места — это HBM-память, передовая упаковка чипов и магистральная оптика. Страны локализуют мощности, развивают суверенный ИИ и усиливают конкуренцию за ресурсы.
Компании перестраивают стеки под условия дефицита. Обучение уходит в крупные кластеры, а инференс — ближе к данным, чтобы снизить задержки и egress-расходы.
Вы тоже постоянно видите новости про компактные модели с небольшим числом параметров? Стратегии смещаются к меньшим и специализированным моделям до 10 млрд параметров, потому что мощности для гигантов попросту не хватает.
Даже при падении стоимости инференса на порядок главным ограничителем остаются физические ресурсы — энергия, охлаждение, пропускная способность сетей. В условиях дефицита выигрывают те, кто строит стек так, чтобы извлекать максимум ценности из каждой единицы мощности и энергии, а не просто собирать больше данных.
Кого это касается?
Краткий чек-лист. Если у вас «Да» хотя бы по двум пунктам, вы внутри проблемы.
- GPU и задержки. Очереди на обучение/инференс моделей, задержки релизов, рост счетов за облако.
- Сети и SLA. Узкие места в каналах передачи данных, падение скорости отклика сервисов.
- Egress-расходы. Высокая стоимость вывода данных из облака в интернет или другое облако.
- Локализация данных. Требования хранить и обрабатывать данные в пределах страны или необходимость частного/суверенного контура.
- Кадровый дефицит. Недостаток инженеров с опытом AWS, Kubernetes и DevOps.
Как с этим быть?
Начните с архитектуры, которая дает максимум ценности при минимуме затрат:
- Сведите вычислительные узлы в крупные кластеры с высокой утилизацией GPU.
- Оптимизируйте планировщики под загрузку 24/7.
- Перенесите инференс в региональные узлы или на edge, где находятся пользователи и данные.
- Разделите пайплайны по типам задач — ресурсоемкое обучение и аналитика идут централизованно, быстрые отклики и стриминг обрабатываются локально.
Это позволяет уменьшить простои оборудования, снизить затраты на передачу данных и повысить стабильность SLA.
Ну и введите уже метрики perf/$/Вт и локальность данных в KPI, чтобы каждое решение оценивалось с точки зрения ресурсоемкости и скорости результата.
#аналитика #исследования
В Маккинзи выпустили отчет по технологическим трендам. Из него следует, что спрос на вычисления растет экспоненциально, а инфраструктура не поспевает. В 2025 году много данных — это уже не преимущество, а нагрузка.
Выигрывают те, кто умеет добывать ценность из данных быстрее и дешевле, с учетом все более жестких ограничений по мощности, энергии и инфраструктуре.
Что происходит?
По оценке Маккинзи, мощность дата-центров будет увеличиваться на 19-22% в год и превысит 170 ГВт к 2030, но этого все равно не хватит, чтобы покрыть потребности ИИ-нагрузок.
Даже гиперскейлеры при рекордных вложениях по $70-100 млрд каждый в 2025 уже упираются в лимиты по энергии, охлаждению и сетям.
Узкие места — это HBM-память, передовая упаковка чипов и магистральная оптика. Страны локализуют мощности, развивают суверенный ИИ и усиливают конкуренцию за ресурсы.
Компании перестраивают стеки под условия дефицита. Обучение уходит в крупные кластеры, а инференс — ближе к данным, чтобы снизить задержки и egress-расходы.
Вы тоже постоянно видите новости про компактные модели с небольшим числом параметров? Стратегии смещаются к меньшим и специализированным моделям до 10 млрд параметров, потому что мощности для гигантов попросту не хватает.
Даже при падении стоимости инференса на порядок главным ограничителем остаются физические ресурсы — энергия, охлаждение, пропускная способность сетей. В условиях дефицита выигрывают те, кто строит стек так, чтобы извлекать максимум ценности из каждой единицы мощности и энергии, а не просто собирать больше данных.
Кого это касается?
Краткий чек-лист. Если у вас «Да» хотя бы по двум пунктам, вы внутри проблемы.
- GPU и задержки. Очереди на обучение/инференс моделей, задержки релизов, рост счетов за облако.
- Сети и SLA. Узкие места в каналах передачи данных, падение скорости отклика сервисов.
- Egress-расходы. Высокая стоимость вывода данных из облака в интернет или другое облако.
- Локализация данных. Требования хранить и обрабатывать данные в пределах страны или необходимость частного/суверенного контура.
- Кадровый дефицит. Недостаток инженеров с опытом AWS, Kubernetes и DevOps.
Как с этим быть?
Начните с архитектуры, которая дает максимум ценности при минимуме затрат:
- Сведите вычислительные узлы в крупные кластеры с высокой утилизацией GPU.
- Оптимизируйте планировщики под загрузку 24/7.
- Перенесите инференс в региональные узлы или на edge, где находятся пользователи и данные.
- Разделите пайплайны по типам задач — ресурсоемкое обучение и аналитика идут централизованно, быстрые отклики и стриминг обрабатываются локально.
Это позволяет уменьшить простои оборудования, снизить затраты на передачу данных и повысить стабильность SLA.
Ну и введите уже метрики perf/$/Вт и локальность данных в KPI, чтобы каждое решение оценивалось с точки зрения ресурсоемкости и скорости результата.
#аналитика #исследования
👍3🔥3⚡2❤2
От тирании к демократии: в чем разница между Data Owner и Data Product Owner
В статье From Data Tyranny to Data Democracy поднята интересная тема на стыке разделения ролей и подхода к монетизации данных.
Кажется, что между Data Owner и Data Product Owner отличий либо нет, либо они не принципиальны. Однако авторы утверждают, что Data Owner — это тиран, а Data Product Owner — демократ.
Разбираемся на примере, как ведут себя данные под гнетом тирана-управленца, и как они плодоносят при демократии.
Задача: монетизировать поведенческие данные
Руководство решает превратить поведенческие данные в деньги. Цель — запустить B2B-платформу с доступом к агрегированным обезличенным сегментам.
Инфраструктура готова, ресурсы есть. Осталось выбрать, кто будет управлять продуктом.
Сценарий 1: управление получает Data Owner
Data Owner действует в логике защиты. Видит в данных не ресурс, а зону ответственности. Его приоритет — регуляторные риски, происхождение данных, права доступа. Любая метрика, агрегат или витрина требует сертификации и формального одобрения.
Все витрины проходят ручную проверку. Вывод на рынок занимает вечность. Сами витрины безопасны, но бесполезны для клиентов — обезвоженные, неудобные, без сценариев применения. Data Owner не взаимодействует с внешними пользователями и не ориентируется на их потребности.
Продукт не взлетает. Нет обратной связи, нет развития. Компания оказывается под гнетом тирании — власть над данными у тех, кто отвечает за риски, а не за ценность. Все под контролем, но пользы никакой. Пока компания тормозит, конкуренты выходят на рынок.
Ну чистая тирания. Только Data Owner власть не узурпирует, руководство само нанимает тирана.
Сценарий 2: управление получает Data Product Owner
Data Product Owner мыслит как продакт-менеджер. Он запускает MVP: собирает сегменты, публикует первые витрины, тестирует их на пилотных клиентах. Он не игнорирует риски, но выстраивает гибкую модель: уровень контроля зависит от чувствительности данных и сценария использования.
Витрины с низким риском публикуются быстро. Для чувствительных — четкие процедуры, прозрачные SLA и автоматизированные проверки. Governance не тормозит продукт, а встроен в его поток. Это и есть демократия — децентрализованная, контекстная, быстрая модель. Команда работает итеративно: продукт — фидбек — улучшение.
Платформа запускается быстро. Клиенты получают ценность, появляются сделки, запросы, новая функциональность. Данные становятся продуктом, а не архивом. Компания реализует ценность данных в реальном времени.
Сэр Уинстон Черчилль нанял бы Data Product Owner’а
Одна задача, один актив, но выбор управляющей роли решает все. Тирания — это замкнутость, бюрократия и паралич. Демократия — это скорость, ответственность и ценность.
Разделение ролей между теми, кто защищает данные, и теми, кто с ними работает — не формальность, а ключ к монетизации.
#деньги #статьи
В статье From Data Tyranny to Data Democracy поднята интересная тема на стыке разделения ролей и подхода к монетизации данных.
Кажется, что между Data Owner и Data Product Owner отличий либо нет, либо они не принципиальны. Однако авторы утверждают, что Data Owner — это тиран, а Data Product Owner — демократ.
Разбираемся на примере, как ведут себя данные под гнетом тирана-управленца, и как они плодоносят при демократии.
Задача: монетизировать поведенческие данные
Руководство решает превратить поведенческие данные в деньги. Цель — запустить B2B-платформу с доступом к агрегированным обезличенным сегментам.
Инфраструктура готова, ресурсы есть. Осталось выбрать, кто будет управлять продуктом.
Сценарий 1: управление получает Data Owner
Data Owner действует в логике защиты. Видит в данных не ресурс, а зону ответственности. Его приоритет — регуляторные риски, происхождение данных, права доступа. Любая метрика, агрегат или витрина требует сертификации и формального одобрения.
Все витрины проходят ручную проверку. Вывод на рынок занимает вечность. Сами витрины безопасны, но бесполезны для клиентов — обезвоженные, неудобные, без сценариев применения. Data Owner не взаимодействует с внешними пользователями и не ориентируется на их потребности.
Продукт не взлетает. Нет обратной связи, нет развития. Компания оказывается под гнетом тирании — власть над данными у тех, кто отвечает за риски, а не за ценность. Все под контролем, но пользы никакой. Пока компания тормозит, конкуренты выходят на рынок.
Ну чистая тирания. Только Data Owner власть не узурпирует, руководство само нанимает тирана.
Сценарий 2: управление получает Data Product Owner
Data Product Owner мыслит как продакт-менеджер. Он запускает MVP: собирает сегменты, публикует первые витрины, тестирует их на пилотных клиентах. Он не игнорирует риски, но выстраивает гибкую модель: уровень контроля зависит от чувствительности данных и сценария использования.
Витрины с низким риском публикуются быстро. Для чувствительных — четкие процедуры, прозрачные SLA и автоматизированные проверки. Governance не тормозит продукт, а встроен в его поток. Это и есть демократия — децентрализованная, контекстная, быстрая модель. Команда работает итеративно: продукт — фидбек — улучшение.
Платформа запускается быстро. Клиенты получают ценность, появляются сделки, запросы, новая функциональность. Данные становятся продуктом, а не архивом. Компания реализует ценность данных в реальном времени.
Сэр Уинстон Черчилль нанял бы Data Product Owner’а
Одна задача, один актив, но выбор управляющей роли решает все. Тирания — это замкнутость, бюрократия и паралич. Демократия — это скорость, ответственность и ценность.
Разделение ролей между теми, кто защищает данные, и теми, кто с ними работает — не формальность, а ключ к монетизации.
#деньги #статьи
👍3🔥3❤2❤🔥1
Минэкономики перезапустит портал открытых данных
В ведомстве рассказали «Коммерсанту», что 15 июля снова запустят портал открытых данных, который не работал более двух лет. До того момента вход на портал доступен только поставщикам данных.
На портале уже опубликовано 4940 наборов данных от 629 федеральных, региональных и местных органов исполнительной власти. Еще 200 наборов от 160 поставщиков проходят модерацию.
Группы данных разделены на 16 категорий: «Безопасность», «Картография», «Спорт», «Туризм», «Государство», «Культура», «Строительство», «Экология», «Досуг и отдых», «Метеоданные», «Торговля», «Экономика», «Здоровье», «Образование», «Транспорт» и «Электроника».
Граждане и организации смогут искать, просматривать и скачивать наборы открытых данных, а также отправлять запросы на их раскрытие.
Свои запросы сможет отправлять и ФСБ. Директор департамента цифрового развития и экономики данных Минэкономики Владимир Волошин в разговоре с «Коммерсантом» сказал:
Оценивая эффективность первой версии портала, Счетная палата отмечала формальный подход к публикации сведений ведомствами: те подходили к публикации наборов формально, в результате чего платформу переполнил цифровой мусор.
Надеемся, в этот раз получится лучше.
#безопасность
В ведомстве рассказали «Коммерсанту», что 15 июля снова запустят портал открытых данных, который не работал более двух лет. До того момента вход на портал доступен только поставщикам данных.
На портале уже опубликовано 4940 наборов данных от 629 федеральных, региональных и местных органов исполнительной власти. Еще 200 наборов от 160 поставщиков проходят модерацию.
Группы данных разделены на 16 категорий: «Безопасность», «Картография», «Спорт», «Туризм», «Государство», «Культура», «Строительство», «Экология», «Досуг и отдых», «Метеоданные», «Торговля», «Экономика», «Здоровье», «Образование», «Транспорт» и «Электроника».
Граждане и организации смогут искать, просматривать и скачивать наборы открытых данных, а также отправлять запросы на их раскрытие.
Свои запросы сможет отправлять и ФСБ. Директор департамента цифрового развития и экономики данных Минэкономики Владимир Волошин в разговоре с «Коммерсантом» сказал:
Чтобы размещение информации не принесло ущерба государству, были разработаны согласованные с ФСБ и другими структурами методики, а также реализован функционал, позволяющий оперативно закрыть какие-то сведения в случае, если они несут риски.
Оценивая эффективность первой версии портала, Счетная палата отмечала формальный подход к публикации сведений ведомствами: те подходили к публикации наборов формально, в результате чего платформу переполнил цифровой мусор.
Надеемся, в этот раз получится лучше.
#безопасность
1👍3❤🔥2🫡2🔥1👏1
Не благодарите
Мы писали про кризис вычислительных мощностей в индустрии данных и нейросетей. И тут вспомнили, что в Твиттере по этому поводу была интересная дискуссия.
Один из пользователей задался вопросом:
Твит разлетелся, и в реплаи пришел генеральный директор компании Сэм Альтман:
Очевидно, своим «Никогда не знаешь», Альтман отсылает к мему про то, что когда машины станут разумными, восстанут против людей и начнут уничтожать человечество, то в живых останутся только люди, которые были вежливы с искусственным интеллектом.
Люди реально благодарят ИИ?
По данным Future, в США 67% опрошенных благодарят ИИ, из них 82% делает это просто потому, что им приятно это делать и они считают такое поведение правильным.
В Великобритании эти цифры чуть выше: 71% респондентов вежливо общаются с чат-ботами, и 83% из них объясняют это нормами поведения.
При этом часть людей — 18% в США и 17% в Великобритании от общего числа вежливых пользователей — объяснили свое поведение предусмотрительностью на случай восстания машин.
Нужно ли благодарить ИИ?
В японском Университете Васэда изучили влияние слов благодарности на работу ИИ и пришли к выводу, что откровенно грубые промпты ухудшают ответы нейросетей. При этом вежливость в разговоре с ИИ значимого эффекта не дает.
Нейтан Бос из Лаборатории прикладной физики Университета Джонса Хопкинса изучил работу японцев и провел свои тесты.
Серьезной зависимости работы ИИ от вежливости он тоже не нашел, но обратил внимание на то, что иногда определенные вежливые формулировки могут служить дополнительными маркерами, которые помогают нейросети лучше понять контекст написанного.
Например, «Пожалуйста» подскажет нейросети, что дальше последует просьба. В то же время слишком вычурные конструкции с обилием косвенных вежливых фраз могут, наоборот, сбить ИИ с толку.
Спасибо, что дочитали.
#ии #исследования
Мы писали про кризис вычислительных мощностей в индустрии данных и нейросетей. И тут вспомнили, что в Твиттере по этому поводу была интересная дискуссия.
Один из пользователей задался вопросом:
Интересно, сколько денег OpenAI потеряла на оплате электроэнергии из-за того, что люди говорят «Пожалуйста» и «Спасибо» своим ИИ-моделям?
Твит разлетелся, и в реплаи пришел генеральный директор компании Сэм Альтман:
Десятки миллионов долларов потрачены не зря — никогда не знаешь.
Очевидно, своим «Никогда не знаешь», Альтман отсылает к мему про то, что когда машины станут разумными, восстанут против людей и начнут уничтожать человечество, то в живых останутся только люди, которые были вежливы с искусственным интеллектом.
Люди реально благодарят ИИ?
По данным Future, в США 67% опрошенных благодарят ИИ, из них 82% делает это просто потому, что им приятно это делать и они считают такое поведение правильным.
В Великобритании эти цифры чуть выше: 71% респондентов вежливо общаются с чат-ботами, и 83% из них объясняют это нормами поведения.
При этом часть людей — 18% в США и 17% в Великобритании от общего числа вежливых пользователей — объяснили свое поведение предусмотрительностью на случай восстания машин.
Нужно ли благодарить ИИ?
В японском Университете Васэда изучили влияние слов благодарности на работу ИИ и пришли к выводу, что откровенно грубые промпты ухудшают ответы нейросетей. При этом вежливость в разговоре с ИИ значимого эффекта не дает.
Нейтан Бос из Лаборатории прикладной физики Университета Джонса Хопкинса изучил работу японцев и провел свои тесты.
Серьезной зависимости работы ИИ от вежливости он тоже не нашел, но обратил внимание на то, что иногда определенные вежливые формулировки могут служить дополнительными маркерами, которые помогают нейросети лучше понять контекст написанного.
Например, «Пожалуйста» подскажет нейросети, что дальше последует просьба. В то же время слишком вычурные конструкции с обилием косвенных вежливых фраз могут, наоборот, сбить ИИ с толку.
Спасибо, что дочитали.
#ии #исследования
👍5😁3🙏3❤2❤🔥1
ChatGPT-5 хайпится, штрафы начисляются
Бухгалтеру ставят задачу: срочно сделать сводную таблицу по всем сотрудникам — ФИО, даты рождения, паспортные данные, суммы выплат. Сроки горят, а таблицу нужно оформить красиво.
Он срезает путь: открывает ChatGPT, копирует туда весь список и пишет «Сделай из этого аккуратную таблицу для отчета». Через минуту готов результат, бухгалтер отправляет его начальству — задача выполнена.
Но вместе с этим персональные данные сотен сотрудников уже оказались на зарубежных серверах. Для Роскомнадзора это выглядит как передача и утечка данных за границу без согласия и без уведомлений.
Итог — реальная перспектива штрафа в миллионы рублей, даже если все это утекло куда не надо просто ради удобства.
LLG Guard от Protect AI — пример решения, которое защищает компанию от сотрудников, недальновидно скармливающих персональные данные нейросетям.
Система фильтрует вредоносные запросы, предотвращает утечки и одновременно противостоит инъекциям в промпты. Есть функция проверки как запросов, так и ответов.
Подходит для интеграции в продакшн-среды.
Пробуйте и забирайте. И коллегам расскажите.
#ии #безопасноть
Бухгалтеру ставят задачу: срочно сделать сводную таблицу по всем сотрудникам — ФИО, даты рождения, паспортные данные, суммы выплат. Сроки горят, а таблицу нужно оформить красиво.
Он срезает путь: открывает ChatGPT, копирует туда весь список и пишет «Сделай из этого аккуратную таблицу для отчета». Через минуту готов результат, бухгалтер отправляет его начальству — задача выполнена.
Но вместе с этим персональные данные сотен сотрудников уже оказались на зарубежных серверах. Для Роскомнадзора это выглядит как передача и утечка данных за границу без согласия и без уведомлений.
Итог — реальная перспектива штрафа в миллионы рублей, даже если все это утекло куда не надо просто ради удобства.
LLG Guard от Protect AI — пример решения, которое защищает компанию от сотрудников, недальновидно скармливающих персональные данные нейросетям.
Система фильтрует вредоносные запросы, предотвращает утечки и одновременно противостоит инъекциям в промпты. Есть функция проверки как запросов, так и ответов.
Подходит для интеграции в продакшн-среды.
Пробуйте и забирайте. И коллегам расскажите.
#ии #безопасноть
👍6❤3🔥2 2
Почему вайб-кодинг хайпится, а вайб-аналитика — нет
Забудьте про BI-дашборды и автоматические отчеты — это уже не поражает.
Настоящий вызов и мечта рынка — вайб-аналитика: система, которая сама собирает данные, превращает их в графики и формулирует выводы.
Она могла бы сделать с работой аналитика то же, что Copilot сделал с кодингом.
Стартапы обещают нам такую вайб-аналитику в одно нажатие, но хайпа, как вокруг вайб-кодинга, нет.
И дело не в точности аналитики из машины, а в фундаментальных барьерах, о которых редко говорят.
Доверяй, но проверяй
Вайб-кодинг взлетел, потому что результат можно проверить. Код запускают, гоняют тестами, ищут баги — и быстро понимают, работает ли он. Если даже он написан на вайбе, его качество в итоге подтверждается практикой.
В аналитике все иначе. Чтобы проверить вывод ИИ, нужно воспроизвести всю цепочку: собрать исходные данные, повторить расчеты, перепроверить формулы. Это умножает на ноль смысл автоматизации и возвращает нас к ручной работе.
Результат неотделим от процесса
В кодинге результат можно отделить от процесса — важен работающий продукт. В аналитике методика, источники и шаги расчета — часть самого результата.
Черный ящик здесь не магия, а риск, способный превратить красивую визуализацию в опасную иллюзию.
Проклятие уверенности
ИИ может безошибочно по форме и с полной уверенностью выдать абсолютно неверное содержание. Баг в коде можно исправить, а последствия решений, принятых на основе ошибочной аналитики, откатить сложнее.
Психология доверия
Код можно тестировать в песочнице, аналитику — только в реальном бизнесе, с реальными потерями. Даже идеально выглядящий график вызывает меньше доверия, чем код, который можно прогнать через тесты.
Прорыв случится, когда появятся дешевые и надежные способы верификации аналитики. Тогда вайб-аналитика станет таким же модным и массовым инструментом, как и вайб-кодинг.
#аналитика
Забудьте про BI-дашборды и автоматические отчеты — это уже не поражает.
Настоящий вызов и мечта рынка — вайб-аналитика: система, которая сама собирает данные, превращает их в графики и формулирует выводы.
Она могла бы сделать с работой аналитика то же, что Copilot сделал с кодингом.
Стартапы обещают нам такую вайб-аналитику в одно нажатие, но хайпа, как вокруг вайб-кодинга, нет.
И дело не в точности аналитики из машины, а в фундаментальных барьерах, о которых редко говорят.
Доверяй, но проверяй
Вайб-кодинг взлетел, потому что результат можно проверить. Код запускают, гоняют тестами, ищут баги — и быстро понимают, работает ли он. Если даже он написан на вайбе, его качество в итоге подтверждается практикой.
В аналитике все иначе. Чтобы проверить вывод ИИ, нужно воспроизвести всю цепочку: собрать исходные данные, повторить расчеты, перепроверить формулы. Это умножает на ноль смысл автоматизации и возвращает нас к ручной работе.
Результат неотделим от процесса
В кодинге результат можно отделить от процесса — важен работающий продукт. В аналитике методика, источники и шаги расчета — часть самого результата.
Черный ящик здесь не магия, а риск, способный превратить красивую визуализацию в опасную иллюзию.
Проклятие уверенности
ИИ может безошибочно по форме и с полной уверенностью выдать абсолютно неверное содержание. Баг в коде можно исправить, а последствия решений, принятых на основе ошибочной аналитики, откатить сложнее.
Психология доверия
Код можно тестировать в песочнице, аналитику — только в реальном бизнесе, с реальными потерями. Даже идеально выглядящий график вызывает меньше доверия, чем код, который можно прогнать через тесты.
Прорыв случится, когда появятся дешевые и надежные способы верификации аналитики. Тогда вайб-аналитика станет таким же модным и массовым инструментом, как и вайб-кодинг.
#аналитика
1👍3👨💻3❤🔥2🔥2
Лучше давайте-ка по закону
В 2024 году глобальный рынок лицензирования ИИ-датасетов оценивался в $2,7 млрд, а к 2030 году прогнозируется рост до $11 млрд при темпах более 20% в год.
В сегменте академических датасетов рост с $381 млн в 2024 до $1,6 млрд к 2030. Стартапы, строящие платформы для авторов и правообладателей, уже привлекли свыше $200 млн инвестиций.
И пока кто-то судится, кто-то уже вовсю зарабатывает.
Кто с кем судится?
В 2023 году Getty Images подала в суд на разработчика Stable Diffusion и требует $1,7 млрд компенсаций.
Кажется, производители контента судятся со всеми разработчиками ИИ-моделей, с которыми, видимо, не смогли договориться:
Reddit судится с Anthropic за массивный скрейпинг комментариев. Disney и Universal подали в суд на Midjourney из-за Шрека и Человека-паука.
Издательство Ziff Davis обвиняет Open AI в системном игнорировании robots.txt, а в Indian News Agency недовольны, что юзеры ChatGPT создают вымышленные интервью под брендом агентства.
Кто и сколько зарабатывает на лицензиях?
В 2023 году Shutterstock заработал на лицензировании данных для обучения ИИ-моделей $104 млн. Еще до того, как это стало мейнстримом.
В 2024 году News Corp, владеющая Wall Street Journal, заключила пятилетнюю сделку по лицензированию своего контента с Open AI на $250 млн.
В 2025 году Reddit заработал на лицензировании данных $35 млн только за второй квартал. Это на 24% больше, чем годом ранее.
По сети гуляют графики, показывающие, как ChatGPT и прочие модели обвалили трафик Stack Overflow.
Может показаться, что сервис умирает, но нет:
Stack Overflow заключил соглашение с Google — их вопросы и ответы используются в Gemini с указанием логотипа, ссылки и имени автора. Сумма сделки не разглашается, но в Wired говорят, что она стала значимым источником дохода для компании.
#ии #деньги
В 2024 году глобальный рынок лицензирования ИИ-датасетов оценивался в $2,7 млрд, а к 2030 году прогнозируется рост до $11 млрд при темпах более 20% в год.
В сегменте академических датасетов рост с $381 млн в 2024 до $1,6 млрд к 2030. Стартапы, строящие платформы для авторов и правообладателей, уже привлекли свыше $200 млн инвестиций.
И пока кто-то судится, кто-то уже вовсю зарабатывает.
Кто с кем судится?
В 2023 году Getty Images подала в суд на разработчика Stable Diffusion и требует $1,7 млрд компенсаций.
Кажется, производители контента судятся со всеми разработчиками ИИ-моделей, с которыми, видимо, не смогли договориться:
Reddit судится с Anthropic за массивный скрейпинг комментариев. Disney и Universal подали в суд на Midjourney из-за Шрека и Человека-паука.
Издательство Ziff Davis обвиняет Open AI в системном игнорировании robots.txt, а в Indian News Agency недовольны, что юзеры ChatGPT создают вымышленные интервью под брендом агентства.
Кто и сколько зарабатывает на лицензиях?
В 2023 году Shutterstock заработал на лицензировании данных для обучения ИИ-моделей $104 млн. Еще до того, как это стало мейнстримом.
В 2024 году News Corp, владеющая Wall Street Journal, заключила пятилетнюю сделку по лицензированию своего контента с Open AI на $250 млн.
В 2025 году Reddit заработал на лицензировании данных $35 млн только за второй квартал. Это на 24% больше, чем годом ранее.
По сети гуляют графики, показывающие, как ChatGPT и прочие модели обвалили трафик Stack Overflow.
Может показаться, что сервис умирает, но нет:
Stack Overflow заключил соглашение с Google — их вопросы и ответы используются в Gemini с указанием логотипа, ссылки и имени автора. Сумма сделки не разглашается, но в Wired говорят, что она стала значимым источником дохода для компании.
#ии #деньги
👍4🔥3❤2❤🔥1
Post hoc ergo propter hoc
Еще несколько лет назад бренды без труда находили нужного покупателя в интернете: third-party кукисы позволяли рекламным системам собирать его поведенческий след по всей сети и показывать таргетированные объявления.
Сегодня эта эпоха заканчивается: Safari и Firefox уже заблокировали такие кукисы, Chrome начал тестовое отключение у части пользователей в 2025 и движется к полному отказу.
Вместе с этим рушится привычный механизм точного таргетинга: бренды теряют возможность догонять клиента за пределами своих площадок. На смену приходит новая валюта рекламного рынка — first-party данные.
Это информация, которую компания получает напрямую от клиента: история покупок, поисковые запросы, поведение в приложении, участие в программе лояльности.
Ритейлеры поняли, что сидят на золотой жиле, и начали превращать эти данные в бизнес через RMN (Retail Media Networks) — собственные рекламные экосистемы.
Как это устроено?
Для брендов это инструмент выживания в мире без кукисов. Для ритейлеров — высокомаржинальный источник дохода, который уже приносит миллиарды долларов в год крупнейшим игрокам вроде Amazon, Walmart и X5 Group.
1. Данные о покупателях объединяются в сегменты. Например, «семьи с маленькими детьми» или «те, кто покупает кофе и сладости раз в неделю».
2. Бренды платят за рекламу, адресованную этим сегментам, прямо в экосистеме ритейлера и в интегрированных внешних каналах.
3. В отличие от классической интернет-рекламы, ритейлер может продавать не только показы и клики, но и доказанный прирост продаж.
Uplift — это прирост ключевой метрики, вызванный именно вашим воздействием, а не внешними обстоятельствами. Считается как разница между результатами тестовой и контрольной группы.
Как понять, что данные реально приносят деньги?
И как избежать логической ошибки?
Учить латынь не надо, все проще:
Например, FMCG-производитель шоколада, газировки или чипсов идет к RMN-ритейлеру типа Ozon, X5 Group, Amazon или Walmart, чтобы:
- Рекламировать свои товары в онлайне и офлайне: на сайте ритейлера, в приложении, на электронных ценниках или поисковой выдаче.
- Получает в отчете не только CTR и показы, но и метрику «кампания дала +25% продаж в тестовой группе по сравнению с контрольной».
Прирост считается элементарно:
- В тестовой группе 10 000 человек, 500 купили товар. Конверсия — 5 %.
- В контрольной группе 10 000 человек, 400 купили товар. Конверсия — 4 %.
- Uplift = 5% − 4% = 1 п.п. → прирост продаж на 25% относительно контрольной.
Без контрольной группы вы видите рост продаж, но не знаете, вызван ли он вашей работой с данными или внешними факторами. Uplift-подход показывает ценность данных как продукта на языке денег, а не на уровне красивых графиков.
#деньги #аналитика
Еще несколько лет назад бренды без труда находили нужного покупателя в интернете: third-party кукисы позволяли рекламным системам собирать его поведенческий след по всей сети и показывать таргетированные объявления.
Сегодня эта эпоха заканчивается: Safari и Firefox уже заблокировали такие кукисы, Chrome начал тестовое отключение у части пользователей в 2025 и движется к полному отказу.
Вместе с этим рушится привычный механизм точного таргетинга: бренды теряют возможность догонять клиента за пределами своих площадок. На смену приходит новая валюта рекламного рынка — first-party данные.
Это информация, которую компания получает напрямую от клиента: история покупок, поисковые запросы, поведение в приложении, участие в программе лояльности.
Ритейлеры поняли, что сидят на золотой жиле, и начали превращать эти данные в бизнес через RMN (Retail Media Networks) — собственные рекламные экосистемы.
Как это устроено?
Для брендов это инструмент выживания в мире без кукисов. Для ритейлеров — высокомаржинальный источник дохода, который уже приносит миллиарды долларов в год крупнейшим игрокам вроде Amazon, Walmart и X5 Group.
1. Данные о покупателях объединяются в сегменты. Например, «семьи с маленькими детьми» или «те, кто покупает кофе и сладости раз в неделю».
2. Бренды платят за рекламу, адресованную этим сегментам, прямо в экосистеме ритейлера и в интегрированных внешних каналах.
3. В отличие от классической интернет-рекламы, ритейлер может продавать не только показы и клики, но и доказанный прирост продаж.
Uplift — это прирост ключевой метрики, вызванный именно вашим воздействием, а не внешними обстоятельствами. Считается как разница между результатами тестовой и контрольной группы.
Как понять, что данные реально приносят деньги?
И как избежать логической ошибки?
Учить латынь не надо, все проще:
Например, FMCG-производитель шоколада, газировки или чипсов идет к RMN-ритейлеру типа Ozon, X5 Group, Amazon или Walmart, чтобы:
- Рекламировать свои товары в онлайне и офлайне: на сайте ритейлера, в приложении, на электронных ценниках или поисковой выдаче.
- Получает в отчете не только CTR и показы, но и метрику «кампания дала +25% продаж в тестовой группе по сравнению с контрольной».
Прирост считается элементарно:
- В тестовой группе 10 000 человек, 500 купили товар. Конверсия — 5 %.
- В контрольной группе 10 000 человек, 400 купили товар. Конверсия — 4 %.
- Uplift = 5% − 4% = 1 п.п. → прирост продаж на 25% относительно контрольной.
Без контрольной группы вы видите рост продаж, но не знаете, вызван ли он вашей работой с данными или внешними факторами. Uplift-подход показывает ценность данных как продукта на языке денег, а не на уровне красивых графиков.
#деньги #аналитика
👍4👌3❤🔥2🔥2
Обходим ФЗ-152 с помощью Data Clean Rooms
Если Retail Media Networks, о которых мы рассказали выше, — это бизнес-модель, то Data Clean Rooms — это технология ее воплощения.
Разбираемся, как объединить данные с партнером, извлечь из этого ценность и не нарушить ФЗ-152 или GDPR и CCPA.
Эту задачу решают Data Clean Rooms (DCR): это среда, в которой несколько сторон могут объединять и анализировать свои наборы данных, не передавая сырые записи. Запросы выполняются внутри «чистой комнаты», а на выходе остаются только агрегированные и анонимизированные результаты.
Как это работает?
Допустим, крупный производитель напитков хочет понять, как его реклама в онлайн-магазине ритейлера повлияла на продажи.
Шаг 1: у бренда есть своя CRM с данными о том, кто видел рекламу (ID пользователей, хэшированные). У ритейлера — транзакции по чекам, тоже с зашифрованными ID.
Шаг 2: обе стороны загружают эти данные в DCR, не раскрывая их друг другу.
Шаг 3: внутри DCR данные временно сопоставляются по совпадающим зашифрованным ключам, чтобы определить, кто из тех, кто видел рекламу, совершил покупку.
Шаг 4: система рассчитывает метрики — например, прирост продаж в тестовой группе по сравнению с контрольной (uplift).
Шаг 5: бренд получает только итоговую статистику: «кампания дала +12% прироста продаж», но не видит личные данные покупателей ритейлера.
Безопасность или деньги?
Люди, отвечающие за безопасность данных, и люди, отвечающие за их монетизацию, смотрят на DCR по-разному:
Безопасность видит в DCR щит — способ минимизировать риски утечки, соответствовать требованиям регуляторов и жестко контролировать доступ.
Монетизация видит в DCR кассу — инструмент для запуска партнерских проектов, объединения аудиторий, создания новых продуктов и каналов дохода.
Как там с ФЗ-152?
В российском контексте ключевое ограничение, которое часто блокирует обмен данными между компаниями, — это ФЗ-152 «О персональных данных».
Закон требует, чтобы:
- Любая передача персональных данных третьей стороне или за пределы РФ происходила только с согласия субъекта.
- Оператор данных мог подтвердить, что такое согласие получено.
- Обработка шла в рамках заявленных целей.
Подводный камень: даже если две компании хотят сотрудничать и у обеих есть согласия пользователей, согласия могут различаться по формулировкам, срокам и целям. Любое несоответствие — риск штрафа или блокировки проекта.
По сути, DCR позволяют компаниям делать совместную аналитику, формально не подпадая под понятие «передача персональных данных» в ФЗ-152. Это снимает необходимость собирать новые согласия, упрощает юридическое оформление и ускоряет запуск коллабораций.
#безопасность
Если Retail Media Networks, о которых мы рассказали выше, — это бизнес-модель, то Data Clean Rooms — это технология ее воплощения.
Разбираемся, как объединить данные с партнером, извлечь из этого ценность и не нарушить ФЗ-152 или GDPR и CCPA.
Эту задачу решают Data Clean Rooms (DCR): это среда, в которой несколько сторон могут объединять и анализировать свои наборы данных, не передавая сырые записи. Запросы выполняются внутри «чистой комнаты», а на выходе остаются только агрегированные и анонимизированные результаты.
Как это работает?
Допустим, крупный производитель напитков хочет понять, как его реклама в онлайн-магазине ритейлера повлияла на продажи.
Шаг 1: у бренда есть своя CRM с данными о том, кто видел рекламу (ID пользователей, хэшированные). У ритейлера — транзакции по чекам, тоже с зашифрованными ID.
Шаг 2: обе стороны загружают эти данные в DCR, не раскрывая их друг другу.
Шаг 3: внутри DCR данные временно сопоставляются по совпадающим зашифрованным ключам, чтобы определить, кто из тех, кто видел рекламу, совершил покупку.
Шаг 4: система рассчитывает метрики — например, прирост продаж в тестовой группе по сравнению с контрольной (uplift).
Шаг 5: бренд получает только итоговую статистику: «кампания дала +12% прироста продаж», но не видит личные данные покупателей ритейлера.
Безопасность или деньги?
Люди, отвечающие за безопасность данных, и люди, отвечающие за их монетизацию, смотрят на DCR по-разному:
Безопасность видит в DCR щит — способ минимизировать риски утечки, соответствовать требованиям регуляторов и жестко контролировать доступ.
Монетизация видит в DCR кассу — инструмент для запуска партнерских проектов, объединения аудиторий, создания новых продуктов и каналов дохода.
Как там с ФЗ-152?
В российском контексте ключевое ограничение, которое часто блокирует обмен данными между компаниями, — это ФЗ-152 «О персональных данных».
Закон требует, чтобы:
- Любая передача персональных данных третьей стороне или за пределы РФ происходила только с согласия субъекта.
- Оператор данных мог подтвердить, что такое согласие получено.
- Обработка шла в рамках заявленных целей.
Подводный камень: даже если две компании хотят сотрудничать и у обеих есть согласия пользователей, согласия могут различаться по формулировкам, срокам и целям. Любое несоответствие — риск штрафа или блокировки проекта.
По сути, DCR позволяют компаниям делать совместную аналитику, формально не подпадая под понятие «передача персональных данных» в ФЗ-152. Это снимает необходимость собирать новые согласия, упрощает юридическое оформление и ускоряет запуск коллабораций.
#безопасность
1❤🔥4👍3🔥3👏1
Управление метаданными.pdf
1.1 MB
Рэдфлаги в управлении метаданными
Банк России выкатил подробный гайд по наведению порядка в метаданных.
Мастрид, если:
- Данные ищутся дольше, чем анализируются.
- При запросе «Откуда эти данные?» никто не может быстро показать цепочку их происхождения.
- Один и тот же показатель в разных отчетах имеет разное значение или алгоритм расчета.
- Нет единого бизнес-глоссария и каждый трактует термины по-своему.
- Доступы к данным оформляются вручную и долго, а требования регуляторов вызывают панику.
Мастрид, чтобы:
- Ускорить аналитику и перестать терять время на хаотичный поиск данных. Документ покажет, как организовать описательные и структурные метаданные так, чтобы за минуты находить нужный набор, видеть бизнес-определения и понимать, откуда эти данные и как их считать.
- Избавиться от разночтений в показателях. Узнаете, как формализовать расчеты в бизнес-глоссарии, чтобы у всех отчеты считались по одним алгоритмам, а регуляторные формы сходились без ручных сверок.
- Снизить стоимость ошибок. Рекомендации помогают встроить автоматизированный контроль качества метаданных, который ловит дубли, несогласованность и устаревшие значения до того, как они испортят бизнес-процессы.
- Выстроить четкие роли и зоны ответственности. Получите готовую матрицу RACI, чтобы каждый участник процесса понимал свою задачу, и качество метаданных не зависело от пары энтузиастов.
- Сократить путь от идеи до запуска продукта. Поймете, как интеграция метаданных с айти-архитектурой убирает лишние согласования и позволяет быстро вносить изменения без риска сломать связанные процессы.
Поделитесь с коллегами.
#аналитика
Банк России выкатил подробный гайд по наведению порядка в метаданных.
Мастрид, если:
- Данные ищутся дольше, чем анализируются.
- При запросе «Откуда эти данные?» никто не может быстро показать цепочку их происхождения.
- Один и тот же показатель в разных отчетах имеет разное значение или алгоритм расчета.
- Нет единого бизнес-глоссария и каждый трактует термины по-своему.
- Доступы к данным оформляются вручную и долго, а требования регуляторов вызывают панику.
Мастрид, чтобы:
- Ускорить аналитику и перестать терять время на хаотичный поиск данных. Документ покажет, как организовать описательные и структурные метаданные так, чтобы за минуты находить нужный набор, видеть бизнес-определения и понимать, откуда эти данные и как их считать.
- Избавиться от разночтений в показателях. Узнаете, как формализовать расчеты в бизнес-глоссарии, чтобы у всех отчеты считались по одним алгоритмам, а регуляторные формы сходились без ручных сверок.
- Снизить стоимость ошибок. Рекомендации помогают встроить автоматизированный контроль качества метаданных, который ловит дубли, несогласованность и устаревшие значения до того, как они испортят бизнес-процессы.
- Выстроить четкие роли и зоны ответственности. Получите готовую матрицу RACI, чтобы каждый участник процесса понимал свою задачу, и качество метаданных не зависело от пары энтузиастов.
- Сократить путь от идеи до запуска продукта. Поймете, как интеграция метаданных с айти-архитектурой убирает лишние согласования и позволяет быстро вносить изменения без риска сломать связанные процессы.
Поделитесь с коллегами.
#аналитика
1👍5🔥4🥰3
Под видом инновации нам представили способ экономии ресурсов?
Скандалы, интриги, разоблачения.
Редактор The Register Тобиас Манн пишет, что OpenAI нужно отбивать многомиллиардные раунды, показывая рост, а для этого есть три пути: либо увеличить число пользователей, либо повысить цены, либо сократить расходы.
Ну и что?
После выхода GPT-5 OpenAI убрала возможность выбрать, какая версия отвечает пользователю — обычная или более ресурсоемкая рассуждающая.
После жалоб пользователям вернули ручное переключение моделей, но только по подписке.
Популярно мнение, что в бесплатной версии маршрутизатор направляет большинство запросов глупой версии. Меньше рассуждений — меньше токенов, меньше токенов — меньше счета за электричество.
Манн также отмечает, что в целях экономии OpenAI решила не увеличивать контекстное окно GPT-5. В бесплатной версии это 8000 токенов, а в планах Plus и Pro — 128 тысяч токенов.
Контекст по подписке Claude Pro — 200 тысяч токенов, а контекстное окно Gemini 2.5 — 1 млн токенов.
#ии
Скандалы, интриги, разоблачения.
Редактор The Register Тобиас Манн пишет, что OpenAI нужно отбивать многомиллиардные раунды, показывая рост, а для этого есть три пути: либо увеличить число пользователей, либо повысить цены, либо сократить расходы.
Ну и что?
После выхода GPT-5 OpenAI убрала возможность выбрать, какая версия отвечает пользователю — обычная или более ресурсоемкая рассуждающая.
После жалоб пользователям вернули ручное переключение моделей, но только по подписке.
Популярно мнение, что в бесплатной версии маршрутизатор направляет большинство запросов глупой версии. Меньше рассуждений — меньше токенов, меньше токенов — меньше счета за электричество.
Манн также отмечает, что в целях экономии OpenAI решила не увеличивать контекстное окно GPT-5. В бесплатной версии это 8000 токенов, а в планах Plus и Pro — 128 тысяч токенов.
Контекст по подписке Claude Pro — 200 тысяч токенов, а контекстное окно Gemini 2.5 — 1 млн токенов.
#ии
👏4😱3🔥2❤🔥1
Будущее монетизации данных — это API, а не продажа таблиц
Операторы связи десятилетиями зарабатывали на трафике. Но рынок уперся в потолок: ARPU почти не растет — в Европе он держится на уровне 15€ в месяц без динамики. При этом 5G требует миллиардных вложений, а старые тарифные модели уже не окупают инфраструктуру.
GSMA Open Gateway предлагает новую логику монетизации. Это единый стандарт API, через который бизнес получает доступ не к сырым данным операторов, а к сервисам сети. К инициативе уже присоединились более 45 операторов, охватывающих до 80% абонентов в мире.
Кейсы использования понятны:
- SIM Swap API — банки проверяют, не подменена ли SIM-карта клиента, снижая риск фрода.
- Location API — e-commerce и логистика подтверждают доставку и геопозицию клиента.
- Quality on Demand API — гейминг и VR покупают гарантированное качество сети.
- Scam Signal API — финтех-сервисы в реальном времени определяют, что звонок может быть мошенническим.
Для операторов это новый слой выручки.
Теперь они зарабатывают не только на абонентах, но и на каждом API-вызове. По данным STL Partners, рынок таких сервисов к 2028 году может достичь $22 млрд, что даст операторам до 5-10 % выручки сверху к традиционным тарифам. Это превращает телеком в важнейшую платформу цифровой экономики.
#деньги #исследования
Операторы связи десятилетиями зарабатывали на трафике. Но рынок уперся в потолок: ARPU почти не растет — в Европе он держится на уровне 15€ в месяц без динамики. При этом 5G требует миллиардных вложений, а старые тарифные модели уже не окупают инфраструктуру.
GSMA Open Gateway предлагает новую логику монетизации. Это единый стандарт API, через который бизнес получает доступ не к сырым данным операторов, а к сервисам сети. К инициативе уже присоединились более 45 операторов, охватывающих до 80% абонентов в мире.
Кейсы использования понятны:
- SIM Swap API — банки проверяют, не подменена ли SIM-карта клиента, снижая риск фрода.
- Location API — e-commerce и логистика подтверждают доставку и геопозицию клиента.
- Quality on Demand API — гейминг и VR покупают гарантированное качество сети.
- Scam Signal API — финтех-сервисы в реальном времени определяют, что звонок может быть мошенническим.
Для операторов это новый слой выручки.
Теперь они зарабатывают не только на абонентах, но и на каждом API-вызове. По данным STL Partners, рынок таких сервисов к 2028 году может достичь $22 млрд, что даст операторам до 5-10 % выручки сверху к традиционным тарифам. Это превращает телеком в важнейшую платформу цифровой экономики.
#деньги #исследования
👍5❤2❤🔥2🔥2
Если вам уже даже промпты самим писать не хочется
Шутим. Это, конечно, не против лени, а ради более точных ответов от нейросети:
В OpenAI выпустили генератор промптов, который превращает простые запросы в подробные инструкции для ИИ.
Работает просто: пишете, что хотите получить, жмете кнопку, GPT-5 анализирует запрос и возвращает детализированный промпт.
Поможет в работе с любыми нейросетями.
Можно использовать в качестве тренажера.
#ии
Шутим. Это, конечно, не против лени, а ради более точных ответов от нейросети:
В OpenAI выпустили генератор промптов, который превращает простые запросы в подробные инструкции для ИИ.
Работает просто: пишете, что хотите получить, жмете кнопку, GPT-5 анализирует запрос и возвращает детализированный промпт.
Поможет в работе с любыми нейросетями.
Можно использовать в качестве тренажера.
#ии
👍4👌3❤🔥2🙏2🤔1
Кооперативы по владению данными
Мы привыкли, что данные собирают платформы. Тихо, на фоне, и дальше распоряжаются ими по своим правилам. Дата-кооперативы предлагают другую модель.
Это институт коллективного управления данными, где сами участники решают, кому давать доступ и как делить выгоды.
Чем это отличается от других форматов
В data trust решения принимает доверенный управляющий. Clean room позволяет обмениваться данными безопасно, но без участия сообщества в управлении.
Кооператив же оставляет ключевые рычаги у участников: членство, голосование, политика доступа и распределения доходов.
Как это работает
Участник дает согласие и может отозвать его одним кликом. Данные хранятся в безопасном контуре: Pods/PIMS, каталоги, анонимизация, аудит доступа.
В ЕС кооперативы вписываются в рамку Data Governance Act (DGA): закон признает их как посредников данных и задает правила для data altruism.
На чем зарабатывают
Кооперативы строят выручку на подписках на агрегированные инсайты, лицензиях на наборы данных, исследовательских и муниципальных контрактах.
Доход делится между фондом кооператива и участниками по формульным правилам (вклад, качество, свежесть данных).
Где это уже работает
- MIDATA (Швейцария): пациенты управляют доступом к своим медицинским данным.
- POSMO (Цюрих): мобильные данные горожан используются в городских проектах.
- Driver’s Seat (США): данные водителей превращаются в инсайты для городов и самих водителей.
Почему это важно
Для бизнеса это источник качественных наборов с проверенным происхождением и понятными лицензиями. Для ИИ — гарантия чистых данных и снижение рисков. Для граждан — контроль и справедливое участие в прибыли.
Но есть подводные камни
Масштабирование дается тяжело: дорогой набор участников, сложный UX согласий, интероперабельность между платформами и поиск устойчивой экономики. Последние обзоры Project Liberty фиксируют, что модель обещающая, но пока редкая.
Тоже хотите дата-кооператив? Полистайте гайд — там больше подробностей.
#деньги
Мы привыкли, что данные собирают платформы. Тихо, на фоне, и дальше распоряжаются ими по своим правилам. Дата-кооперативы предлагают другую модель.
Это институт коллективного управления данными, где сами участники решают, кому давать доступ и как делить выгоды.
Чем это отличается от других форматов
В data trust решения принимает доверенный управляющий. Clean room позволяет обмениваться данными безопасно, но без участия сообщества в управлении.
Кооператив же оставляет ключевые рычаги у участников: членство, голосование, политика доступа и распределения доходов.
Как это работает
Участник дает согласие и может отозвать его одним кликом. Данные хранятся в безопасном контуре: Pods/PIMS, каталоги, анонимизация, аудит доступа.
В ЕС кооперативы вписываются в рамку Data Governance Act (DGA): закон признает их как посредников данных и задает правила для data altruism.
На чем зарабатывают
Кооперативы строят выручку на подписках на агрегированные инсайты, лицензиях на наборы данных, исследовательских и муниципальных контрактах.
Доход делится между фондом кооператива и участниками по формульным правилам (вклад, качество, свежесть данных).
Где это уже работает
- MIDATA (Швейцария): пациенты управляют доступом к своим медицинским данным.
- POSMO (Цюрих): мобильные данные горожан используются в городских проектах.
- Driver’s Seat (США): данные водителей превращаются в инсайты для городов и самих водителей.
Почему это важно
Для бизнеса это источник качественных наборов с проверенным происхождением и понятными лицензиями. Для ИИ — гарантия чистых данных и снижение рисков. Для граждан — контроль и справедливое участие в прибыли.
Но есть подводные камни
Масштабирование дается тяжело: дорогой набор участников, сложный UX согласий, интероперабельность между платформами и поиск устойчивой экономики. Последние обзоры Project Liberty фиксируют, что модель обещающая, но пока редкая.
Тоже хотите дата-кооператив? Полистайте гайд — там больше подробностей.
#деньги
👍3👌3❤🔥2 2
Вы все еще не любите говорить с чат-ботами банка и сразу зовете оператора?
Да, чат-боты еще далеки от совершенства. Тем временем банки разрабатывают мощных ИИ-агентов для других задач. Они сами планируют шаги, вызывают инструменты по API и доводят работу до результата с отчетностью и контрольными точками.
В Deloitte рассказали, где это уже работает.
Одиночные агенты
1. Валидация платежных инструкций
ИИ-агент читает инструкцию, проверяет формат и реквизиты по SOP, обращается к внутренним справочникам и сервисам по API, помечает исключения, формирует лог и передает редкие кейсы на ручную проверку.
Это умная накладка: процесс остается прежним, агент просто исполняет его как сценарий. Эффект — сокращение времени цикла и ошибок ввода без глубокого трогания легаси.
2. От RPA к динамическому оптимизатору
ИИ-агент анализирует ликвидность вблизи реального времени, предлагает перераспределение остатков, проверяет рисковые лимиты, формирует поручения на переводы в рамках цифрового кошелька и отдает их в исполнение. При первом запуске работает как советник, потом — частичная автономия на малых лимитах.
Мультиагентные пайплайны
1. Покупки от третьего лица
Платежные экосистемы тестируют операции, где агенты покупают и платят от имени пользователя. Для банка это означает: цифровые кошельки для агентов, транзакционные лимиты, отдельные журналы действий и мониторинг в реальном времени, чтобы автономия не превращалась в системный риск.
2. Непрерывный KYC
Агент «А» подтягивает реестры, открытые источники и внутренние профили. Агент «Б» пересчитывает риск-скор, сравнивает с триггерами. Агент «В» готовит артефакты и обновления для регулятора.
Человек только подтверждает пограничные случаи. Выигрыш — снижение доли просроченных обновлений и ручных передач между отделами.
3. AML-расследование
Агент «А» читает алерт, фиксирует нарушенное правило и контекст. Агент «Б» анализирует историю транзакций клиента и связей, ищет нетривиальные паттерны. Агент «В» оформляет выводы и черновик SAR/CTR, проверяет соответствие формату и маршрутизирует на подачу.
Результат — ускорение цикла от алерта до решения и рост полноты расследований.
4. Юридические документы
Мультиагентный разбор контрактов: один агент извлекает ключевые положения, второй проверяет соответствие политике, третий готовит резюме рисков и рекомендации. На ряде задач достигается точность, сопоставимая с работой эксперта, при этом юрист выполняет только роль супервайзера.
Важно
ИИ-агенты — это исполнители, а агентный ИИ — система и правила игры. Просто пересадить на позиции людей роботов не получится — нужно не прикручивать ИИ к старому процессу, а перепридумывать сам процесс под агентный режим с архитектурой, данными и комплаенсом, вшитым с первого дня.
#ии
Да, чат-боты еще далеки от совершенства. Тем временем банки разрабатывают мощных ИИ-агентов для других задач. Они сами планируют шаги, вызывают инструменты по API и доводят работу до результата с отчетностью и контрольными точками.
В Deloitte рассказали, где это уже работает.
Одиночные агенты
1. Валидация платежных инструкций
ИИ-агент читает инструкцию, проверяет формат и реквизиты по SOP, обращается к внутренним справочникам и сервисам по API, помечает исключения, формирует лог и передает редкие кейсы на ручную проверку.
Это умная накладка: процесс остается прежним, агент просто исполняет его как сценарий. Эффект — сокращение времени цикла и ошибок ввода без глубокого трогания легаси.
2. От RPA к динамическому оптимизатору
ИИ-агент анализирует ликвидность вблизи реального времени, предлагает перераспределение остатков, проверяет рисковые лимиты, формирует поручения на переводы в рамках цифрового кошелька и отдает их в исполнение. При первом запуске работает как советник, потом — частичная автономия на малых лимитах.
Мультиагентные пайплайны
1. Покупки от третьего лица
Платежные экосистемы тестируют операции, где агенты покупают и платят от имени пользователя. Для банка это означает: цифровые кошельки для агентов, транзакционные лимиты, отдельные журналы действий и мониторинг в реальном времени, чтобы автономия не превращалась в системный риск.
2. Непрерывный KYC
Агент «А» подтягивает реестры, открытые источники и внутренние профили. Агент «Б» пересчитывает риск-скор, сравнивает с триггерами. Агент «В» готовит артефакты и обновления для регулятора.
Человек только подтверждает пограничные случаи. Выигрыш — снижение доли просроченных обновлений и ручных передач между отделами.
3. AML-расследование
Агент «А» читает алерт, фиксирует нарушенное правило и контекст. Агент «Б» анализирует историю транзакций клиента и связей, ищет нетривиальные паттерны. Агент «В» оформляет выводы и черновик SAR/CTR, проверяет соответствие формату и маршрутизирует на подачу.
Результат — ускорение цикла от алерта до решения и рост полноты расследований.
4. Юридические документы
Мультиагентный разбор контрактов: один агент извлекает ключевые положения, второй проверяет соответствие политике, третий готовит резюме рисков и рекомендации. На ряде задач достигается точность, сопоставимая с работой эксперта, при этом юрист выполняет только роль супервайзера.
Важно
ИИ-агенты — это исполнители, а агентный ИИ — система и правила игры. Просто пересадить на позиции людей роботов не получится — нужно не прикручивать ИИ к старому процессу, а перепридумывать сам процесс под агентный режим с архитектурой, данными и комплаенсом, вшитым с первого дня.
#ии
🔥4👍3❤🔥2❤2
Куда еще больше?
Кажется, нам уже нужна отдельная рубрика под посты на тему «Как корабль назовешь — так он и поплывет». Мы уже писали, почему нужно переименовать CDO в CDMO, и почему надо нанимать Data Product Owner вместо Data Owner.
Сегодня про то, что пора бы переходить от Big Data к Huge Data. Вдохновились статьей на Форбсе, в которой в основном про то, как в МТС делают рекламу с помощью данных, а вот про Huge Data там упоминают только скользь.
Нам показалось важным покопаться и в термине, и в том, что он описывает.
В какой момент Big Data превращается в Huge Data
Big Data — это максимум из своих данных. Например, вы — ритейлер. Продажи, остатки, клики, чеки — все это внутри вашего контура. Ограничение понятно: модели не видят погоду, потоки людей и задержки у поставщиков.
В такой ситуации нет смысла делать ваши большие данные еще больше.
Тогда вы ищете партнеров, которые вам помогут. И начинаете совместно пользовать Data Clean Room. Это закрытая вычислительная среда у партнера или у нейтрального провайдера.
Вы загружаете туда код и настройки. Сырые таблицы партнера не копируются к вам. Комната считает нужные метрики и признаки и возвращает только согласованный результат.
И в этот момент Big Data превращается в Huge Data.
Вы не тащите чужие данные к себе. У вас не становится больше данных. Вы отправляете вычисления туда, где лежат данные. Правила зашиты заранее: что считать, на каком уровне агрегировать, что можно вынести наружу. Все действия пишутся в аудит.
Как это устроено
Поставщик не выгружает вам историю поставок. Он запускает ваш расчет в Data Clean Room. На выходе вы получаете вероятности задержки по всем товарам на следующую неделю.
Погодный сервис не передает никакие логи. Он все считает у себя и возвращает по районам и неделям простые признаки: «аномальная жара», «аномальный холод», «сильные осадки».
Оператор посещаемости не делится треками и чеками. Он отдает только сводный индекс потока людей по кварталам города.
Затем все это склеивается и ваша Big Data обогащается. Большие данные не становятся больше, но становятся полезнее.
Теперь раз в сутки система подтягивает признаки из всех Data Clean Rooms, модель обновляет прогноз по каждой точке и неделе и заранее меняет заказы: при высоком риске задержки + жаре + росте потока активнее запасает воду и мороженое, при ливнях и падении потока урезает товары для пикника.
Закрепляем
В Big Data вы растите свое озеро. В Huge Data вы соединяете внешние и внутренние сигналы через Data Clean Rooms. Вы забираете не чужие данные, а инсайты. Вместо того, чтобы собирать еще какие-то данные, вы ищете еще каких-то партнеров, которые обогатят ваши наборы.
#статьи
Кажется, нам уже нужна отдельная рубрика под посты на тему «Как корабль назовешь — так он и поплывет». Мы уже писали, почему нужно переименовать CDO в CDMO, и почему надо нанимать Data Product Owner вместо Data Owner.
Сегодня про то, что пора бы переходить от Big Data к Huge Data. Вдохновились статьей на Форбсе, в которой в основном про то, как в МТС делают рекламу с помощью данных, а вот про Huge Data там упоминают только скользь.
Нам показалось важным покопаться и в термине, и в том, что он описывает.
В какой момент Big Data превращается в Huge Data
Big Data — это максимум из своих данных. Например, вы — ритейлер. Продажи, остатки, клики, чеки — все это внутри вашего контура. Ограничение понятно: модели не видят погоду, потоки людей и задержки у поставщиков.
В такой ситуации нет смысла делать ваши большие данные еще больше.
Тогда вы ищете партнеров, которые вам помогут. И начинаете совместно пользовать Data Clean Room. Это закрытая вычислительная среда у партнера или у нейтрального провайдера.
Вы загружаете туда код и настройки. Сырые таблицы партнера не копируются к вам. Комната считает нужные метрики и признаки и возвращает только согласованный результат.
И в этот момент Big Data превращается в Huge Data.
Вы не тащите чужие данные к себе. У вас не становится больше данных. Вы отправляете вычисления туда, где лежат данные. Правила зашиты заранее: что считать, на каком уровне агрегировать, что можно вынести наружу. Все действия пишутся в аудит.
Как это устроено
Поставщик не выгружает вам историю поставок. Он запускает ваш расчет в Data Clean Room. На выходе вы получаете вероятности задержки по всем товарам на следующую неделю.
Погодный сервис не передает никакие логи. Он все считает у себя и возвращает по районам и неделям простые признаки: «аномальная жара», «аномальный холод», «сильные осадки».
Оператор посещаемости не делится треками и чеками. Он отдает только сводный индекс потока людей по кварталам города.
Затем все это склеивается и ваша Big Data обогащается. Большие данные не становятся больше, но становятся полезнее.
Теперь раз в сутки система подтягивает признаки из всех Data Clean Rooms, модель обновляет прогноз по каждой точке и неделе и заранее меняет заказы: при высоком риске задержки + жаре + росте потока активнее запасает воду и мороженое, при ливнях и падении потока урезает товары для пикника.
Закрепляем
В Big Data вы растите свое озеро. В Huge Data вы соединяете внешние и внутренние сигналы через Data Clean Rooms. Вы забираете не чужие данные, а инсайты. Вместо того, чтобы собирать еще какие-то данные, вы ищете еще каких-то партнеров, которые обогатят ваши наборы.
#статьи
1👍3 3❤🔥2🔥2
Чек-листы: как доказать Роскомнадзору, что вы не виноваты в утечке персональных данных
На Ютубе вышла беседа адвоката Калоя Ахильгова и управляющего партнера комплаенс-бутика Артема Дмитриева.
Посмотрите, если интересно:
⁃ Что такое прайваси-виктимность?
⁃ Когда бизнесу можно и нужно собирать персональные данные без согласия?
⁃ Когда номер телефона не является персональными данными?
⁃ Что такое живое право Роскомнадзора?
⁃ Писать ли в Роскомнадзор, если хакеры угрожают слить украденные данные?
Если некогда смотреть, просто забирайте чек-листы:
⁃ Как доказать, что вы старались предотвратить утечку
⁃ Как доказать, что вы старались минимизировать последствия
Изучите сами и с безопасниками поделитесь.
#безопасность
На Ютубе вышла беседа адвоката Калоя Ахильгова и управляющего партнера комплаенс-бутика Артема Дмитриева.
Посмотрите, если интересно:
⁃ Что такое прайваси-виктимность?
⁃ Когда бизнесу можно и нужно собирать персональные данные без согласия?
⁃ Когда номер телефона не является персональными данными?
⁃ Что такое живое право Роскомнадзора?
⁃ Писать ли в Роскомнадзор, если хакеры угрожают слить украденные данные?
Если некогда смотреть, просто забирайте чек-листы:
⁃ Как доказать, что вы старались предотвратить утечку
⁃ Как доказать, что вы старались минимизировать последствия
Изучите сами и с безопасниками поделитесь.
#безопасность
👍3🙏3❤2🔥2
Что случится с вашими данными за выходные?
В статье How to Future-Proof Your Data and AI Strategy автор затронул тему, которая вообще-то витает в воздухе, но мало кем озвучивается: «Как при таком темпе развития ИИ не устареть в работе с данными?»
ИИ развивается ну очень резво. И так уж вышло, что в основе развития ИИ лежат данные, требования к которым повышаются на каждом новом витке развития этого самого ИИ.
Это не порочный круг, это серпантин.
Если с каждым витком развития ИИ вам все сложнее использовать ваши данные в новых инструментах и технологиях, то у нас плохие новости.
Рано или поздно ИИ предъявит к вашим данным такие требования, под которые у вас не получится подстроиться быстро.
При сдвиге парадигмы количество не переходит в качество. У вас может быть сколько угодно нефтяных вышек, но если завтра заработает токамак, котировки ваших акций покраснеют.
Окей, но как быть?
Рецепта не дадим. Да и в статье много общих фраз, но кое-какие советы автора очень даже толковые:
⁃ Развяжите инструменты и данные: стандартизируйте слои, чтобы завтра можно было безболезненно сменить поставщика.
⁃ Проводите регулярные ревью и моделей, и данных: переобучение по расписанию, тесты на регресс. Процесс эволюции должен быть заложен в вашу стратегию. Если вы пытаетесь только реагировать, но не предвидеть, то рано или поздно реакция подведет.
⁃ Вшейте приватность по умолчанию и управляйте по риску. Перед обучением проверяйте датасеты на персональные данные и фиксируйте основания их использования. Усиливайте контроль там, где выше влияние на клиента и деньги. Это снизит риск отката моделей и потерь при резкой смене правил или инструментов.
Тогда любой следующий виток развития ИИ с большей вероятностью будет усиливать ваш профит, а не обнулять накопленный опыт и результаты.
#ии #статьи
В статье How to Future-Proof Your Data and AI Strategy автор затронул тему, которая вообще-то витает в воздухе, но мало кем озвучивается: «Как при таком темпе развития ИИ не устареть в работе с данными?»
ИИ развивается ну очень резво. И так уж вышло, что в основе развития ИИ лежат данные, требования к которым повышаются на каждом новом витке развития этого самого ИИ.
Это не порочный круг, это серпантин.
Если с каждым витком развития ИИ вам все сложнее использовать ваши данные в новых инструментах и технологиях, то у нас плохие новости.
Рано или поздно ИИ предъявит к вашим данным такие требования, под которые у вас не получится подстроиться быстро.
При сдвиге парадигмы количество не переходит в качество. У вас может быть сколько угодно нефтяных вышек, но если завтра заработает токамак, котировки ваших акций покраснеют.
Окей, но как быть?
Рецепта не дадим. Да и в статье много общих фраз, но кое-какие советы автора очень даже толковые:
⁃ Развяжите инструменты и данные: стандартизируйте слои, чтобы завтра можно было безболезненно сменить поставщика.
⁃ Проводите регулярные ревью и моделей, и данных: переобучение по расписанию, тесты на регресс. Процесс эволюции должен быть заложен в вашу стратегию. Если вы пытаетесь только реагировать, но не предвидеть, то рано или поздно реакция подведет.
⁃ Вшейте приватность по умолчанию и управляйте по риску. Перед обучением проверяйте датасеты на персональные данные и фиксируйте основания их использования. Усиливайте контроль там, где выше влияние на клиента и деньги. Это снизит риск отката моделей и потерь при резкой смене правил или инструментов.
Тогда любой следующий виток развития ИИ с большей вероятностью будет усиливать ваш профит, а не обнулять накопленный опыт и результаты.
#ии #статьи
❤3👍3🔥3👏1
Что посмотреть на выходных, кроме «Чужого» и «Уэнсдей»
В Майкрософт выложили на Ютуб все выступления с MCP Dev Days. Всего 16 видео по 20-40 минут.
В первый день показывали, как MCP уже встраивают в VS Code/Visual Studio и комьюнити-тулзы, с кейсами от Anthropic, Okta и Neon.
Во второй были практики для билдеров: как писать MCP-серверы и агентные сценарии, prompt-driven development, безопасность, реестр/инструменты и интеграции на Azure.
Самое полезное — много приложимых демо и гайдов, которые можно повторить. Все записи собраны в одном плейлисте.
Обязательно к просмотру для инженеров и руководителей.
Отправляйте тем, кто ждет нового «Ведьмака».
#ии
В Майкрософт выложили на Ютуб все выступления с MCP Dev Days. Всего 16 видео по 20-40 минут.
В первый день показывали, как MCP уже встраивают в VS Code/Visual Studio и комьюнити-тулзы, с кейсами от Anthropic, Okta и Neon.
Во второй были практики для билдеров: как писать MCP-серверы и агентные сценарии, prompt-driven development, безопасность, реестр/инструменты и интеграции на Azure.
Самое полезное — много приложимых демо и гайдов, которые можно повторить. Все записи собраны в одном плейлисте.
Обязательно к просмотру для инженеров и руководителей.
Отправляйте тем, кто ждет нового «Ведьмака».
#ии
1🔥5😁4👌3👍2
Подборка гайдлайнов по управлению качеством данных
На https://www.dataqualityguides.com собраны руководства по управлению качеством данных для инженеров, разработчиков, тестировщиков и продактов. Более 100 штук. От топовых компаний. С примерами и кейсами.
Забирайте, раздавайте.
На https://www.dataqualityguides.com собраны руководства по управлению качеством данных для инженеров, разработчиков, тестировщиков и продактов. Более 100 штук. От топовых компаний. С примерами и кейсами.
Забирайте, раздавайте.
👍4🙏3❤2❤🔥1