Progres Post
300 subscribers
39 photos
1 video
17 files
194 links
Как собирать, анализировать и зарабатывать на данных.

Присылайте новости: @progrespost_bot

Редактор: @honeybalism
Download Telegram
Лучше давайте-ка по закону

В 2024 году глобальный рынок лицензирования ИИ-датасетов оценивался в $2,7 млрд, а к 2030 году прогнозируется рост до $11 млрд при темпах более 20% в год.

В сегменте академических датасетов рост с $381 млн в 2024 до $1,6 млрд к 2030. Стартапы, строящие платформы для авторов и правообладателей, уже привлекли свыше $200 млн инвестиций.

И пока кто-то судится, кто-то уже вовсю зарабатывает.

Кто с кем судится?

В 2023 году Getty Images подала в суд на разработчика Stable Diffusion и требует $1,7 млрд компенсаций.

Кажется, производители контента судятся со всеми разработчиками ИИ-моделей, с которыми, видимо, не смогли договориться:

Reddit судится с Anthropic за массивный скрейпинг комментариев. Disney и Universal подали в суд на Midjourney из-за Шрека и Человека-паука.

Издательство Ziff Davis обвиняет Open AI в системном игнорировании robots.txt, а в Indian News Agency недовольны, что юзеры ChatGPT создают вымышленные интервью под брендом агентства.

Кто и сколько зарабатывает на лицензиях?

В 2023 году Shutterstock заработал на лицензировании данных для обучения ИИ-моделей $104 млн. Еще до того, как это стало мейнстримом.

В 2024 году News Corp, владеющая Wall Street Journal, заключила пятилетнюю сделку по лицензированию своего контента с Open AI на $250 млн.

В 2025 году Reddit заработал на лицензировании данных $35 млн только за второй квартал. Это на 24% больше, чем годом ранее.

По сети гуляют графики, показывающие, как ChatGPT и прочие модели обвалили трафик Stack Overflow.

Может показаться, что сервис умирает, но нет:

Stack Overflow заключил соглашение с Google — их вопросы и ответы используются в Gemini с указанием логотипа, ссылки и имени автора. Сумма сделки не разглашается, но в Wired говорят, что она стала значимым источником дохода для компании.

#ии #деньги
👍3🔥32❤‍🔥1
Post hoc ergo propter hoc

Еще несколько лет назад бренды без труда находили нужного покупателя в интернете: third-party кукисы позволяли рекламным системам собирать его поведенческий след по всей сети и показывать таргетированные объявления.

Сегодня эта эпоха заканчивается: Safari и Firefox уже заблокировали такие кукисы, Chrome начал тестовое отключение у части пользователей в 2025 и движется к полному отказу.

Вместе с этим рушится привычный механизм точного таргетинга: бренды теряют возможность догонять клиента за пределами своих площадок. На смену приходит новая валюта рекламного рынка — first-party данные.

Это информация, которую компания получает напрямую от клиента: история покупок, поисковые запросы, поведение в приложении, участие в программе лояльности.

Ритейлеры поняли, что сидят на золотой жиле, и начали превращать эти данные в бизнес через RMN (Retail Media Networks) — собственные рекламные экосистемы.

Как это устроено?

Для брендов это инструмент выживания в мире без кукисов. Для ритейлеров — высокомаржинальный источник дохода, который уже приносит миллиарды долларов в год крупнейшим игрокам вроде Amazon, Walmart и X5 Group.

1. Данные о покупателях объединяются в сегменты. Например, «семьи с маленькими детьми» или «те, кто покупает кофе и сладости раз в неделю».

2. Бренды платят за рекламу, адресованную этим сегментам, прямо в экосистеме ритейлера и в интегрированных внешних каналах.

3. В отличие от классической интернет-рекламы, ритейлер может продавать не только показы и клики, но и доказанный прирост продаж.

Uplift — это прирост ключевой метрики, вызванный именно вашим воздействием, а не внешними обстоятельствами. Считается как разница между результатами тестовой и контрольной группы.

Как понять, что данные реально приносят деньги?

И как избежать логической ошибки?

Учить латынь не надо, все проще:

Например, FMCG-производитель шоколада, газировки или чипсов идет к RMN-ритейлеру типа Ozon, X5 Group, Amazon или Walmart, чтобы:

- Рекламировать свои товары в онлайне и офлайне: на сайте ритейлера, в приложении, на электронных ценниках или поисковой выдаче.

- Получает в отчете не только CTR и показы, но и метрику «кампания дала +25% продаж в тестовой группе по сравнению с контрольной».

Прирост считается элементарно:

- В тестовой группе 10 000 человек, 500 купили товар. Конверсия — 5 %.

- В контрольной группе 10 000 человек, 400 купили товар. Конверсия — 4 %.

- Uplift = 5% − 4% = 1 п.п. → прирост продаж на 25% относительно контрольной.

Без контрольной группы вы видите рост продаж, но не знаете, вызван ли он вашей работой с данными или внешними факторами. Uplift-подход показывает ценность данных как продукта на языке денег, а не на уровне красивых графиков.

#деньги #аналитика
👍3👌3❤‍🔥2🔥2
Обходим ФЗ-152 с помощью Data Clean Rooms

Если Retail Media Networks, о которых мы рассказали выше, — это бизнес-модель, то Data Clean Rooms — это технология ее воплощения.

Разбираемся, как объединить данные с партнером, извлечь из этого ценность и не нарушить ФЗ-152 или GDPR и CCPA.

Эту задачу решают Data Clean Rooms (DCR): это среда, в которой несколько сторон могут объединять и анализировать свои наборы данных, не передавая сырые записи. Запросы выполняются внутри «чистой комнаты», а на выходе остаются только агрегированные и анонимизированные результаты.

Как это работает?

Допустим, крупный производитель напитков хочет понять, как его реклама в онлайн-магазине ритейлера повлияла на продажи.

Шаг 1: у бренда есть своя CRM с данными о том, кто видел рекламу (ID пользователей, хэшированные). У ритейлера — транзакции по чекам, тоже с зашифрованными ID.

Шаг 2: обе стороны загружают эти данные в DCR, не раскрывая их друг другу.

Шаг 3: внутри DCR данные временно сопоставляются по совпадающим зашифрованным ключам, чтобы определить, кто из тех, кто видел рекламу, совершил покупку.

Шаг 4: система рассчитывает метрики — например, прирост продаж в тестовой группе по сравнению с контрольной (uplift).

Шаг 5: бренд получает только итоговую статистику: «кампания дала +12% прироста продаж», но не видит личные данные покупателей ритейлера.

Безопасность или деньги?

Люди, отвечающие за безопасность данных, и люди, отвечающие за их монетизацию, смотрят на DCR по-разному:

Безопасность видит в DCR щит — способ минимизировать риски утечки, соответствовать требованиям регуляторов и жестко контролировать доступ.

Монетизация видит в DCR кассу — инструмент для запуска партнерских проектов, объединения аудиторий, создания новых продуктов и каналов дохода.

Как там с ФЗ-152?

В российском контексте ключевое ограничение, которое часто блокирует обмен данными между компаниями, — это ФЗ-152 «О персональных данных».

Закон требует, чтобы:

- Любая передача персональных данных третьей стороне или за пределы РФ происходила только с согласия субъекта.

- Оператор данных мог подтвердить, что такое согласие получено.

- Обработка шла в рамках заявленных целей.

Подводный камень: даже если две компании хотят сотрудничать и у обеих есть согласия пользователей, согласия могут различаться по формулировкам, срокам и целям. Любое несоответствие — риск штрафа или блокировки проекта.

По сути, DCR позволяют компаниям делать совместную аналитику, формально не подпадая под понятие «передача персональных данных» в ФЗ-152. Это снимает необходимость собирать новые согласия, упрощает юридическое оформление и ускоряет запуск коллабораций.

#безопасность
1❤‍🔥4🔥3👍2👏1
Управление метаданными.pdf
1.1 MB
Рэдфлаги в управлении метаданными

Банк России выкатил подробный гайд по наведению порядка в метаданных.

Мастрид, если:

- Данные ищутся дольше, чем анализируются.

- При запросе «Откуда эти данные?» никто не может быстро показать цепочку их происхождения.

- Один и тот же показатель в разных отчетах имеет разное значение или алгоритм расчета.

- Нет единого бизнес-глоссария и каждый трактует термины по-своему.

- Доступы к данным оформляются вручную и долго, а требования регуляторов вызывают панику.

Мастрид, чтобы:

- Ускорить аналитику и перестать терять время на хаотичный поиск данных. Документ покажет, как организовать описательные и структурные метаданные так, чтобы за минуты находить нужный набор, видеть бизнес-определения и понимать, откуда эти данные и как их считать.

- Избавиться от разночтений в показателях. Узнаете, как формализовать расчеты в бизнес-глоссарии, чтобы у всех отчеты считались по одним алгоритмам, а регуляторные формы сходились без ручных сверок.

- Снизить стоимость ошибок. Рекомендации помогают встроить автоматизированный контроль качества метаданных, который ловит дубли, несогласованность и устаревшие значения до того, как они испортят бизнес-процессы.

- Выстроить четкие роли и зоны ответственности. Получите готовую матрицу RACI, чтобы каждый участник процесса понимал свою задачу, и качество метаданных не зависело от пары энтузиастов.

- Сократить путь от идеи до запуска продукта. Поймете, как интеграция метаданных с айти-архитектурой убирает лишние согласования и позволяет быстро вносить изменения без риска сломать связанные процессы.

Поделитесь с коллегами.

#аналитика
1👍4🔥4🥰3
Всем, кто в айти и в эйай. На подумать на выходные.
😁11💯5👍2🔥1🤔1
Под видом инновации нам представили способ экономии ресурсов?

Скандалы, интриги, разоблачения.

Редактор The Register Тобиас Манн пишет, что OpenAI нужно отбивать многомиллиардные раунды, показывая рост, а для этого есть три пути: либо увеличить число пользователей, либо повысить цены, либо сократить расходы.

Ну и что?

После выхода GPT-5 OpenAI убрала возможность выбрать, какая версия отвечает пользователю — обычная или более ресурсоемкая рассуждающая.

После жалоб пользователям вернули ручное переключение моделей, но только по подписке.

Популярно мнение, что в бесплатной версии маршрутизатор направляет большинство запросов глупой версии. Меньше рассуждений — меньше токенов, меньше токенов — меньше счета за электричество.

Манн также отмечает, что в целях экономии OpenAI решила не увеличивать контекстное окно GPT-5. В бесплатной версии это 8000 токенов, а в планах Plus и Pro — 128 тысяч токенов.

Контекст по подписке Claude Pro — 200 тысяч токенов, а контекстное окно Gemini 2.5 — 1 млн токенов.

#ии
👏3😱3🔥2❤‍🔥1
Будущее монетизации данных — это API, а не продажа таблиц

Операторы связи десятилетиями зарабатывали на трафике. Но рынок уперся в потолок: ARPU почти не растет — в Европе он держится на уровне 15€ в месяц без динамики. При этом 5G требует миллиардных вложений, а старые тарифные модели уже не окупают инфраструктуру.

GSMA Open Gateway предлагает новую логику монетизации. Это единый стандарт API, через который бизнес получает доступ не к сырым данным операторов, а к сервисам сети. К инициативе уже присоединились более 45 операторов, охватывающих до 80% абонентов в мире.

Кейсы использования понятны:

- SIM Swap API — банки проверяют, не подменена ли SIM-карта клиента, снижая риск фрода.

- Location API — e-commerce и логистика подтверждают доставку и геопозицию клиента.

- Quality on Demand API — гейминг и VR покупают гарантированное качество сети.

- Scam Signal API — финтех-сервисы в реальном времени определяют, что звонок может быть мошенническим.

Для операторов это новый слой выручки.

Теперь они зарабатывают не только на абонентах, но и на каждом API-вызове. По данным STL Partners, рынок таких сервисов к 2028 году может достичь $22 млрд, что даст операторам до 5-10 % выручки сверху к традиционным тарифам. Это превращает телеком в важнейшую платформу цифровой экономики.

#деньги #исследования
👍42❤‍🔥2🔥2
Если вам уже даже промпты самим писать не хочется

Шутим. Это, конечно, не против лени, а ради более точных ответов от нейросети:

В OpenAI выпустили генератор промптов, который превращает простые запросы в подробные инструкции для ИИ.

Работает просто: пишете, что хотите получить, жмете кнопку, GPT-5 анализирует запрос и возвращает детализированный промпт.

Поможет в работе с любыми нейросетями.

Можно использовать в качестве тренажера.

#ии
👍3👌3❤‍🔥2🙏2🤔1
Кооперативы по владению данными

Мы привыкли, что данные собирают платформы. Тихо, на фоне, и дальше распоряжаются ими по своим правилам. Дата-кооперативы предлагают другую модель.

Это институт коллективного управления данными, где сами участники решают, кому давать доступ и как делить выгоды.

Чем это отличается от других форматов

В data trust решения принимает доверенный управляющий. Clean room позволяет обмениваться данными безопасно, но без участия сообщества в управлении.

Кооператив же оставляет ключевые рычаги у участников: членство, голосование, политика доступа и распределения доходов.

Как это работает

Участник дает согласие и может отозвать его одним кликом. Данные хранятся в безопасном контуре: Pods/PIMS, каталоги, анонимизация, аудит доступа.

В ЕС кооперативы вписываются в рамку Data Governance Act (DGA): закон признает их как посредников данных и задает правила для data altruism.

На чем зарабатывают

Кооперативы строят выручку на подписках на агрегированные инсайты, лицензиях на наборы данных, исследовательских и муниципальных контрактах.

Доход делится между фондом кооператива и участниками по формульным правилам (вклад, качество, свежесть данных).

Где это уже работает

- MIDATA (Швейцария): пациенты управляют доступом к своим медицинским данным.

- POSMO (Цюрих): мобильные данные горожан используются в городских проектах.

- Driver’s Seat (США): данные водителей превращаются в инсайты для городов и самих водителей.

Почему это важно

Для бизнеса это источник качественных наборов с проверенным происхождением и понятными лицензиями. Для ИИ — гарантия чистых данных и снижение рисков. Для граждан — контроль и справедливое участие в прибыли.

Но есть подводные камни

Масштабирование дается тяжело: дорогой набор участников, сложный UX согласий, интероперабельность между платформами и поиск устойчивой экономики. Последние обзоры Project Liberty фиксируют, что модель обещающая, но пока редкая.

Тоже хотите дата-кооператив? Полистайте гайд — там больше подробностей.

#деньги
❤‍🔥2👌2👍11
Вы все еще не любите говорить с чат-ботами банка и сразу зовете оператора?

Да, чат-боты еще далеки от совершенства. Тем временем банки разрабатывают мощных ИИ-агентов для других задач. Они сами планируют шаги, вызывают инструменты по API и доводят работу до результата с отчетностью и контрольными точками.

В Deloitte рассказали, где это уже работает.

Одиночные агенты

1. Валидация платежных инструкций

ИИ-агент читает инструкцию, проверяет формат и реквизиты по SOP, обращается к внутренним справочникам и сервисам по API, помечает исключения, формирует лог и передает редкие кейсы на ручную проверку.

Это умная накладка: процесс остается прежним, агент просто исполняет его как сценарий. Эффект — сокращение времени цикла и ошибок ввода без глубокого трогания легаси.

2. От RPA к динамическому оптимизатору

ИИ-агент анализирует ликвидность вблизи реального времени, предлагает перераспределение остатков, проверяет рисковые лимиты, формирует поручения на переводы в рамках цифрового кошелька и отдает их в исполнение. При первом запуске работает как советник, потом — частичная автономия на малых лимитах.

Мультиагентные пайплайны

1. Покупки от третьего лица

Платежные экосистемы тестируют операции, где агенты покупают и платят от имени пользователя. Для банка это означает: цифровые кошельки для агентов, транзакционные лимиты, отдельные журналы действий и мониторинг в реальном времени, чтобы автономия не превращалась в системный риск.

2. Непрерывный KYC

Агент «А» подтягивает реестры, открытые источники и внутренние профили. Агент «Б» пересчитывает риск-скор, сравнивает с триггерами. Агент «В» готовит артефакты и обновления для регулятора.

Человек только подтверждает пограничные случаи. Выигрыш — снижение доли просроченных обновлений и ручных передач между отделами.

3. AML-расследование

Агент «А» читает алерт, фиксирует нарушенное правило и контекст. Агент «Б» анализирует историю транзакций клиента и связей, ищет нетривиальные паттерны. Агент «В» оформляет выводы и черновик SAR/CTR, проверяет соответствие формату и маршрутизирует на подачу.

Результат — ускорение цикла от алерта до решения и рост полноты расследований.

4. Юридические документы

Мультиагентный разбор контрактов: один агент извлекает ключевые положения, второй проверяет соответствие политике, третий готовит резюме рисков и рекомендации. На ряде задач достигается точность, сопоставимая с работой эксперта, при этом юрист выполняет только роль супервайзера.

Важно

ИИ-агенты — это исполнители, а агентный ИИ — система и правила игры. Просто пересадить на позиции людей роботов не получится — нужно не прикручивать ИИ к старому процессу, а перепридумывать сам процесс под агентный режим с архитектурой, данными и комплаенсом, вшитым с первого дня.

#ии
👍2🔥2❤‍🔥11