Progres Post
301 subscribers
39 photos
1 video
17 files
196 links
Как собирать, анализировать и зарабатывать на данных.

Присылайте новости: @progrespost_bot

Редактор: @honeybalism
Download Telegram
ChatGPT-5 хайпится, штрафы начисляются

Бухгалтеру ставят задачу: срочно сделать сводную таблицу по всем сотрудникам — ФИО, даты рождения, паспортные данные, суммы выплат. Сроки горят, а таблицу нужно оформить красиво.

Он срезает путь: открывает ChatGPT, копирует туда весь список и пишет «Сделай из этого аккуратную таблицу для отчета». Через минуту готов результат, бухгалтер отправляет его начальству — задача выполнена.

Но вместе с этим персональные данные сотен сотрудников уже оказались на зарубежных серверах. Для Роскомнадзора это выглядит как передача и утечка данных за границу без согласия и без уведомлений.

Итог — реальная перспектива штрафа в миллионы рублей, даже если все это утекло куда не надо просто ради удобства.

LLG Guard от Protect AI — пример решения, которое защищает компанию от сотрудников, недальновидно скармливающих персональные данные нейросетям.

Система фильтрует вредоносные запросы, предотвращает утечки и одновременно противостоит инъекциям в промпты. Есть функция проверки как запросов, так и ответов.

Подходит для интеграции в продакшн-среды.

Пробуйте и забирайте. И коллегам расскажите.

#ии #безопасноть
👍53🔥22
Почему вайб-кодинг хайпится, а вайб-аналитика — нет

Забудьте про BI-дашборды и автоматические отчеты — это уже не поражает.

Настоящий вызов и мечта рынка — вайб-аналитика: система, которая сама собирает данные, превращает их в графики и формулирует выводы.

Она могла бы сделать с работой аналитика то же, что Copilot сделал с кодингом.

Стартапы обещают нам такую вайб-аналитику в одно нажатие, но хайпа, как вокруг вайб-кодинга, нет.

И дело не в точности аналитики из машины, а в фундаментальных барьерах, о которых редко говорят.

Доверяй, но проверяй

Вайб-кодинг взлетел, потому что результат можно проверить. Код запускают, гоняют тестами, ищут баги — и быстро понимают, работает ли он. Если даже он написан на вайбе, его качество в итоге подтверждается практикой.

В аналитике все иначе. Чтобы проверить вывод ИИ, нужно воспроизвести всю цепочку: собрать исходные данные, повторить расчеты, перепроверить формулы. Это умножает на ноль смысл автоматизации и возвращает нас к ручной работе.

Результат неотделим от процесса

В кодинге результат можно отделить от процесса — важен работающий продукт. В аналитике методика, источники и шаги расчета — часть самого результата.

Черный ящик здесь не магия, а риск, способный превратить красивую визуализацию в опасную иллюзию.

Проклятие уверенности

ИИ может безошибочно по форме и с полной уверенностью выдать абсолютно неверное содержание. Баг в коде можно исправить, а последствия решений, принятых на основе ошибочной аналитики, откатить сложнее.

Психология доверия

Код можно тестировать в песочнице, аналитику — только в реальном бизнесе, с реальными потерями. Даже идеально выглядящий график вызывает меньше доверия, чем код, который можно прогнать через тесты.

Прорыв случится, когда появятся дешевые и надежные способы верификации аналитики. Тогда вайб-аналитика станет таким же модным и массовым инструментом, как и вайб-кодинг.

#аналитика
1👨‍💻3❤‍🔥2👍2🔥2
Лучше давайте-ка по закону

В 2024 году глобальный рынок лицензирования ИИ-датасетов оценивался в $2,7 млрд, а к 2030 году прогнозируется рост до $11 млрд при темпах более 20% в год.

В сегменте академических датасетов рост с $381 млн в 2024 до $1,6 млрд к 2030. Стартапы, строящие платформы для авторов и правообладателей, уже привлекли свыше $200 млн инвестиций.

И пока кто-то судится, кто-то уже вовсю зарабатывает.

Кто с кем судится?

В 2023 году Getty Images подала в суд на разработчика Stable Diffusion и требует $1,7 млрд компенсаций.

Кажется, производители контента судятся со всеми разработчиками ИИ-моделей, с которыми, видимо, не смогли договориться:

Reddit судится с Anthropic за массивный скрейпинг комментариев. Disney и Universal подали в суд на Midjourney из-за Шрека и Человека-паука.

Издательство Ziff Davis обвиняет Open AI в системном игнорировании robots.txt, а в Indian News Agency недовольны, что юзеры ChatGPT создают вымышленные интервью под брендом агентства.

Кто и сколько зарабатывает на лицензиях?

В 2023 году Shutterstock заработал на лицензировании данных для обучения ИИ-моделей $104 млн. Еще до того, как это стало мейнстримом.

В 2024 году News Corp, владеющая Wall Street Journal, заключила пятилетнюю сделку по лицензированию своего контента с Open AI на $250 млн.

В 2025 году Reddit заработал на лицензировании данных $35 млн только за второй квартал. Это на 24% больше, чем годом ранее.

По сети гуляют графики, показывающие, как ChatGPT и прочие модели обвалили трафик Stack Overflow.

Может показаться, что сервис умирает, но нет:

Stack Overflow заключил соглашение с Google — их вопросы и ответы используются в Gemini с указанием логотипа, ссылки и имени автора. Сумма сделки не разглашается, но в Wired говорят, что она стала значимым источником дохода для компании.

#ии #деньги
👍3🔥32❤‍🔥1
Post hoc ergo propter hoc

Еще несколько лет назад бренды без труда находили нужного покупателя в интернете: third-party кукисы позволяли рекламным системам собирать его поведенческий след по всей сети и показывать таргетированные объявления.

Сегодня эта эпоха заканчивается: Safari и Firefox уже заблокировали такие кукисы, Chrome начал тестовое отключение у части пользователей в 2025 и движется к полному отказу.

Вместе с этим рушится привычный механизм точного таргетинга: бренды теряют возможность догонять клиента за пределами своих площадок. На смену приходит новая валюта рекламного рынка — first-party данные.

Это информация, которую компания получает напрямую от клиента: история покупок, поисковые запросы, поведение в приложении, участие в программе лояльности.

Ритейлеры поняли, что сидят на золотой жиле, и начали превращать эти данные в бизнес через RMN (Retail Media Networks) — собственные рекламные экосистемы.

Как это устроено?

Для брендов это инструмент выживания в мире без кукисов. Для ритейлеров — высокомаржинальный источник дохода, который уже приносит миллиарды долларов в год крупнейшим игрокам вроде Amazon, Walmart и X5 Group.

1. Данные о покупателях объединяются в сегменты. Например, «семьи с маленькими детьми» или «те, кто покупает кофе и сладости раз в неделю».

2. Бренды платят за рекламу, адресованную этим сегментам, прямо в экосистеме ритейлера и в интегрированных внешних каналах.

3. В отличие от классической интернет-рекламы, ритейлер может продавать не только показы и клики, но и доказанный прирост продаж.

Uplift — это прирост ключевой метрики, вызванный именно вашим воздействием, а не внешними обстоятельствами. Считается как разница между результатами тестовой и контрольной группы.

Как понять, что данные реально приносят деньги?

И как избежать логической ошибки?

Учить латынь не надо, все проще:

Например, FMCG-производитель шоколада, газировки или чипсов идет к RMN-ритейлеру типа Ozon, X5 Group, Amazon или Walmart, чтобы:

- Рекламировать свои товары в онлайне и офлайне: на сайте ритейлера, в приложении, на электронных ценниках или поисковой выдаче.

- Получает в отчете не только CTR и показы, но и метрику «кампания дала +25% продаж в тестовой группе по сравнению с контрольной».

Прирост считается элементарно:

- В тестовой группе 10 000 человек, 500 купили товар. Конверсия — 5 %.

- В контрольной группе 10 000 человек, 400 купили товар. Конверсия — 4 %.

- Uplift = 5% − 4% = 1 п.п. → прирост продаж на 25% относительно контрольной.

Без контрольной группы вы видите рост продаж, но не знаете, вызван ли он вашей работой с данными или внешними факторами. Uplift-подход показывает ценность данных как продукта на языке денег, а не на уровне красивых графиков.

#деньги #аналитика
👍3👌3❤‍🔥2🔥2
Обходим ФЗ-152 с помощью Data Clean Rooms

Если Retail Media Networks, о которых мы рассказали выше, — это бизнес-модель, то Data Clean Rooms — это технология ее воплощения.

Разбираемся, как объединить данные с партнером, извлечь из этого ценность и не нарушить ФЗ-152 или GDPR и CCPA.

Эту задачу решают Data Clean Rooms (DCR): это среда, в которой несколько сторон могут объединять и анализировать свои наборы данных, не передавая сырые записи. Запросы выполняются внутри «чистой комнаты», а на выходе остаются только агрегированные и анонимизированные результаты.

Как это работает?

Допустим, крупный производитель напитков хочет понять, как его реклама в онлайн-магазине ритейлера повлияла на продажи.

Шаг 1: у бренда есть своя CRM с данными о том, кто видел рекламу (ID пользователей, хэшированные). У ритейлера — транзакции по чекам, тоже с зашифрованными ID.

Шаг 2: обе стороны загружают эти данные в DCR, не раскрывая их друг другу.

Шаг 3: внутри DCR данные временно сопоставляются по совпадающим зашифрованным ключам, чтобы определить, кто из тех, кто видел рекламу, совершил покупку.

Шаг 4: система рассчитывает метрики — например, прирост продаж в тестовой группе по сравнению с контрольной (uplift).

Шаг 5: бренд получает только итоговую статистику: «кампания дала +12% прироста продаж», но не видит личные данные покупателей ритейлера.

Безопасность или деньги?

Люди, отвечающие за безопасность данных, и люди, отвечающие за их монетизацию, смотрят на DCR по-разному:

Безопасность видит в DCR щит — способ минимизировать риски утечки, соответствовать требованиям регуляторов и жестко контролировать доступ.

Монетизация видит в DCR кассу — инструмент для запуска партнерских проектов, объединения аудиторий, создания новых продуктов и каналов дохода.

Как там с ФЗ-152?

В российском контексте ключевое ограничение, которое часто блокирует обмен данными между компаниями, — это ФЗ-152 «О персональных данных».

Закон требует, чтобы:

- Любая передача персональных данных третьей стороне или за пределы РФ происходила только с согласия субъекта.

- Оператор данных мог подтвердить, что такое согласие получено.

- Обработка шла в рамках заявленных целей.

Подводный камень: даже если две компании хотят сотрудничать и у обеих есть согласия пользователей, согласия могут различаться по формулировкам, срокам и целям. Любое несоответствие — риск штрафа или блокировки проекта.

По сути, DCR позволяют компаниям делать совместную аналитику, формально не подпадая под понятие «передача персональных данных» в ФЗ-152. Это снимает необходимость собирать новые согласия, упрощает юридическое оформление и ускоряет запуск коллабораций.

#безопасность
1❤‍🔥4🔥3👍2👏1
Управление метаданными.pdf
1.1 MB
Рэдфлаги в управлении метаданными

Банк России выкатил подробный гайд по наведению порядка в метаданных.

Мастрид, если:

- Данные ищутся дольше, чем анализируются.

- При запросе «Откуда эти данные?» никто не может быстро показать цепочку их происхождения.

- Один и тот же показатель в разных отчетах имеет разное значение или алгоритм расчета.

- Нет единого бизнес-глоссария и каждый трактует термины по-своему.

- Доступы к данным оформляются вручную и долго, а требования регуляторов вызывают панику.

Мастрид, чтобы:

- Ускорить аналитику и перестать терять время на хаотичный поиск данных. Документ покажет, как организовать описательные и структурные метаданные так, чтобы за минуты находить нужный набор, видеть бизнес-определения и понимать, откуда эти данные и как их считать.

- Избавиться от разночтений в показателях. Узнаете, как формализовать расчеты в бизнес-глоссарии, чтобы у всех отчеты считались по одним алгоритмам, а регуляторные формы сходились без ручных сверок.

- Снизить стоимость ошибок. Рекомендации помогают встроить автоматизированный контроль качества метаданных, который ловит дубли, несогласованность и устаревшие значения до того, как они испортят бизнес-процессы.

- Выстроить четкие роли и зоны ответственности. Получите готовую матрицу RACI, чтобы каждый участник процесса понимал свою задачу, и качество метаданных не зависело от пары энтузиастов.

- Сократить путь от идеи до запуска продукта. Поймете, как интеграция метаданных с айти-архитектурой убирает лишние согласования и позволяет быстро вносить изменения без риска сломать связанные процессы.

Поделитесь с коллегами.

#аналитика
1👍4🔥4🥰3
Всем, кто в айти и в эйай. На подумать на выходные.
😁11💯5👍2🔥1🤔1
Под видом инновации нам представили способ экономии ресурсов?

Скандалы, интриги, разоблачения.

Редактор The Register Тобиас Манн пишет, что OpenAI нужно отбивать многомиллиардные раунды, показывая рост, а для этого есть три пути: либо увеличить число пользователей, либо повысить цены, либо сократить расходы.

Ну и что?

После выхода GPT-5 OpenAI убрала возможность выбрать, какая версия отвечает пользователю — обычная или более ресурсоемкая рассуждающая.

После жалоб пользователям вернули ручное переключение моделей, но только по подписке.

Популярно мнение, что в бесплатной версии маршрутизатор направляет большинство запросов глупой версии. Меньше рассуждений — меньше токенов, меньше токенов — меньше счета за электричество.

Манн также отмечает, что в целях экономии OpenAI решила не увеличивать контекстное окно GPT-5. В бесплатной версии это 8000 токенов, а в планах Plus и Pro — 128 тысяч токенов.

Контекст по подписке Claude Pro — 200 тысяч токенов, а контекстное окно Gemini 2.5 — 1 млн токенов.

#ии
👏3😱3🔥2❤‍🔥1
Будущее монетизации данных — это API, а не продажа таблиц

Операторы связи десятилетиями зарабатывали на трафике. Но рынок уперся в потолок: ARPU почти не растет — в Европе он держится на уровне 15€ в месяц без динамики. При этом 5G требует миллиардных вложений, а старые тарифные модели уже не окупают инфраструктуру.

GSMA Open Gateway предлагает новую логику монетизации. Это единый стандарт API, через который бизнес получает доступ не к сырым данным операторов, а к сервисам сети. К инициативе уже присоединились более 45 операторов, охватывающих до 80% абонентов в мире.

Кейсы использования понятны:

- SIM Swap API — банки проверяют, не подменена ли SIM-карта клиента, снижая риск фрода.

- Location API — e-commerce и логистика подтверждают доставку и геопозицию клиента.

- Quality on Demand API — гейминг и VR покупают гарантированное качество сети.

- Scam Signal API — финтех-сервисы в реальном времени определяют, что звонок может быть мошенническим.

Для операторов это новый слой выручки.

Теперь они зарабатывают не только на абонентах, но и на каждом API-вызове. По данным STL Partners, рынок таких сервисов к 2028 году может достичь $22 млрд, что даст операторам до 5-10 % выручки сверху к традиционным тарифам. Это превращает телеком в важнейшую платформу цифровой экономики.

#деньги #исследования
👍42❤‍🔥2🔥2
Если вам уже даже промпты самим писать не хочется

Шутим. Это, конечно, не против лени, а ради более точных ответов от нейросети:

В OpenAI выпустили генератор промптов, который превращает простые запросы в подробные инструкции для ИИ.

Работает просто: пишете, что хотите получить, жмете кнопку, GPT-5 анализирует запрос и возвращает детализированный промпт.

Поможет в работе с любыми нейросетями.

Можно использовать в качестве тренажера.

#ии
👍3👌3❤‍🔥2🙏2🤔1
Кооперативы по владению данными

Мы привыкли, что данные собирают платформы. Тихо, на фоне, и дальше распоряжаются ими по своим правилам. Дата-кооперативы предлагают другую модель.

Это институт коллективного управления данными, где сами участники решают, кому давать доступ и как делить выгоды.

Чем это отличается от других форматов

В data trust решения принимает доверенный управляющий. Clean room позволяет обмениваться данными безопасно, но без участия сообщества в управлении.

Кооператив же оставляет ключевые рычаги у участников: членство, голосование, политика доступа и распределения доходов.

Как это работает

Участник дает согласие и может отозвать его одним кликом. Данные хранятся в безопасном контуре: Pods/PIMS, каталоги, анонимизация, аудит доступа.

В ЕС кооперативы вписываются в рамку Data Governance Act (DGA): закон признает их как посредников данных и задает правила для data altruism.

На чем зарабатывают

Кооперативы строят выручку на подписках на агрегированные инсайты, лицензиях на наборы данных, исследовательских и муниципальных контрактах.

Доход делится между фондом кооператива и участниками по формульным правилам (вклад, качество, свежесть данных).

Где это уже работает

- MIDATA (Швейцария): пациенты управляют доступом к своим медицинским данным.

- POSMO (Цюрих): мобильные данные горожан используются в городских проектах.

- Driver’s Seat (США): данные водителей превращаются в инсайты для городов и самих водителей.

Почему это важно

Для бизнеса это источник качественных наборов с проверенным происхождением и понятными лицензиями. Для ИИ — гарантия чистых данных и снижение рисков. Для граждан — контроль и справедливое участие в прибыли.

Но есть подводные камни

Масштабирование дается тяжело: дорогой набор участников, сложный UX согласий, интероперабельность между платформами и поиск устойчивой экономики. Последние обзоры Project Liberty фиксируют, что модель обещающая, но пока редкая.

Тоже хотите дата-кооператив? Полистайте гайд — там больше подробностей.

#деньги
👌3❤‍🔥2👍22
Вы все еще не любите говорить с чат-ботами банка и сразу зовете оператора?

Да, чат-боты еще далеки от совершенства. Тем временем банки разрабатывают мощных ИИ-агентов для других задач. Они сами планируют шаги, вызывают инструменты по API и доводят работу до результата с отчетностью и контрольными точками.

В Deloitte рассказали, где это уже работает.

Одиночные агенты

1. Валидация платежных инструкций

ИИ-агент читает инструкцию, проверяет формат и реквизиты по SOP, обращается к внутренним справочникам и сервисам по API, помечает исключения, формирует лог и передает редкие кейсы на ручную проверку.

Это умная накладка: процесс остается прежним, агент просто исполняет его как сценарий. Эффект — сокращение времени цикла и ошибок ввода без глубокого трогания легаси.

2. От RPA к динамическому оптимизатору

ИИ-агент анализирует ликвидность вблизи реального времени, предлагает перераспределение остатков, проверяет рисковые лимиты, формирует поручения на переводы в рамках цифрового кошелька и отдает их в исполнение. При первом запуске работает как советник, потом — частичная автономия на малых лимитах.

Мультиагентные пайплайны

1. Покупки от третьего лица

Платежные экосистемы тестируют операции, где агенты покупают и платят от имени пользователя. Для банка это означает: цифровые кошельки для агентов, транзакционные лимиты, отдельные журналы действий и мониторинг в реальном времени, чтобы автономия не превращалась в системный риск.

2. Непрерывный KYC

Агент «А» подтягивает реестры, открытые источники и внутренние профили. Агент «Б» пересчитывает риск-скор, сравнивает с триггерами. Агент «В» готовит артефакты и обновления для регулятора.

Человек только подтверждает пограничные случаи. Выигрыш — снижение доли просроченных обновлений и ручных передач между отделами.

3. AML-расследование

Агент «А» читает алерт, фиксирует нарушенное правило и контекст. Агент «Б» анализирует историю транзакций клиента и связей, ищет нетривиальные паттерны. Агент «В» оформляет выводы и черновик SAR/CTR, проверяет соответствие формату и маршрутизирует на подачу.

Результат — ускорение цикла от алерта до решения и рост полноты расследований.

4. Юридические документы

Мультиагентный разбор контрактов: один агент извлекает ключевые положения, второй проверяет соответствие политике, третий готовит резюме рисков и рекомендации. На ряде задач достигается точность, сопоставимая с работой эксперта, при этом юрист выполняет только роль супервайзера.

Важно

ИИ-агенты — это исполнители, а агентный ИИ — система и правила игры. Просто пересадить на позиции людей роботов не получится — нужно не прикручивать ИИ к старому процессу, а перепридумывать сам процесс под агентный режим с архитектурой, данными и комплаенсом, вшитым с первого дня.

#ии
🔥4❤‍🔥22👍2
Куда еще больше?

Кажется, нам уже нужна отдельная рубрика под посты на тему «Как корабль назовешь — так он и поплывет». Мы уже писали, почему нужно переименовать CDO в CDMO, и почему надо нанимать Data Product Owner вместо Data Owner.

Сегодня про то, что пора бы переходить от Big Data к Huge Data. Вдохновились статьей на Форбсе, в которой в основном про то, как в МТС делают рекламу с помощью данных, а вот про Huge Data там упоминают только скользь.

Нам показалось важным покопаться и в термине, и в том, что он описывает.

В какой момент Big Data превращается в Huge Data

Big Data — это максимум из своих данных. Например, вы — ритейлер. Продажи, остатки, клики, чеки — все это внутри вашего контура. Ограничение понятно: модели не видят погоду, потоки людей и задержки у поставщиков.

В такой ситуации нет смысла делать ваши большие данные еще больше.

Тогда вы ищете партнеров, которые вам помогут. И начинаете совместно пользовать Data Clean Room. Это закрытая вычислительная среда у партнера или у нейтрального провайдера.

Вы загружаете туда код и настройки. Сырые таблицы партнера не копируются к вам. Комната считает нужные метрики и признаки и возвращает только согласованный результат.

И в этот момент Big Data превращается в Huge Data.

Вы не тащите чужие данные к себе. У вас не становится больше данных. Вы отправляете вычисления туда, где лежат данные. Правила зашиты заранее: что считать, на каком уровне агрегировать, что можно вынести наружу. Все действия пишутся в аудит.

Как это устроено

Поставщик не выгружает вам историю поставок. Он запускает ваш расчет в Data Clean Room. На выходе вы получаете вероятности задержки по всем товарам на следующую неделю.

Погодный сервис не передает никакие логи. Он все считает у себя и возвращает по районам и неделям простые признаки: «аномальная жара», «аномальный холод», «сильные осадки».

Оператор посещаемости не делится треками и чеками. Он отдает только сводный индекс потока людей по кварталам города.

Затем все это склеивается и ваша Big Data обогащается. Большие данные не становятся больше, но становятся полезнее.

Теперь раз в сутки система подтягивает признаки из всех Data Clean Rooms, модель обновляет прогноз по каждой точке и неделе и заранее меняет заказы: при высоком риске задержки + жаре + росте потока активнее запасает воду и мороженое, при ливнях и падении потока урезает товары для пикника.

Закрепляем

В Big Data вы растите свое озеро. В Huge Data вы соединяете внешние и внутренние сигналы через Data Clean Rooms. Вы забираете не чужие данные, а инсайты. Вместо того, чтобы собирать еще какие-то данные, вы ищете еще каких-то партнеров, которые обогатят ваши наборы.

#статьи
1👍22❤‍🔥1🔥1
Чек-листы: как доказать Роскомнадзору, что вы не виноваты в утечке персональных данных

На Ютубе вышла беседа адвоката Калоя Ахильгова и управляющего партнера комплаенс-бутика Артема Дмитриева.

Посмотрите, если интересно:

⁃ Что такое прайваси-виктимность?

⁃ Когда бизнесу можно и нужно собирать персональные данные без согласия?

⁃ Когда номер телефона не является персональными данными?

⁃ Что такое живое право Роскомнадзора?

⁃ Писать ли в Роскомнадзор, если хакеры угрожают слить украденные данные?

Если некогда смотреть, просто забирайте чек-листы:

Как доказать, что вы старались предотвратить утечку

Как доказать, что вы старались минимизировать последствия

Изучите сами и с безопасниками поделитесь.

#безопасность
👍2🙏21🔥1