Что посмотреть на выходных, кроме «Чужого» и «Уэнсдей»
В Майкрософт выложили на Ютуб все выступления с MCP Dev Days. Всего 16 видео по 20-40 минут.
В первый день показывали, как MCP уже встраивают в VS Code/Visual Studio и комьюнити-тулзы, с кейсами от Anthropic, Okta и Neon.
Во второй были практики для билдеров: как писать MCP-серверы и агентные сценарии, prompt-driven development, безопасность, реестр/инструменты и интеграции на Azure.
Самое полезное — много приложимых демо и гайдов, которые можно повторить. Все записи собраны в одном плейлисте.
Обязательно к просмотру для инженеров и руководителей.
Отправляйте тем, кто ждет нового «Ведьмака».
#ии
В Майкрософт выложили на Ютуб все выступления с MCP Dev Days. Всего 16 видео по 20-40 минут.
В первый день показывали, как MCP уже встраивают в VS Code/Visual Studio и комьюнити-тулзы, с кейсами от Anthropic, Okta и Neon.
Во второй были практики для билдеров: как писать MCP-серверы и агентные сценарии, prompt-driven development, безопасность, реестр/инструменты и интеграции на Azure.
Самое полезное — много приложимых демо и гайдов, которые можно повторить. Все записи собраны в одном плейлисте.
Обязательно к просмотру для инженеров и руководителей.
Отправляйте тем, кто ждет нового «Ведьмака».
#ии
1🔥5😁4👌3👍2
Подборка гайдлайнов по управлению качеством данных
На https://www.dataqualityguides.com собраны руководства по управлению качеством данных для инженеров, разработчиков, тестировщиков и продактов. Более 100 штук. От топовых компаний. С примерами и кейсами.
Забирайте, раздавайте.
На https://www.dataqualityguides.com собраны руководства по управлению качеством данных для инженеров, разработчиков, тестировщиков и продактов. Более 100 штук. От топовых компаний. С примерами и кейсами.
Забирайте, раздавайте.
👍4🙏3❤2❤🔥1
Пока выходные, отдыхайте хотя бы за десятерых
Потому что на 1 спеца по данным приходится почти 12 обычных бизнес-пользователей.
Александр Бараков провел ресерч структур дата-команд, пересказываем результаты и выводы:
Общая выборка (64 компании, июнь 2025):
⁃ 1 дата-роль → 11,7 бизнес-пользователя (casual users)
⁃ 1 BI/DA → 25,0 casual users
⁃ 1 DE → 1,9 BI/DA
Айти и еком (подвыборка):
⁃ 1 дата-роль → 8.3 casual users
⁃ 1 BI/DA → 15.0 casual users
В среднем на одного дата-специалиста приходится ~12 бизнес-юзеров, а на одного BI/DA — уже 25, то есть именно BI-звено тянет наибольшую фронтовую нагрузку.
В айти и екоме плотность дата-ролей выше (меньше бизнес-юзеров на дата-специалиста), значит там команды расширяют аналитику раньше и чаще.
При росте масштаба без Core BI/CoE и понятного разделения ответственности (BI ↔ DE) быстро упираешься в стандарты, качество и обучение — их стоит закладывать заранее.
#аналитика #исследования
Потому что на 1 спеца по данным приходится почти 12 обычных бизнес-пользователей.
Александр Бараков провел ресерч структур дата-команд, пересказываем результаты и выводы:
Общая выборка (64 компании, июнь 2025):
⁃ 1 дата-роль → 11,7 бизнес-пользователя (casual users)
⁃ 1 BI/DA → 25,0 casual users
⁃ 1 DE → 1,9 BI/DA
Айти и еком (подвыборка):
⁃ 1 дата-роль → 8.3 casual users
⁃ 1 BI/DA → 15.0 casual users
В среднем на одного дата-специалиста приходится ~12 бизнес-юзеров, а на одного BI/DA — уже 25, то есть именно BI-звено тянет наибольшую фронтовую нагрузку.
В айти и екоме плотность дата-ролей выше (меньше бизнес-юзеров на дата-специалиста), значит там команды расширяют аналитику раньше и чаще.
При росте масштаба без Core BI/CoE и понятного разделения ответственности (BI ↔ DE) быстро упираешься в стандарты, качество и обучение — их стоит закладывать заранее.
#аналитика #исследования
1👍3😍3❤🔥2🐳2
Сэм Альтман признает, что на рынке ИИ надулся пузырь
В интервью The Verge от 15 августа Сэм Альтман наговорил много всякого, вот самое интересное:
Еще Сэм Альтман согласился, что OpenAI реально облажалась c некоторыми нюансами при запуске GPT-5, но при этом он уверен, что многим действительно понравился переключатель моделей.
Рынок отреагировал
После интервью, 19 августа в Financial Times вышла паническая статья, в которой авторы рисуют мрачные перспективы ИИ-рынка.
Индексы действительно просели, покраснели Nvidia и AMD, но затем большинство бумаг отыграли просадку.
Скепсис подогрел не только Альтман. Его прибавилось после того, как в MIT заявили, что в 95% случаев внедрение генеративного ИИ не дает результата.
Однако инвесторов не пугает ни это, ни нехватка мощностей. Эйфория пока не уступает место настороженности. Проверка пройдена.
Кстати, о мощностях
Еще Сэм Альтман сказал, что в недалеком будущем OpenAI потратит триллионы долларов на строительство дата-центров, потому что масштабироваться компании мешает только отсутствие нужных вычислительных мощностей.
В этой связи интересно мнение Ноя Смита:
Наращивание мощностей под ИИ стало макрофактором, вложения доходят до 1,2% ВВП и уже сопоставимы с телеком-бумом 2000 года. Риск смещается в долг — за полугодие заимствования инвесткласса у техкомпаний выросли на 70% год к году.
Финлизинги Майкрософта под дата-центры утроились. Рынок бумаг, обеспеченных долгом под дата-центры, дорос примерно до $50 млрд.
Если выручка от ИИ будет расти медленнее вложений, крупные компании одновременно притормозят стройки дата-центров — заемщики под эти проекты начнут сбоить по платежам.
В частном кредите такие сбои часто совпадают, а банки и страховщики связаны с этим сегментом. Доля их кредитов фондам выросла с 1% до 14%. Поэтому потери вынудят их сократить выдачу новых займов и сузят кредитование экономики.
Ну и дополнительный ограничитель — перегруженные энергосети.
#ии #деньги #исследования #статьи
В интервью The Verge от 15 августа Сэм Альтман наговорил много всякого, вот самое интересное:
Находимся ли мы сейчас на этапе, когда инвесторы в целом переоценивают ИИ? Мне кажется, да. Можно ли считать появление ИИ важнейшим событием за очень долгое время? Думаю, тоже да.
Кто‑то потеряет феноменальные суммы. Но многие, мы не знаем кто, заработают. Я лично считаю, хотя могу ошибаться, что в целом это будет огромный плюс для экономики.
Сейчас нам приходится идти на ужасные компромиссы. У нас есть более продвинутые ИИ-модели, но мы не можем их представить пользователям, потому что у нас не хватает мощностей.
Еще Сэм Альтман согласился, что OpenAI реально облажалась c некоторыми нюансами при запуске GPT-5, но при этом он уверен, что многим действительно понравился переключатель моделей.
Рынок отреагировал
После интервью, 19 августа в Financial Times вышла паническая статья, в которой авторы рисуют мрачные перспективы ИИ-рынка.
Индексы действительно просели, покраснели Nvidia и AMD, но затем большинство бумаг отыграли просадку.
Скепсис подогрел не только Альтман. Его прибавилось после того, как в MIT заявили, что в 95% случаев внедрение генеративного ИИ не дает результата.
Однако инвесторов не пугает ни это, ни нехватка мощностей. Эйфория пока не уступает место настороженности. Проверка пройдена.
Кстати, о мощностях
Еще Сэм Альтман сказал, что в недалеком будущем OpenAI потратит триллионы долларов на строительство дата-центров, потому что масштабироваться компании мешает только отсутствие нужных вычислительных мощностей.
В этой связи интересно мнение Ноя Смита:
Наращивание мощностей под ИИ стало макрофактором, вложения доходят до 1,2% ВВП и уже сопоставимы с телеком-бумом 2000 года. Риск смещается в долг — за полугодие заимствования инвесткласса у техкомпаний выросли на 70% год к году.
Финлизинги Майкрософта под дата-центры утроились. Рынок бумаг, обеспеченных долгом под дата-центры, дорос примерно до $50 млрд.
Если выручка от ИИ будет расти медленнее вложений, крупные компании одновременно притормозят стройки дата-центров — заемщики под эти проекты начнут сбоить по платежам.
В частном кредите такие сбои часто совпадают, а банки и страховщики связаны с этим сегментом. Доля их кредитов фондам выросла с 1% до 14%. Поэтому потери вынудят их сократить выдачу новых займов и сузят кредитование экономики.
Ну и дополнительный ограничитель — перегруженные энергосети.
#ии #деньги #исследования #статьи
👍6❤🔥2🔥2👏2
Сколько стоит ваша медицинская карта
Цифровизация медкарт превратила их из инструмента лечения одного пациента в актив, который агрегируют, анализируют и продают.
Кто покупает медицинские карты и зачем
⁃ Фарма: рекрутинг в исследования и тесты эффективности в реальной практике.
⁃ Страховщики: стратификация рисков и управление затратами.
⁃ ИИ-стартапы: обучение и валидация моделей.
⁃ Органы здравоохранения: мониторинг и эпиднадзор.
Сколько стоят такие данные
⁃ Первичка (EHR из поликлиники): $0,50 за пациента.
⁃ Медицинские изображения (МРТ/КТ/рентген): $30 за запись.
⁃ Онкология (клинические записи): $950-2000 за пациента.
⁃ Геномика (сырые или обработанные геномные данные): $1700-5000.
⁃ Геномика + фенотип (связка с EHR/лабораторией/исходами): от $6000.
Обычно это не цена за файл, а LTV записи. Это агрегированная выручка за годы и многократные продажи разным покупателям, а не разовая сделка.
Еще в медицине крайне ценится редкость: чем реже фенотип или событие, тем выше у покупателей готовность платить.
Если покопаться в отчетах Tempus, видно, как падает цена одной записи из-за роста предложения на рынке: с $502 в 2019 году до $128 в 2023.
Иногда неприемлемо даже законно собирать данные
В 2019 году Google и Ascension передавали миллионы записей пациентов в рамках обычного для HIPAA соглашения «для операций здравоохранения». Формально — в правовом поле, но без явного уведомления пациентов.
Скандал, запрос регуляторов и волна критики показали: масштаб и непрозрачность убивают доверие, даже если буква закона соблюдена. Разрешено — не значит приемлемо.
Утечки — главная уязвимость данных как актива
В 2023 году хакеры взломали 23andMe, которая занималась генетическими тестами, и выскребли данные почти 7 млн пользователей.
Расследование, штрафы, предписания по усилению безопасности, юридические издержки и потеря доверия. Пользователи пересмотрели согласия, партнеры стали осторожнее с доступом к данным — это бьет по размеру и целостности когорт, усложняя лицензирование наборов и сделки.
При выходе на биржу в 2021 году 23andMe оценивали примерно в $3,5 млрд. Вскоре капитализация достигла почти $6 млрд. Однако к моменту банкротства в 2025 году активы компании подешевели примерно до $277 млн. И все из-за одной утечки.
Вывод
Цена данных как актива держится на трех столпах:
1. Объем и согласия
2. Репутация и доверие
3. Регуляторный периметр
Утечка одновременно бьет по всем трем: пользователи массово отзывают согласия и удаляют данные; партнеры и регуляторы повышают требования; стоимость риска растет — дисконт к оценке актива увеличивается.
Поэтому если вы уже доросли до момента, когда ваши данные стали активом, вам нужно и защищать их как актив. Учитывая не только рекомендации безопасников, но и саму суть того, чем вы владеете.
#деньги #статьи
Цифровизация медкарт превратила их из инструмента лечения одного пациента в актив, который агрегируют, анализируют и продают.
Кто покупает медицинские карты и зачем
⁃ Фарма: рекрутинг в исследования и тесты эффективности в реальной практике.
⁃ Страховщики: стратификация рисков и управление затратами.
⁃ ИИ-стартапы: обучение и валидация моделей.
⁃ Органы здравоохранения: мониторинг и эпиднадзор.
Сколько стоят такие данные
⁃ Первичка (EHR из поликлиники): $0,50 за пациента.
⁃ Медицинские изображения (МРТ/КТ/рентген): $30 за запись.
⁃ Онкология (клинические записи): $950-2000 за пациента.
⁃ Геномика (сырые или обработанные геномные данные): $1700-5000.
⁃ Геномика + фенотип (связка с EHR/лабораторией/исходами): от $6000.
Обычно это не цена за файл, а LTV записи. Это агрегированная выручка за годы и многократные продажи разным покупателям, а не разовая сделка.
Еще в медицине крайне ценится редкость: чем реже фенотип или событие, тем выше у покупателей готовность платить.
Если покопаться в отчетах Tempus, видно, как падает цена одной записи из-за роста предложения на рынке: с $502 в 2019 году до $128 в 2023.
Иногда неприемлемо даже законно собирать данные
В 2019 году Google и Ascension передавали миллионы записей пациентов в рамках обычного для HIPAA соглашения «для операций здравоохранения». Формально — в правовом поле, но без явного уведомления пациентов.
Скандал, запрос регуляторов и волна критики показали: масштаб и непрозрачность убивают доверие, даже если буква закона соблюдена. Разрешено — не значит приемлемо.
Утечки — главная уязвимость данных как актива
В 2023 году хакеры взломали 23andMe, которая занималась генетическими тестами, и выскребли данные почти 7 млн пользователей.
Расследование, штрафы, предписания по усилению безопасности, юридические издержки и потеря доверия. Пользователи пересмотрели согласия, партнеры стали осторожнее с доступом к данным — это бьет по размеру и целостности когорт, усложняя лицензирование наборов и сделки.
При выходе на биржу в 2021 году 23andMe оценивали примерно в $3,5 млрд. Вскоре капитализация достигла почти $6 млрд. Однако к моменту банкротства в 2025 году активы компании подешевели примерно до $277 млн. И все из-за одной утечки.
Вывод
Цена данных как актива держится на трех столпах:
1. Объем и согласия
2. Репутация и доверие
3. Регуляторный периметр
Утечка одновременно бьет по всем трем: пользователи массово отзывают согласия и удаляют данные; партнеры и регуляторы повышают требования; стоимость риска растет — дисконт к оценке актива увеличивается.
Поэтому если вы уже доросли до момента, когда ваши данные стали активом, вам нужно и защищать их как актив. Учитывая не только рекомендации безопасников, но и саму суть того, чем вы владеете.
#деньги #статьи
👍4❤🔥3❤2🔥2🤔1
Майнинг как локомотив для больших данных в Сибири
Это здравая идея, если рассматривать майнеров как якорных потребителей для запуска ЦОД-площадок. В Сибири мощная гидрогенерация и холодный климат, которые снижают издержки при майнинге.
Регион привлекателен для построения энергоемких площадок с фри-кулингом и проектами утилизации тепла.
Однако есть и сложности. Разбираемся.
Майнеры выступают с инициативой
В интервью Интерфаксу майнеры уверяют, что совмещение ИИ-стоек с майнингом дает быстрый денежный поток от ASIC и постепенное наращивание HPC-компоненты. Такие объекты могут быстро окупаться — за 4 года.
Зарытая собака
В 2025 принят закон №244-ФЗ о ЦОД: для дата-центров, включенных в госреестр Минцифры, прямо запрещено размещение майнинговой инфраструктуры. С 1 марта 2026 года в реестровом ЦОДе фактически невозможно будет совмещать под одной крышей майнинг и стойки для ИИ.
Итак. Будет реестр ЦОД под ведением Минцифры. В реестровых дата-центрах будет запрет на майнинг. При этом именно реестровый статус открывает дорогу к ГЧП/концессиям и к крупным корпоративным клиентам.
Возникает фундаментальная развилка: вы либо в реестре и без майнинга, либо с майнингом, но вне реестра.
Технические нюансы
Совмещать ASIC и ИИ в одном машинном зале и раньше было сложно: у ASIC типовая мощность 3 кВт на устройство и воздушное охлаждение. У ИИ-кластеров высокая плотность, сложные сети и все чаще жидкостное охлаждение.
Для DGX H100/Blackwell типовые плотности достигают десятков кВт на стойку и 60-120 кВт на стойку в грядущих конфигурациях, другие требования к питанию и размещению.
Рынок тем временем все-таки показывает сближение сегментов: криптомайнеры конвертируют инфраструктуру под HPC/ИИ.
CoreWeave покупает Core Scientific за $9 млрд — это про превращение майнинговых мощностей в ИИ-дата-центры.
Bitdeer запустил и почти полностью загрузил облако на NVIDIA DGX SuperPOD. Это тренд: майнинг — как стартовая модель, ИИ — как целевая.
Как действовать на практике
Вариант 1 — две очереди на одной территории: физически и юридически разделить объекты. Майнинговый хостинг как самостоятельная площадка вне реестра, ИИ-ЦОД — как реестровая инфраструктура. Это снижает риски по 244-ФЗ и облегчает привлечение корпоративных клиентов/ГЧП в ИИ-часть.
Вариант 2 — строить сразу ИИ-ЦОД и использовать майнинг лишь на временных внешних площадках как финансовый буфер.
Вариант 3 — проектировать ИИ-зал с утилизацией тепла (отопление офисов/жилья, техпроцессы), что повышает социальную отдачу и смягчает нагрузку на энергосистему.
Кейсы утилизации тепла в Европе показывают измеримый эффект и снижение выбросов/затрат теплосетей.
#деньги #ии
Это здравая идея, если рассматривать майнеров как якорных потребителей для запуска ЦОД-площадок. В Сибири мощная гидрогенерация и холодный климат, которые снижают издержки при майнинге.
Регион привлекателен для построения энергоемких площадок с фри-кулингом и проектами утилизации тепла.
Однако есть и сложности. Разбираемся.
Майнеры выступают с инициативой
В интервью Интерфаксу майнеры уверяют, что совмещение ИИ-стоек с майнингом дает быстрый денежный поток от ASIC и постепенное наращивание HPC-компоненты. Такие объекты могут быстро окупаться — за 4 года.
Зарытая собака
В 2025 принят закон №244-ФЗ о ЦОД: для дата-центров, включенных в госреестр Минцифры, прямо запрещено размещение майнинговой инфраструктуры. С 1 марта 2026 года в реестровом ЦОДе фактически невозможно будет совмещать под одной крышей майнинг и стойки для ИИ.
Итак. Будет реестр ЦОД под ведением Минцифры. В реестровых дата-центрах будет запрет на майнинг. При этом именно реестровый статус открывает дорогу к ГЧП/концессиям и к крупным корпоративным клиентам.
Возникает фундаментальная развилка: вы либо в реестре и без майнинга, либо с майнингом, но вне реестра.
Технические нюансы
Совмещать ASIC и ИИ в одном машинном зале и раньше было сложно: у ASIC типовая мощность 3 кВт на устройство и воздушное охлаждение. У ИИ-кластеров высокая плотность, сложные сети и все чаще жидкостное охлаждение.
Для DGX H100/Blackwell типовые плотности достигают десятков кВт на стойку и 60-120 кВт на стойку в грядущих конфигурациях, другие требования к питанию и размещению.
Рынок тем временем все-таки показывает сближение сегментов: криптомайнеры конвертируют инфраструктуру под HPC/ИИ.
CoreWeave покупает Core Scientific за $9 млрд — это про превращение майнинговых мощностей в ИИ-дата-центры.
Bitdeer запустил и почти полностью загрузил облако на NVIDIA DGX SuperPOD. Это тренд: майнинг — как стартовая модель, ИИ — как целевая.
Как действовать на практике
Вариант 1 — две очереди на одной территории: физически и юридически разделить объекты. Майнинговый хостинг как самостоятельная площадка вне реестра, ИИ-ЦОД — как реестровая инфраструктура. Это снижает риски по 244-ФЗ и облегчает привлечение корпоративных клиентов/ГЧП в ИИ-часть.
Вариант 2 — строить сразу ИИ-ЦОД и использовать майнинг лишь на временных внешних площадках как финансовый буфер.
Вариант 3 — проектировать ИИ-зал с утилизацией тепла (отопление офисов/жилья, техпроцессы), что повышает социальную отдачу и смягчает нагрузку на энергосистему.
Кейсы утилизации тепла в Европе показывают измеримый эффект и снижение выбросов/затрат теплосетей.
#деньги #ии
❤🔥3👍3🔥3🤔2
На Госуслугах появится реестр согласий на обработку персональных данных
Не прям вот сейчас, а в марте 2028 года.
В рамках борьбы с кибермошенниками в Минцифры создадут единую платформу, где можно будет увидеть и при желании отозвать все ранее выданные согласия.
Можно будет посмотреть, кто, как и зачем использует ваши данные. В реестре будут отображаться все согласия, выданные в онлайне и офлайне.
Это будет вторым этапом борьбы с киберпреступлениями:
С 1 августа россияне уже могут отказаться от смс-рассылок, а с 1 сентября смогут отказаться и от спам-звонков. Также с сентября россияне смогут устанавливать через Госуслуги самозапрет на оформление сим-карт.
#безопасность
Не прям вот сейчас, а в марте 2028 года.
В рамках борьбы с кибермошенниками в Минцифры создадут единую платформу, где можно будет увидеть и при желании отозвать все ранее выданные согласия.
Можно будет посмотреть, кто, как и зачем использует ваши данные. В реестре будут отображаться все согласия, выданные в онлайне и офлайне.
Это будет вторым этапом борьбы с киберпреступлениями:
С 1 августа россияне уже могут отказаться от смс-рассылок, а с 1 сентября смогут отказаться и от спам-звонков. Также с сентября россияне смогут устанавливать через Госуслуги самозапрет на оформление сим-карт.
#безопасность
👍5🔥3👏3
Зачем бигтехи выкладывают в открытый доступ свои датасеты?
Вот, что стало достоянием общественности за последнее время:
⁃ VK выложили VK-LSVD (Large Short-Video Dataset) — большой обезличенный набор 40 млрд взаимодействий 10 млн пользователей с 20 млн коротких видео за январь–июнь 2025, есть эмбеддинги роликов и соцдем-признаки пользователей.
⁃ Яндекс выложили Yambda (YAndex Music Billion-interactions DAtaset) — музыкальный датасет с полной версией на 5 млрд записей и двумя урезанными на 500 млн и 50 млн.
⁃ Spotify выложили Million Playlist Dataset — набор пользовательских плейлистов для задач рекомендаций и поиска музыки.
⁃ Google выложили YouTube-8M — крупный датасет для исследований в области понимания видео и обучения моделей.
⁃ Kuaishou выложили KuaiRec — датасет для рекомендательных систем с событиями из реального сервиса.
Это альтруизм? Нет, у них на это пять причин:
1. Ускорить исследования и задать бенчмарки.
Открытые наборы формируют стандарты индустрии и становятся бенчмарками для университетов и бизнеса, конкурсы и соревнования вокруг датасетов повышают общий уровень экосистемы рекомендательных моделей.
2. Свести академию с практикой.
В отрасли не хватает современных открытых данных, из-за этого исследования часто расходятся с бизнес-реальностью; публикация крупных датасетов сокращает разрыв и ускоряет прикладные результаты.
3. Дать моделям масштаб и контекст реального мира.
Небольшие или устаревшие выборки валидируются красиво, но ломаются в проде; большие датасеты с контекстом (устройство, гео, тип взаимодействия) улучшают обобщение и точность.
4. Отработать алгоритмы на доменах с плотными сигналами.
Например, короткие видео дают непрерывный поток явных и неявных реакций; открытый набор позволяет тестировать рекомендации ближе к реальному поведению пользователей.
5. Похвастаться, но сохранить монетизацию.
Бигтехи делятся обезличенными и усеченными данными, а ключевые профили и реакции держат закрытыми как основной коммерческий актив.
Вы же не надеялись, что с вами поделятся куском пирога?
#деньги
Вот, что стало достоянием общественности за последнее время:
⁃ VK выложили VK-LSVD (Large Short-Video Dataset) — большой обезличенный набор 40 млрд взаимодействий 10 млн пользователей с 20 млн коротких видео за январь–июнь 2025, есть эмбеддинги роликов и соцдем-признаки пользователей.
⁃ Яндекс выложили Yambda (YAndex Music Billion-interactions DAtaset) — музыкальный датасет с полной версией на 5 млрд записей и двумя урезанными на 500 млн и 50 млн.
⁃ Spotify выложили Million Playlist Dataset — набор пользовательских плейлистов для задач рекомендаций и поиска музыки.
⁃ Google выложили YouTube-8M — крупный датасет для исследований в области понимания видео и обучения моделей.
⁃ Kuaishou выложили KuaiRec — датасет для рекомендательных систем с событиями из реального сервиса.
Это альтруизм? Нет, у них на это пять причин:
1. Ускорить исследования и задать бенчмарки.
Открытые наборы формируют стандарты индустрии и становятся бенчмарками для университетов и бизнеса, конкурсы и соревнования вокруг датасетов повышают общий уровень экосистемы рекомендательных моделей.
2. Свести академию с практикой.
В отрасли не хватает современных открытых данных, из-за этого исследования часто расходятся с бизнес-реальностью; публикация крупных датасетов сокращает разрыв и ускоряет прикладные результаты.
3. Дать моделям масштаб и контекст реального мира.
Небольшие или устаревшие выборки валидируются красиво, но ломаются в проде; большие датасеты с контекстом (устройство, гео, тип взаимодействия) улучшают обобщение и точность.
4. Отработать алгоритмы на доменах с плотными сигналами.
Например, короткие видео дают непрерывный поток явных и неявных реакций; открытый набор позволяет тестировать рекомендации ближе к реальному поведению пользователей.
5. Похвастаться, но сохранить монетизацию.
Бигтехи делятся обезличенными и усеченными данными, а ключевые профили и реакции держат закрытыми как основной коммерческий актив.
Вы же не надеялись, что с вами поделятся куском пирога?
#деньги
1👍5❤3🔥3
Какой вы CDO?
Нашли вам поиграться на выходных: Who's the best CDO?
Это симулятор электронной почты, в котором вы — Chief Data Officer.
Геймплей простой: вам приходят письма, вы на них отвечаете и прокачиваете качество данных и репутацию, чтобы зарабатывать деньги.
Могут написать из вашей техподдержки и пожаловаться, что нет доступа к данным, может написать регулятор и выкатить новые требования, могут сообщить об утечке у партнера и так далее.
Это как Football Manager для тех, кто вырос и теперь работает с данными.
Играйте и с коллегами поделитесь.
Нашли вам поиграться на выходных: Who's the best CDO?
Это симулятор электронной почты, в котором вы — Chief Data Officer.
Геймплей простой: вам приходят письма, вы на них отвечаете и прокачиваете качество данных и репутацию, чтобы зарабатывать деньги.
Могут написать из вашей техподдержки и пожаловаться, что нет доступа к данным, может написать регулятор и выкатить новые требования, могут сообщить об утечке у партнера и так далее.
Это как Football Manager для тех, кто вырос и теперь работает с данными.
Играйте и с коллегами поделитесь.
👍4❤🔥3👏2🔥1
Бизнес-метрики против ML-метрик
В машинном обучении легко забыться в красивых графиках и цифрах. На душе хорошо, когда MSE снизился, MAPE тоже, AUC-PR вырос, а ROC AUC перевалил за 0,9.
Рано радоваться. На хакатонах этого хватит. В бизнесе — нет. Идеальный по всем ML-метрикам алгоритм вполне может уводить маржу в минус.
И это естественно, ведь ML-метрики засекают точность предсказаний, а не влияние на выручку.
Представим рекомендательную систему с высокой полнотой. Система включает в выдачу почти все релевантные товары. Однако это не значит, что почти все товары в выдаче релевантные. Если в выдаче много товаров с низкой маржой, прибыль упадет.
И пока отчеты сияют метриками, CFO видит минус в P&L.
Бизнесу же нужны свои метрики: доход на пользователя, рост конверсии, увеличение среднего чека, удержание, LTV. Именно они показывают, есть ли деньги в улучшении модели. Поэтому главный вопрос при выборе ML-метрик — как они связаны с этими показателями.
Хорошая практика — строить мосты: ML → прокси → бизнес.
Например, для прогнозирования спроса: уменьшение MAPE (ML) → снижение частоты нехваток на полке (прокси) → рост реализованных продаж и выручки (бизнес).
Ошибка многих команд — оптимизировать удобные ML-метрики, которые легко считаются, но никак не коррелируют с маржой.
Еще одна ловушка — усреднение: среднее значение MAPE может скрывать катастрофические промахи в сегменте вип-клиентов, где потери особенно дорогие.
Поэтому рецепт такой:
1. Определите ключевые бизнес-метрики (например, LTV, ROMI, NPV).
2. Найдите ML-метрики, которые лучше всего предсказывают изменения именно этих показателей.
3. Валидируйте связь через A/B-тесты: действительно ли рост ML-метрики дал рост прибыли.
Так дата-сайентисты перестанут наводить красоту в дашбордах и начнут приносить деньги в кассу. ML-метрики нужны только для того, чтобы подтверждать рост маржи и ускорять принятие решений.
#аналитика #деньги
В машинном обучении легко забыться в красивых графиках и цифрах. На душе хорошо, когда MSE снизился, MAPE тоже, AUC-PR вырос, а ROC AUC перевалил за 0,9.
Рано радоваться. На хакатонах этого хватит. В бизнесе — нет. Идеальный по всем ML-метрикам алгоритм вполне может уводить маржу в минус.
И это естественно, ведь ML-метрики засекают точность предсказаний, а не влияние на выручку.
Представим рекомендательную систему с высокой полнотой. Система включает в выдачу почти все релевантные товары. Однако это не значит, что почти все товары в выдаче релевантные. Если в выдаче много товаров с низкой маржой, прибыль упадет.
И пока отчеты сияют метриками, CFO видит минус в P&L.
Бизнесу же нужны свои метрики: доход на пользователя, рост конверсии, увеличение среднего чека, удержание, LTV. Именно они показывают, есть ли деньги в улучшении модели. Поэтому главный вопрос при выборе ML-метрик — как они связаны с этими показателями.
Хорошая практика — строить мосты: ML → прокси → бизнес.
Например, для прогнозирования спроса: уменьшение MAPE (ML) → снижение частоты нехваток на полке (прокси) → рост реализованных продаж и выручки (бизнес).
Ошибка многих команд — оптимизировать удобные ML-метрики, которые легко считаются, но никак не коррелируют с маржой.
Еще одна ловушка — усреднение: среднее значение MAPE может скрывать катастрофические промахи в сегменте вип-клиентов, где потери особенно дорогие.
Поэтому рецепт такой:
1. Определите ключевые бизнес-метрики (например, LTV, ROMI, NPV).
2. Найдите ML-метрики, которые лучше всего предсказывают изменения именно этих показателей.
3. Валидируйте связь через A/B-тесты: действительно ли рост ML-метрики дал рост прибыли.
Так дата-сайентисты перестанут наводить красоту в дашбордах и начнут приносить деньги в кассу. ML-метрики нужны только для того, чтобы подтверждать рост маржи и ускорять принятие решений.
#аналитика #деньги
👍4❤3💊2❤🔥1
Что на самом деле сказал MIT об ИИ в компаниях
Когда вышел отчет MIT, заголовки громко кричали: «95% пилотов ИИ проваливаются». Это пугает и создает ощущение, что ИИ не работает. Но если прочитать документ внимательнее, картина иная.
MIT не говорит, что модели плохие. Он говорит, что большинство дорогостоящих кастомных проектов не приносят быстрых денег. Причины не в алгоритмах, а в том, как компании пытаются эти алгоритмы встраивать в работу.
Где именно провалились проекты
Отчет изучал сотни пилотов и интервьюировал специалистов. Оказалось: те сложные и тяжеловесные проекты, которые компании строили под себя, редко доходят до живой эксплуатации. Они требуют много ручной работы. Их сложно настраивать и еще сложнее заставить учиться на опыте.
В результате такие пилоты остаются демонстрациями или научными проектами, а не инструментами, которые приносят прибыль.
Но важно понять: речь именно о кастомных решениях. Это не про простые сервисы вроде ChatGPT, которые сотрудники стали использовать сами.
Теневая экономика ИИ
Главный и неожиданный вывод MIT — массовое неофициальное использование ИИ сотрудниками. Люди берут личные аккаунты ChatGPT, Claude и другие инструменты. Они применяют их в рутине. Они экономят время и делают работу быстрее.
По данным исследования, примерно 90% сотрудников используют такие сервисы для рабочих задач, даже если компания официально не купила корпоративную систему.
Это и есть теневая экономика ИИ. Ее эффекты не отражаются в официальных метриках айти-подразделений. Но они реально есть: ускорение обработки документов, уменьшение затрат на внешних подрядчиков, экономия на агентских услугах.
Почему простые сервисы выигрывают у дорогих платформ
Потребительские инструменты кажутся удобнее. Они гибкие. Они дают быстрый результат. Сотрудник может адаптировать их под свою задачу тут же.
Корпоративные решения наоборот: громоздкие, медленные в настройке, и почти не учатся на поведении пользователей. Поэтому люди выбирают то, что работает сразу.
Ключевая мысль MIT: проблема не в ИИ, а в подходе к внедрению.
Что работает лучше — покупать или строить
Исследование показывает: проекты, реализованные при участии внешних вендоров и партнеров, доходят до внедрения гораздо чаще. Внешние команды доводят инициативы до результата примерно вдвое чаще, чем внутренние разработки.
Это не значит, что внутренние проекты плохи всегда. Но если цель — быстрый и устойчивый эффект, то партнерство чаще работает лучше.
Где искать реальную прибыль от ИИ
Большинство компаний направляют бюджеты на продажи и маркетинг. Но MIT отмечает: наибольшая отдача часто приходит от бэк-офиса — обработка документов, служба поддержки, сокращение аутсорсинга. Там компании экономят миллионы без массовых увольнений.
Это тихая, но ощутимая экономия. И она важнее эффектных фронтовых кейсов, которые попадают в презентации.
Выводы, которые должен запомнить руководитель
95% — это диагноз процессов, а не технологии. Высокий процент провалов говорит о том, как проекты строят внутри компании.
ИИ уже приносит пользу — просто часто в тени. Сотрудники делают работу быстрее, используя простые инструменты. Эти выгоды нужно увидеть и измерить.
Сначала посмотрите, что используют люди. Не начинайте с дорогостоящего построения. Сначала изучите теневое использование и выберите, что действительно помогает.
Партнерство чаще приводит к успеху. Требуйте у вендоров не демо, а конкретных операционных результатов.
Интеграция важнее мощности модели. Инструмент должен учиться, запоминать контекст и работать в реальных процессах.
#ии #деньги #исследования
Когда вышел отчет MIT, заголовки громко кричали: «95% пилотов ИИ проваливаются». Это пугает и создает ощущение, что ИИ не работает. Но если прочитать документ внимательнее, картина иная.
MIT не говорит, что модели плохие. Он говорит, что большинство дорогостоящих кастомных проектов не приносят быстрых денег. Причины не в алгоритмах, а в том, как компании пытаются эти алгоритмы встраивать в работу.
Где именно провалились проекты
Отчет изучал сотни пилотов и интервьюировал специалистов. Оказалось: те сложные и тяжеловесные проекты, которые компании строили под себя, редко доходят до живой эксплуатации. Они требуют много ручной работы. Их сложно настраивать и еще сложнее заставить учиться на опыте.
В результате такие пилоты остаются демонстрациями или научными проектами, а не инструментами, которые приносят прибыль.
Но важно понять: речь именно о кастомных решениях. Это не про простые сервисы вроде ChatGPT, которые сотрудники стали использовать сами.
Теневая экономика ИИ
Главный и неожиданный вывод MIT — массовое неофициальное использование ИИ сотрудниками. Люди берут личные аккаунты ChatGPT, Claude и другие инструменты. Они применяют их в рутине. Они экономят время и делают работу быстрее.
По данным исследования, примерно 90% сотрудников используют такие сервисы для рабочих задач, даже если компания официально не купила корпоративную систему.
Это и есть теневая экономика ИИ. Ее эффекты не отражаются в официальных метриках айти-подразделений. Но они реально есть: ускорение обработки документов, уменьшение затрат на внешних подрядчиков, экономия на агентских услугах.
Почему простые сервисы выигрывают у дорогих платформ
Потребительские инструменты кажутся удобнее. Они гибкие. Они дают быстрый результат. Сотрудник может адаптировать их под свою задачу тут же.
Корпоративные решения наоборот: громоздкие, медленные в настройке, и почти не учатся на поведении пользователей. Поэтому люди выбирают то, что работает сразу.
Ключевая мысль MIT: проблема не в ИИ, а в подходе к внедрению.
Что работает лучше — покупать или строить
Исследование показывает: проекты, реализованные при участии внешних вендоров и партнеров, доходят до внедрения гораздо чаще. Внешние команды доводят инициативы до результата примерно вдвое чаще, чем внутренние разработки.
Это не значит, что внутренние проекты плохи всегда. Но если цель — быстрый и устойчивый эффект, то партнерство чаще работает лучше.
Где искать реальную прибыль от ИИ
Большинство компаний направляют бюджеты на продажи и маркетинг. Но MIT отмечает: наибольшая отдача часто приходит от бэк-офиса — обработка документов, служба поддержки, сокращение аутсорсинга. Там компании экономят миллионы без массовых увольнений.
Это тихая, но ощутимая экономия. И она важнее эффектных фронтовых кейсов, которые попадают в презентации.
Выводы, которые должен запомнить руководитель
95% — это диагноз процессов, а не технологии. Высокий процент провалов говорит о том, как проекты строят внутри компании.
ИИ уже приносит пользу — просто часто в тени. Сотрудники делают работу быстрее, используя простые инструменты. Эти выгоды нужно увидеть и измерить.
Сначала посмотрите, что используют люди. Не начинайте с дорогостоящего построения. Сначала изучите теневое использование и выберите, что действительно помогает.
Партнерство чаще приводит к успеху. Требуйте у вендоров не демо, а конкретных операционных результатов.
Интеграция важнее мощности модели. Инструмент должен учиться, запоминать контекст и работать в реальных процессах.
#ии #деньги #исследования
🔥6👍4👏3❤1
За сколько люди готовы продать свой цифровой след в Твиттере
В исследовании задались простым, но важным вопросом: если попросить у человека архив его аккаунта в Твиттере, что сработает лучше — призыв пожертвовать данные ради науки, разовая покупка или возможность выложить архив на маркетплейсе и самому назначить цену?
Чтобы было ясно: речь не про отдельные твиты, а про полный ZIP-архив, который каждый может скачать у себя в профиле. Там вся история активности: твиты, ретвиты, лайки, список подписчиков и подписок, медиа. По сути, весь цифровой след человека в Твиттере в одном файле.
Как проходил эксперимент
Около 2500 человек в США проходили онлайн-опрос и рассматривали три сценария.
В одном случае им предлагалось пожертвовать архив бесплатно. В другом — принять разовое денежное вознаграждение. В третьем — выставить архив на маркетплейсе, указав минимальную цену, по которой они согласны его продать.
Дополнительно проверялось, влияет ли тип покупателя (университет или компания) и возможность удаления чувствительных данных.
Что выяснили
Маркетплейс увеличил готовность участников продавать архив на 12-25 процентных пунктов по сравнению с пожертвованием и на примерно 7 п.п. по сравнению с разовым вознаграждением.
Более 64% участников указали минимальную цену всего в пределах $0,25-2. Это значительно ниже суммы в $5-10, которую люди называли в прошлых экспериментах. Интересно, что ни тип покупателя, ни удаление чувствительных данных почти не изменили готовность продавать.
Когда у человека есть возможность самому назначить цену, он гораздо охотнее делится своим архивом. Большинство оценивает свой цифровой след очень дешево — всего в несколько долларов. Маркетплейс при этом работает лучше, чем благотворительные модели или разовые сделки.
#деньги #исследования
В исследовании задались простым, но важным вопросом: если попросить у человека архив его аккаунта в Твиттере, что сработает лучше — призыв пожертвовать данные ради науки, разовая покупка или возможность выложить архив на маркетплейсе и самому назначить цену?
Чтобы было ясно: речь не про отдельные твиты, а про полный ZIP-архив, который каждый может скачать у себя в профиле. Там вся история активности: твиты, ретвиты, лайки, список подписчиков и подписок, медиа. По сути, весь цифровой след человека в Твиттере в одном файле.
Как проходил эксперимент
Около 2500 человек в США проходили онлайн-опрос и рассматривали три сценария.
В одном случае им предлагалось пожертвовать архив бесплатно. В другом — принять разовое денежное вознаграждение. В третьем — выставить архив на маркетплейсе, указав минимальную цену, по которой они согласны его продать.
Дополнительно проверялось, влияет ли тип покупателя (университет или компания) и возможность удаления чувствительных данных.
Что выяснили
Маркетплейс увеличил готовность участников продавать архив на 12-25 процентных пунктов по сравнению с пожертвованием и на примерно 7 п.п. по сравнению с разовым вознаграждением.
Более 64% участников указали минимальную цену всего в пределах $0,25-2. Это значительно ниже суммы в $5-10, которую люди называли в прошлых экспериментах. Интересно, что ни тип покупателя, ни удаление чувствительных данных почти не изменили готовность продавать.
Когда у человека есть возможность самому назначить цену, он гораздо охотнее делится своим архивом. Большинство оценивает свой цифровой след очень дешево — всего в несколько долларов. Маркетплейс при этом работает лучше, чем благотворительные модели или разовые сделки.
#деньги #исследования
👍4🤩3❤🔥2🔥2
Вы об этом думали, но боялись спросить
В Opera же не только подумали, но и сделали. С включенной функцией Fake My History браузер Opera GX подменит вашу историю на выдуманную, если вы не будете пользоваться им две недели.
Если с человеком что-то случится и он перестанет пользоваться браузером, то кто бы ни получил доступ к его истории, он увидит там примерно следующие запросы:
⁃ Как сделать кормушку для птиц?
⁃ Волонтерство в моем городе
⁃ Бесплатные курсы саморазвития
⁃ Как стать донором крови?
⁃ Изучение иностранных языков
Можно не ждать две недели и «притвориться мертвым» моментально, нажав одну кнопку.
Защита персональных данных, которую мы заслужили.
#безопасность
В Opera же не только подумали, но и сделали. С включенной функцией Fake My History браузер Opera GX подменит вашу историю на выдуманную, если вы не будете пользоваться им две недели.
Если с человеком что-то случится и он перестанет пользоваться браузером, то кто бы ни получил доступ к его истории, он увидит там примерно следующие запросы:
⁃ Как сделать кормушку для птиц?
⁃ Волонтерство в моем городе
⁃ Бесплатные курсы саморазвития
⁃ Как стать донором крови?
⁃ Изучение иностранных языков
Можно не ждать две недели и «притвориться мертвым» моментально, нажав одну кнопку.
Защита персональных данных, которую мы заслужили.
#безопасность
😁8🔥6😱3❤🔥2