Progres Post
271 subscribers
37 photos
1 video
16 files
176 links
Как собирать, анализировать и зарабатывать на данных.

Присылайте новости: @progrespost_bot

Редактор: @honeybalism
Download Telegram
Вам не нужно хранить столько данных. Или нужно?

На BigDATAwire собрали в кучу результаты разных исследований и отчетов. По инсайтам и выводам вышло густо. Разбираемся.

В Gresham опросили 200 старших специалистов по данным из финансовых компаний США и Великобритании и выяснили, что 44% сталкиваются с проблемами. Внимание! Из-за избытка данных или из-за того, что хранят их в слишком многих местах.

О как! Пока кто-то еще только планирует управлять данными по-взрослому, кто-то уже заигрался и насобирал больше, чем может переварить.

По данным опроса Fivetran, 40% ИИ-проектов терпят неудачу или не достигают целей из-за недостатков в управлении данными.

Выходит, что в ЕС главный вызов для технологического и финансового сектора — не доступ к большим данным, а управление ими.

И с 2025 года регуляторы помогают бизнесу с этим вызовом справиться.

Регуляторная инициатива DORA — кнут и пряник в одном наборе. Хотя, больше кнут, конечно. Без соответствия DORA компании не могут внедрять технологии генеративного ИИ, так как их данные не считаются готовыми для обучения моделей.

Соблюдение DORA позволяет партнериться с банками и биржами и минимизирует риски утечек. Кроме того, по данным опросов, инвесторы охотнее вкладываются в компании, которые выполняют предусмотренные в DORA требования.

И напоследок.

Мы уже писали, что отладка пайплайнов — это первый в очереди кандидат на автоматизацию с помощью ИИ. Но мы не знали, сколько времени эти процессы занимают у инженеров. Теперь знаем: 80% ресурсов инженеров данных тратится на поддержку существующих ETL-пайплайнов, даже в компаниях с централизованными данными.

Ну и чем займетесь в свободное время?

#аналитика #статьи #исследования
👍4🔥4❤‍🔥3
- Организационная культура и компетенции: Высокая вовлеченность сотрудников, непрерывные информационные тренинги, четко сформированные роли Data Engineer, Data Scientist, Business Analyst. Культура постоянного экспериментирования: fail fast, learn faster.

- Клиентский опыт: Пользовательских болей почти нет: цифровая экосистема обеспечивает клиенту максимально простой путь — от оформления продукта до его получения и поддержки. NPS находится на высоком уровне благодаря технологической гибкости и быстрому отклику на запросы.

Итого:

Каждый следующий уровень не просто добавляет три-четыре новых инструмента, а качественно меняет подход работы с данными и принятия решений. Ключевая дифференциация между ними заключается в глубине встроенности цифровых практик:

- Наличие системы и стратегии: от отсутствия единого понимания до четко артикулированной долговременной программы.

- Степень интеграции: от изолированных точечных решений до работающей экосистемы, где данные легко передаются между различными компонентами.

- Роль данных в принятии решений: от интуитивного подхода к полноценному data-driven.

- Культура и компетенции: от усталого отношения к айти-инициативам до активного обучения и генерации внутренних точек роста со стороны сотрудников.

#аналитика #статьи
4🔥3👌3❤‍🔥2
Инсайты из 1000 бесед с командами дата-аналитиков

Рассказываем самое интересное из статьи Миккеля Денсё Data about data from 1,000 conversations with data teams, в которой автор делится инсайтами, полученными из 1000 бесед с дата-командами на платформе Synq.

1. DWH как центр управления бизнесом

Раньше DWH использовались только для сводных отчетов. Сегодня туда сводят данные из разных систем, чтобы запустить ML-модели, автоматизировать рекламные кампании и готовить отчеты.

В одном крупном интернет-магазине из-за сбоя в канале передачи данных неправильные CLTV-метрики показали, что на рекламные кампании можно тратить больше. За пару часов некорректного запуска пайплайна команда потратила на рекламу лишние $100 000.

Если DWH влияет на бизнес-решения и доход, к нему нужно относиться как к продакшн-инфраструктуре. Внедрите SLA-алерты, четкие процессы инцидент-менеджмента и метрики качества данных: процент успешных загрузок, время восстановления после ошибки.

2. Масштаб и цена заблуждения при росте стеков

В этом исследовании 20% команд, которые используют DBT (data build tool), отметили, что в их проекте более 1000 моделей. Еще 5% проектов имеют свыше 5000 таких моделей.

Модель в DBT – это SQL-скрипт, который преобразует сырые данные в готовые таблицы для аналитиков или других систем.

В Siemens один инстанс DBT обслуживает более 800 отдельных проектов. В этой экосистеме работают 550 дата-инженеров и аналитиков. Ежедневно запускается около 2500 задач преобразования данных и обрабатывается примерно 85 000 DBT-моделей. При таких объемах невозможно помнить, кто отвечает за каждую модель или отчет.

Командам нужны карты ответственности – документы, где указано, кто владеет каждой моделью и дашбордом. Без этого легко упускать из виду устаревшие модели, дубли и неиспользуемые отчеты.

3. Тестирование как инструмент доверия, а не галочка

Раньше данные проверяли на простой уровень качества: NOT NULL и UNIQUE, чтобы убедиться, что нет пустых или дублирующих записей. Сейчас нужны тесты, которые отражают бизнес-логику и специфику источников.

На маркетплейсе, где раз в неделю обновляют ML-модель прогнозирования цен на автомобили, команда блокирует выгрузку в AWS S3, если исторические данные не полные за последние 12 месяцев. Для обучения модели важна не только свежесть, но и непрерывная временная серия.

В медийной компании данные о кликах и показах поступают от тысяч партнеров: поток достигает сотен тысяч строк в день. Если хотя бы один партнер задержит данные, дашборды окажутся пустыми. Команда ежедневно сравнивает фактический объем строк с ожидаемым диапазоном, чтобы вовремя обнаружить исчезновение данных, а не исправлять последствия нерегулярной поставки.

Пора понять, что DWH — не источник отчетов, а центр управления бизнесом. Так-то.

#аналитика #статьи
👍5❤‍🔥4🔥31
В словосочетании Data Driven нет слова Big

Почему?

Потому, что данные не обязательно должны быть большими, чтобы принимать решения на их основе.

Это самое интересное, что сказал в своем интервью Михаил Нетук, руководитель аналитики в Литресе.

В остальном там мало интересных деталей. Но эту мысль стоит взять на вооружение всем, кто откладывает переход к принятию решений на основе данных из-за того, у них нет больших данных.

Не откладывайте. Работайте с тем, что есть.

#статьи
❤‍🔥5👍5🔥3
Яндекс выложил в открытый доступ Yambda

Это один из крупнейших в мире открытых датасетов для разработки и тестирования рекомендательных систем.

Какие данные внутри?

В датасете 5 млрд действий, собранных с 1 млн пользователей на 9 млн треков в Яндекс-музыке:

- Прослушивания

- Лайки и отмены лайков

- Дизлайки и отмены дизлайков

- Аудио-эмбеддинги треков, связи трек-артист-альбом

Все действия разделены метками на органические и те, что вызваны рекомендациями.

Все это в формате Apache Parquet, что удобно для Pandas/Polars.

Есть урезанные версии на 500 и 50 млн действий для разных вычислительных мощностей.

Кому пригодится?

- Исследователям и разработчикам рекомендательных систем для тестирования новых моделей в условиях, близких к продакшену.

- Студентам и энтузиастам для изучения принципов работы рекомендаций на реальных больших данных.

- Инженерам для бенчмаркинга своих алгоритмов против предоставленных Яндексом бейслайнов.

Подробности читайте на Хабре.

Сам датасет забирайте на Hugging Face.

#ии #статьи
❤‍🔥4👍3🙏2
Почему фактический бюджет на внедрение BI в 2-4 раза выше запланированного

Ребята из GlowByte в статье на Хабре разобрали причины.

Помимо очевидных расходов на лицензии и оборудование, существуют затраты на интеграцию, доработку отчетов, миграцию данных, тестирование, обучение и поддержку. В 80% проектов фактический бюджет оказывается в 2-4 раза выше запланированного, а до 40% расходов и вовсе изначально не были предусмотрены сметой.

Если собрать в кучу разрозненные подсчеты авторов статьи, получится примерно следующее:

1. Интеграция с существующими системами (ERP, CRM): 20-40% от базового бюджета

Компании часто полагают, что штатные коннекторы из коробки справятся с задачей, и не закладывают дополнительные ресурсы на анализ форматов, разработку адаптивных API и обработку ошибок при нестабильности источников.

2. Подготовка и перенос исторических данных: 10-15% от базового бюджета

Руководство склонно считать, что данные просто выгрузятся из старых систем, не учитывая потребности в очистке, нормализации и многократных тестовых прогонах, что приводит к недооценке трудозатрат на валидацию и исправление дырявых записей.

3. Настройка ETL-процессов: 30-35% от базового бюджета

Часто исходят из предположения, что стандартные схемы загрузки подходят под любые сценарии, и не предусматривают времени на адаптацию бизнес-правил, переработку справочников и доработку конвейеров под уникальную структуру данных.

4. Кастомизация отчетов и дашбордов: 20-25% от базового бюджета

Компаниям кажется, что типовых шаблонов достаточно, поэтому они до последнего откладывают обсуждение специфических KPI и интерактивных элементов, из-за чего потом приходится перерабатывать функциональные решения на коленке.

5. Многоступенчатое тестирование (unit-, интеграционные и UAT-сценарии): 10-15% от базового бюджета

Полагают, что можно сэкономить время за счет сокращения тестовых итераций, не учитывая, что обнаружение ошибок на продакшене оборачивается простоем и откатом, который в разы дороже любого планового QA.

6. Ежегодная поддержка и развитие BI: 15-20% от первоначального бюджета

Менеджеры иногда считают, что после запуска, когда проект сдан в эксплуатацию, деньги больше не нужны, и не закладывают в смету расходы на мониторинг, апдейты, обучение новых сотрудников и расширение инфраструктуры, хотя без этого BI быстро теряет актуальность.

Мораль:

Если недосчитать бюджет до начала работ, то после вы недосчитаетесь ROI.

#деньги #аналитика #статьи
❤‍🔥4👍4🔥3
Ротшильд, поражение Наполеона при Ватерлоо, коронавирус и работа с данными

Сегодня пост не про большие данные, а скорее про малые, но под большим контролем.

На Форбсе вышла статья про гейткипинг: термин описывает контроль доступа к данным, осуществляемый определенными людьми в своих интересах.

Разбираемся на примерах, что это такое и как работает.

Гейткипинг еще называют теорией привратника. Важнейшими объектами, подпадающими под определение гейткипинга, выступают СМИ, где привратники — это главные редакторы, пиарщики, продюсеры и журналисты. О влиянии на мир моды главного редактора Vogue Анны Винтур даже снимают фильмы. 

Гейткипинг может быть как положительным, так и отрицательным механизмом.

Все зависит от контекста и мотива:

Ограничение доступа к порносайтам для несовершеннолетних или рецензирование научных статей — очевидно положительные механизмы.

Когда журналист освещает какой-то конфликт и дает возможность высказаться только одной из сторон — это, напротив, отрицательный гейткипинг.

Похоже на цензуру, но есть разница. Цензура всегда подразумевает насильственное или властное ограничение свободы слова, тогда как гейткипинг — более широкий понятийный инструментарий отбора, который не всегда преследует криминальные или антиобщественные цели.

Теперь к интересным историческим примерам.

По легенде, в июне 1815 года Натан Ротшильд, имея разветвленную сеть агентов и курьеров по всей Европе, первым получил сообщение о поражении Наполеона у Ватерлоо — якобы с помощью голубиной почты или особого гонца, прибывшего в Лондон раньше официальных депеш.

Узнав о поражении, он поспешно распродал британские гособлигации, спровоцировав панику на рынке и падение цен, а затем выкупил их по значительно сниженной стоимости: когда же новость об успехе англо-голландских войск была официально подтверждена, стоимость облигаций резко выросла, и Ротшильд заработал на этой операции целое состояние.

Есть и более свежий пример.

В июле 2021 года редакцию одного из самых авторитетных медицинских журналов The Lance обвинили в сокрытии важной информации о COVID-19: редакторы не сразу опубликовали данные о том, что коронавирус передается от человека к человеку. 

С одной стороны, возможности привратников, которые решают, какие данные попадут к общественности, а какие нет, становятся скромнее. Из-за всепроникающих соцсетей и мессенджеров.

С другой стороны, мы вверяем полномочия другим привратникам — нейросетям, возможности которых, вероятно, превосходят возможности Ротшильда в начале 19 века.

#статьи
👍4🔥4❤‍🔥3
Большие данные умирают

Вот и мы тоже не смогли пройти мимо заголовка статьи Is Big Data Dying?

Разумеется, большие данные переживают не гибель самого понятия, а устаревание традиционных технологий и подходов.

В статье авторы разбирают историю эволюции больших данных и делают прогнозы.

История делится на три этапа:

Этап 1 (классический Hadoop + Lambda)

- Архитектуру составляли более 30 компонентов, требовавших команды из 50+ специалистов.

- Постоянные конфликты данных: единственный способ исправить ошибку — удаление и полная перезапись раздела.

- Хранение дублировавшихся данных приводило к росту расходов.

- Любой слепой SQL-запрос без фильтрации по партиции мог потопить всю систему.

- При объемах в несколько миллиардов записей в день производительность падала, а платформа оказывалась крайне ненадежной.

Этап 2 (Data Lake и Lakehouse)

- С новыми форматами Iceberg и Delta Lake число компонентов и количество людей в командах сократилось до 10.

- Появилась транзакционная поддержка, единые метаданные и единое хранилище, что упростило процессы компактирования версий и Z-order оптимизации.

- SQL-запросы стали маршрутизироваться по разным движкам в зависимости от задач.

- Максимальный размер таблицы ~10 млрд строк, число таблиц — до 10 000.

- Даже с этими улучшениями для триллионной шкалы данных все еще требовались большие инженерные ресурсы, а архитектура оставалась сложной.

Этап 3 (облачные платформы pay-as-you-go)

- Решения вроде Snowflake и Databend позволяют выполнять SQL-запросы напрямую к файлам в S3 (CSV, Parquet, ORC) без подготовки Spark-файлов.

- ETL-инженеры, ранее тратившие дни на загрузку и трансформацию, теперь справляются за полчаса.

- Потоковая и пакетная обработки полностью интегрированы, возможность запускать UDF-задачи на Python заменяет десятки кластеров Flink.

Последствия перехода

В результате перехода на облачные платформы классическая роль Data Mover фактически исчезает: задачи, ранее занимавшие дни у крупных команд инженеров, теперь выполняются автоматически в рамках облачного сервиса.

Вместо специалистов по DWH, чья основная функция заключалась в настройке и поддержке сложных пайплайнов, появляются новые профессии:

- Инженеры, работающие с лоукод-инструментами для подготовки данных.

- Специалисты по интеграции и визуализации.

- Бизнес-аналитики, использующие Text2SQL.

- Разработчики умных систем, фокусирующиеся на генерации ценности, а не на сложных пайплайнах.

Вместо инженеров широкого профиля становятся востребованы узкие специалисты с глубокими знаниями лоукод-платформ, UDF-функций и внутренних принципов новых хранилищ.

#аналитика #статьи
👍7❤‍🔥3🔥3
Сколько зарабатывают на больших данных в крупной промышленности

В Ведомостях пишут, что в 2023 году крупные промышленные компании увеличили инвестиции в большие данные и аналитику до 23% от операционного бюджета, а в 2024 году — до 30%.

Потому что увидели эффект:

При работе с большими данными расходы на производство и логистику сокращаются на 15-30%, еще на 30% сокращаются простои техники.

В нефтянке от внедрения технологии маржа увеличивается на 1-2%: в России это дало бы ₽100 млрд для Роснефти и ₽320 млрд для всей отрасли в год.

Где клад зарыт

Недавно компания De Beers, которая добывает алмазы в Ботсване уже 54 года, сократила время на разведку месторождений на 40% за счет анализа спутниковых данных.

Предположим, что затраты на разведку пропорциональны их продолжительности. Тогда в De Beers экономят $20 млн в год. Почти столько же могли бы экономить и в Алросе — $19 млн, то есть ₽1,5 млрд.

Кто не работает, тот ест

В грузовом парке горнодобывающей компании Anglo American внедрили прогнозное техническое обслуживание на основе анализа данных и искусственного интеллекта. Это сократило внеплановые простои на 30%.

Если до внедрения компания теряла до 1200 часов на простоях в год, то после обкатки технологии начала экономить до $45 млн ежегодно.

А у нас в квартире газ

По данным IDC и РАЭК, рынок больших данных в России растет на 15-25% в год, а в промышленности — аж на 30%.

Так что с внедрением больших данных и аналитики, включая цифровых двойников, у нас все хорошо.

Самые популярные кейсы в промышленности связаны с прогнозом ремонта оборудования. Это потенциально снижает затраты на ремонт от 15 до 30%.

Пофантазируем немного.

Если завтра на всех российских предприятиях внедрят системы предикативного обслуживания станков и техники, то суммарно сэкономят более ₽7 трлн за год.

#деньги #статьи
👍63🔥3
Разработчики ИИ тратят миллионы на лоббирование своих интересов в США

OpenAI и Anthropic, традиционно позиционировавшиеся как осторожные исследовательские центры, в последние месяцы стали активно расширять присутствие в Вашингтоне, нанимая новых сотрудников и наращивая расходы на лоббизм.

Федеральный бюджет США на айти-сектор составляет около $75 млрд, значительная часть которого теперь направлена на проекты, связанные с ИИ.

Главный инструмент лоббистов — страшилка о том, что если правительство США сейчас же не направит миллиарды долларов на развитие ИИ-отрасли, то китайцы начнут доминировать в этой сфере.

Это резонно. И это работает: администрация Трампа и Конгресс рассматривают ИИ прежде всего как стратегический инструмент в гонке технологий с Китаем. Палата представителей уже приняла положение о десятилетнем моратории на ужесточение законов об ИИ на уровне штатов и местных органов власти.

В некоторых источниках пишут, что уже сегодня ИИ-компании лоббируют больше, чем нефтяные и табачные корпорации.

Нам думается, что именно и только благодаря лоббистам на американском рынке искусственного интеллекта все еще не так плотно закручены гайки регулирования. При этом госзаказы уже стали многомиллиардными.

Пока лоббисты выбивают настолько большие подряды, защита пользовательских данных и сомнительные социальные эффекты от распространения ИИ не так сильно беспокоят законотворцев.

#аналитика #ии #статьи
👍43❤‍🔥2🔥2
Если вы все еще путаете ИИ-агентов и агентный ИИ, тогда мы идем к вам

В обзоре AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges авторы предлагают четкое разделение двух парадигм автономных систем:

ИИ-агент — одиночный модуль, основанный на LLM/LIM, выполняющий четко заданную задачу (автоответы, планирование, сбор и суммирование данных).

Интегрируется с внешними инструментами (API, базы, поиск) через цепочки запросов–действий–обновлений (ReAct, tool-calling). Подходит для узконаправленной автоматизации: чат-боты, фильтрация писем, отчеты, планирование встреч.

Агентный ИИ — система из нескольких специализированных агентов, которые кооперируются для достижения общей цели.

Использует динамическое разбиение задач, координацию (через шины сообщений или shared memory), персистентную память и агента-оркестратора. Способен на сложные, многоэтапные и непрерывные рабочие процессы: исследовательские ассистенты, логистика, медицинская поддержка

Зачем понимать разницу?

1. Правильный выбор архитектуры

Если задача простая и одношаговая (например, автоответы на входящие запросы или генерация кратких отчетов), достаточно ИИ-агента — это быстро, дешево, легко внедряется.

Для сложных, многоэтапных процессов (например, полная автоматизация обработки заявок с анализом, уточнением и передачей между отделами) нужен агентный ИИ, чтобы избежать узких горлышек и обеспечить надежную координацию всех шагов.

2. Экономия ресурсов и времени

Неправильное применение агентного ИИ для простой задачи приведет к избыточным вычислениям и затратам.

Применение ИИ-агента с узкой специализацией в слишком сложном сценарии обречет проект на частые подвисания и ошибки.

3. Управление рисками и безопасностью

В многоагентных системах сложнее контролировать, какие данные и как передаются между компонентами, что требует дополнительных мер защиты и аудита.

Простые агенты легче просканировать на уязвимости и обеспечить соответствие корпоративным политикам.

4. Гибкость и масштабируемость

ИИ-агент хорошо масштабируется горизонтально (добавляем больше однотипных экземпляров), но с ростом числа задач коммуникация остается минимальной.

Агентный ИИ масштабируется вертикально (увеличивается число и разнообразие агентов), что позволяет адаптироваться к растущей сложности процессов.

Помимо сравнительной таксономии, в статье обсуждаются ключевые проблемы обеих парадигм: недостаточная причинная обусловленность и поверхностное рассуждение в ИИ-агентах, а также усиленные риски сбоев координации и непредсказуемого поведения в агентном ИИ.

#ии #статьи
👍3🔥3❤‍🔥22
Опыт ЕС: как превратить данные из источника риска в экономический актив

Европейская комиссия прогнозирует, что экономика данных ЕС достигнет €829 млрд в этом году, а число специалистов в сфере данных превысит 10,9 миллиона человек.

Однако только около 30% компаний в ЕС активно используют внешние данные в своих бизнес-процессах, и еще меньше — извлекают из них прямую прибыль.

Главные барьеры — это юридическая неясность, риски утечек, отсутствие прозрачных механизмов оценки и доверия.

В статье Data Trading and Monetization: Challenges and Open Research Directions авторы рассматривают инициативы IDS-RAM и Gaia-X как то, что поможет преодолеть эти барьеры.

IDS-RAM обеспечивает архитектуру, где владельцы данных сохраняют полный контроль над условиями доступа и использования — вплоть до автоматической проверки соблюдения лицензионных ограничений.

Gaia-X, в свою очередь, объединяет более 350 компаний и институтов в рамках единой федеративной инфраструктуры, позволяя обмениваться данными между странами и отраслями по единым стандартам, включая соблюдение GDPR. Это делает возможным безопасный трансграничный рынок данных, а не просто разовые сделки.

В Fraunhofer Institute прикинули, что использование IDS-архитектуры позволит снизить время подготовки соглашений на 30–50%, а юридические издержки — до 70%.

Кроме того, переход от модели продажи датасета к модели data-as-a-service (например, подписка на потоковые данные или доступ к аналитике без раскрытия сырых данных) обеспечивает устойчивый доход и повторное использование активов.

Без описанных инициатив это практически невозможно.

Нам кажется, что инициативы вроде IDS-RAM и Gaia-X делают нечто большее, чем просто создание правовой базы для торговли данными. Подобные инициативы в умах директоров превращают данные из источника риска в полноценный экономический актив.

Если в компании данные воспринимаются не как актив, а как источник потенциальных убытков, это и становится главным барьером для монетизации.

Опять выходит, что все дело не в технических деталях, а в ментальности.

#деньги #статьи #исследования
🔥4👍32❤‍🔥1
Вы не представляете, сколько стоит доступ к персональным данным пассажиров американских авиакомпаний

Американская ARC (Airlines Reporting Corporation), принадлежащая крупнейшим авиакомпаниям вроде Delta и United, продала данные о внутренних авиаперелетах пассажиров федеральной службе CBP (Служба таможни и охраны границ США).

Данные включают имена, маршруты, информацию об оплате и передаются в рамках многолетнего контракта, подписанного в 2024 году. При этом CBP обязана не раскрывать, что именно ARC является источником информации. Это подтверждают опубликованные в статье документы, полученные журналистами 404Media через запрос FOIA.

Правозащитники бьют тревогу: вместо получения данных через суд или по ордеру, власти США просто покупают их у частных брокеров, обходя законодательные ограничения. Этот случай — пример того, как госструктуры США используют лазейку брокеров данных, чтобы вернуться к модели массового сбора информации.

Сама ARC позиционирует передачу данных как часть борьбы с преступностью и террористическими угрозами, но фактически это масштабный и скрытный рынок чувствительных данных.

С точки зрения монетизации — перед нами зрелая экономика данных. Есть поставщик, продукт и стабильный покупатель — государство. Именно оно здесь играет роль маркетмейкера: формирует спрос, платит за доступ, а не изымает данные напрямую.

Вот тут и хочется сказать:

Это резкий контраст с Россией, где данные чаще всего передаются властям в обязательном порядке, а попытки построить рынок ограничиваются административным регулированием.


Однако подождите. Знаете, сколько федеральная служба заплатила за доступ к миллиардам строк данных?

В июне 2024 года ARC получила $11025. И в мае 2025 года еще $6847.

Утверждать ничего не будем, но либо оставшиеся суммы где-то спрятаны так, что журналисты до них не докопались, либо эти платежи — просто формальность, а передать данные авиакомпании банально обязали.

Как ни крути, на практике для граждан разницы немного: и там и там государство получает доступ к личной информации.

Но в США хотя бы существует экономическая оболочка процесса — рынок, где данные, пусть и формально, становятся товаром. В России же данные чаще всего изымаются как ресурс, без возможности влиять на их оборот или использовать их экономически.

#безопасность #деньги #статьи
👍3🔥3😁21
OpenAI рискует потерять $20 млрд из-за конфликта с Microsoft

С 2019 года Microsoft вложила в OpenAI $13 млрд. Однако сегодня OpenAI хочет ослабить контроль Microsoft над своими продуктами и вычислительными ресурсами, но при этом заручиться поддержкой техногиганта в вопросе преобразования в коммерческую компанию.

Одним из предметов конфликта стала покупка OpenAI стартапа Windsurf, который занимается вайб-кодингом, за $3 млрд. Microsoft по контракту имеет доступ ко всей интеллектуальной собственности OpenAI, но последняя хочет закрыть доступ к технологиям Windsurf. Также идет спор о доле Microsoft в новой структуре OpenAI после преобразования: техногигант требует больше, чем OpenAI готова отдать.

Кроме того, компании теперь конкурируют и на рынке потребительских чат-ботов, и в корпоративных решениях. Год назад CEO Microsoft Сатья Наделла нанял конкурента Сэма Альтмана, чтобы создать конкурирующие модели внутри компании.

Без одобрения преобразования от Microsoft OpenAI не сможет привлечь новые инвестиции, выйти на биржу и потеряет порядка $20 млрд.

Нам думается, что все закончится тихо-мирно. Однако инсайдеры WSJ утверждают, что руководство OpenAI обсуждало подачу антимонопольной жалобы на Microsoft.

Будем посмотреть, чем закончится.

#ии #статьи
🤔4👍3🤝21
Бизнесу могут запретить создавать профайлы клиентов на базе персональных данных

Как пишут Ведомости, в России готовится законопроект, запрещающий автоматизированный профайлинг пользователей без отдельного согласия. Банки, маркетплейсы и телеком-компании больше не смогут собирать и анализировать данные из разных источников для персонализированного маркетинга, скоринга и таргетинга.

Все согласия на обработку должны будут проходить через ЕСИА или напрямую оператору. Изменения вносятся в статью 5 Федерального закона №152-ФЗ «О персональных данных».

Законопроект мотивирован борьбой с айти-мошенничеством: по данным МВД, в 2024 году зарегистрировано 380 300 преступлений, предусмотренных статьями 159, 159.3 и 159.6 УК РФ, что на 6,8% больше, чем в 2023 году. Ущерб составил ₽188 млрд — рост на 38%.

Минцифры утверждает, что цель инициативы — защита прав граждан и минимизация сбора данных.

Бизнес предупреждает: новые правила парализуют развитие технологий на основе данных. Компании уже вложили миллиарды в системы персонализации, и теперь они рискуют оказаться вне закона. Особенно сильно пострадают малые компании и стартапы, которым будет сложно соблюдать новые требования к администрированию и отчетности в ЕСИА.

Эксперты также отмечают, что в действующем законе уже запрещено объединять базы данных, обрабатываемые с несовместимыми целями. Новый запрет дублирует это положение, вводя дополнительные формулировки — «разные источники», «прогнозирование характеристик» — не определенные юридически, что создает риск правовой неясности.

Все это усложнит архитектуру сервисов, использующих машинное обучение, скоринг и таргетинг. Операторам придется пересматривать алгоритмы, наращивать юридическую и техническую нагрузку, а также отказываться от привычных моделей персонализации.

Предсказываем:

Сперва это выльется в дополнительные издержки для операторов данных и поставщиков услуг, а затем они переложат этот груз на плечи пользователей, повысив стоимость своих продуктов.

Если подумать, то пользователи из своего кармана заплатят за свою же безопасность. Это в лучшем случае.

#безопасность #статьи
👍3🔥3🤯21
Китайцы используют чемоданы для обучения ИИ-моделей

И нет, в чемоданах не ввозят чипы. Как пишет WSJ, все куда интереснее.

В марте четверо китайских инженеров прилетели в Малайзию с чемоданами, в которых хранилось 80 терабайт данных — таблицы, изображения, видео для обучения искусственного интеллекта.

В Малайзии компания арендовала около 300 серверов с мощными чипами Nvidia, недоступными в Китае из-за санкций США. Задача: обучить ИИ-модель за границей и вернуться с результатами.

С 2022 года США все жестче ограничивают экспорт продвинутых ИИ-чипов в Китай. В ответ китайские компании ищут обходные пути.

Одни пытаются использовать местные чипы, другие — закупать американские компоненты через третьи страны. Но все чаще данные просто вывозят туда, где есть нужное оборудование — в Юго-Восточную Азию и на Ближний Восток.

Бывший замглавы Бюро экспортного контроля Томас Кендлер отмечает:

Китай получает доступ к технологиям, не нарушая формально запретов, потому что физически не получает сами чипы.


Для маскировки китайские компании создают дочерние структуры в Малайзии, регистрируют их на местных граждан, разбивают данные на несколько жестких дисков и провозят их в разных чемоданах, чтобы не вызвать подозрений на таможне.

Вернувшись в Китай, инженеры привозят обратно сотни гигабайт готовых параметров моделей.

Это становится новой нормой:

Малайзия, Сингапур, Индонезия и Таиланд переживают бум дата-центров. Только в марте и апреле Малайзия импортировала ИИ-чипов и процессоров из Тайваня на $3,4 млрд. Nvidia активно продает десятки тысяч чипов странам Персидского залива, включая Саудовскую Аравию и ОАЭ.

#ии #статьи
👍6😁52🔥2
Нейросети вовсе не уравнивают людей, а увеличивают расслоение

GitHub проводил контролируемый эксперимент: группа программистов с Copilot завершала задачи на 55 % быстрее, чем без него.

Но если вы не знаете, зачем именно нужен этот код, как его безопасно внедрить в архитектуру, и где могут быть уязвимости — вы не инженер, а оператор промптов. LLM отлично масштабируют знание. Но и незнание они масштабируют точно так же — только быстрее и дешевле.

В 2023 году сгенерированный код Copilot попал в продакшн и случайно открыл публичный доступ к логам, содержащим персональные данные.

Все из-за одной сгенерированной мелочи, которую никто не проверил.

Инженеры все чаще перестают писать руками. На Reddit многие признаются, что полностью поручили написание кода Claude. Он и баги даже сам правит.

Звучит круто — но это путь к утрате инженерной интуиции. Значит, качество и устойчивость решений снижаются.

Почему тогда растут зарплаты инженеров?

В 2018 году McKinsey прогнозировал, что спрос на технологические навыки вырастет на 55% за 12 лет. К 2030 году на эти навыки придется 17% всех рабочих часов на планете.

В марте стало ясно, что спрос на инженеров данных вырос на 50% только за прошедший год. Ну и зарплаты инженеров за 2018-2023 выросли на 25%.

Стоп. Но разве нейросети не отнимают у людей рабочие места?

Отнимают. Но не у всех.

Стремительно падает доля джунов на рынке. В Amazon и Dropbox, массово сокращая сотрудников в 2023-2024 годах, прямо говорили: «Теперь ту же работу делает меньше людей с помощью ИИ-инструментов».

Сеньоры, используя новые инструменты, становятся круче, а джуны — слабее.

Как теперь стать сеньором?

Бунтовать против ИИ из-за потери рабочих мест — это к луддитам, мы к этому не призываем.

Нейросети, кажется, сломали механизм взращивания кадров.

Беда в том, что оператор ИИ, заменивший джуна-разработчика, не набирается нужного опыта и не становится мидлом-разработчиком.

То, что джуны не получают работу — не так страшно, а вот то, что они не получают опыт — настоящая угроза.

Учиться теперь нельзя просто по дороге. Опыт больше не набирается пассивно. Учиться нужно проактивно, осмысленно, через рефлексию и обратную связь. Потому что ИИ забирает у новичков главный ресурс — время на ошибки.

#ии #статьи #исследования
👍4🔥4❤‍🔥3
Пока они там у себя суетятся, мы тут уже монетизируем

В России работает уже более 130 отечественных ИИ-сервисов в разных сферах: от создания презентаций до оптимизации производственных цепочек.

В «Инке» представили карту российского генеративного ИИ — удобный каталог всех отечественных решений, уже меняющих бизнес-процессы. К карте прилагается детальный обзор.

Пока DeepSeek и OpenAI меряются бенчмарками и дерутся за глобальных пользователей, российские разработчики продуктов на базе искусственного интеллекта может только и рады.

Конкурировать за клиентов с мировыми гигантами не надо, ведь программа перехода на отечественное ПО создает достаточно спроса и на внутреннем рынке.

Парадоксально ярко цветут корпоративные решения: пока западные гиганты борются за создание универсального суперинтеллекта, российские разработчики уже монетизируют узкоспециализированные решения — от анализа звонков до генерации презентаций. 

#ии #статьи
👍5🔥4❤‍🔥3
OpenAI меняет свою структуру: что это значит и чем это грозит?

Сверху структура OpenAI как исследовательской лаборатории в 2015 году. Снизу примерная структура OpenAI на 2025 год.

Независимые исследователи опубликовали отчет об изменениях в OpenAI, в котором упрекают компанию в фокусе на выручке и снижении требований к безопасности ИИ-моделей.

Когда OpenAI создавалась в 2015 году, ее манифест звучал почти романтично: никакой погони за прибылью, только благо человечества. Некоммерческая миссия, кап на доходах инвесторов и обещание, что успех AGI не достанется узкой группе акционеров, а будет служить всем.

Сегодня все иначе. В 2025 году компания официально отказалась от ключевых принципов: снят потолок доходности для инвесторов, роль некоммерческого совета ослаблена, а сама структура переходит к Public Benefit Corporation — гибриду, который учитывает интересы общества, но все равно обязан заботиться о доходах акционеров.

Что это значит на практике?

- Инвесторы теперь смогут зарабатывать бесконечно много, а не в 100 раз больше вложенного.

- Некоммерческая часть больше не управляет компанией, а лишь назначает наблюдателей.

- Скорость разработки и коммерциализации ставится выше вопросов безопасности и этики, отмечают исследователи.

К чему это может привести?

- Усиление гонки вооружений на рынке ИИ: больше денег — быстрее разработки, но выше риск ошибок.

- Отчуждение от публичного интереса: не факт, что в будущем AGI принесет пользу всем, как было обещано.

- Снижение прозрачности: уже сейчас сотрудников принуждали к NDA под угрозой лишения доли, а требования к безопасности снижаются.

По сути, OpenAI повторяет путь многих стартапов Кремниевой долины: ради миссии вначале, а затем — ради прибыли. Это не обязательно плохо, но наивно полагать, что разработка AGI и дальше будет вестись только ради всеобщего блага.

Сейчас перед индустрией встает главный вопрос: кто должен контролировать технологии, которые потенциально могут изменить мир? Ответа пока нет.

#ии #безопасность #деньги #статьи
👍3🔥3❤‍🔥21
Путь в тысячу ли начинается с найма Chief Data Officer. Или нет?

Николай Валиотти на «Сабстаке» рассказывает, что если вы хотите стать data driven, то первым делом нанимать CDO или Head of Data на фултайм — фатальная ошибка.

Разбираемся, почему так.

Многие нанимают дорогого CDO на ранней стадии, а спустя полгода все еще видят хаос: данные в Excel, KPI непонятны, отчеты на решения не влияют.

Почему?

Потому что высокие затраты стратегию не компенсируют готовность компании эту стратегию проводить в жизнь. Это как пытаться откупиться от ребенка подарками — ему на самом деле нужно ваше внимание, а не деньги.

Попытка вбухать много денег в стратегию на ранней стадии приводит к тому, что появляются не практические изменения, а декоративные. Когда куда-то направляется неразумно много денег, то люди там стараются изо всех сил показать изменения, а не добиться их.

В реальности проблемы компаний чаще всего не стратегические, а чисто организационные:

- Каждый департамент считает по‑своему.

- Никто не понимает, какие метрики на самом деле отражают успех.

- Отчеты формируются вручную.

- На подготовку слайдов у аналитиков уходят часы.

- К моменту обсуждения данные уже устаревают.

Смена стратегии тут не поможет.

Как быть?

Вместо того, чтобы на раннем этапе пытаться проработать стратегию работы с данными на 3 года вперед, нужно сфокусироваться на результате, который можно получить на следующей неделе.

Решение:

Привлечь Fractional Head of Data — временного управляющего, который не будет строить многолетних планов, а прямо сегодня наведет порядок и выстроит базовую работу с данными.

Это быстрее, дешевле и эффективнее.

Fractional Head of Data может быстро привести к маленьким победам, которые сформируют у команды веру в данные, как в источник правильных решений.

По сути, fractional‑подход позволяет получить одновременно архитектора и исполнителя, который быстро строит работающую систему, а не предлагает лишь ее чертеж в виде стратегии на 3 года.

Такой эксперт поможет определить, какие данные и процессы действительно важны, выстроить прозрачную систему отчетности, а уже потом — спланировать, кого и когда нанимать, что можно отдать на аутсорс, а что стоит развивать внутри.

Вывод:

Если вы в самом начале пути, то решите сперва организационные и технические проблемы по работе с данными, и только затем нанимайте CDO. Иначе ему попросту нечем будет управлять.

#деньги #статьи
👍5🔥3❤‍🔥21