Progres Post
273 subscribers
37 photos
1 video
16 files
180 links
Как собирать, анализировать и зарабатывать на данных.

Присылайте новости: @progrespost_bot

Редактор: @honeybalism
Download Telegram
DataYoga.pdf
13 MB
Работаем с данными в позе собаки

Нашли крутую книгу от образовательного бренда DataYoga: «Дата йога: грамотная работа с данными».

Книга — источник подходов и советов по созданию визуальных форм ваших данных. Авторы учат создавать красоту из сложных хитросплетений абстрактных данных, задавать аналитические вопросы и разрабатывать интерактивные дашборды.

Темы книги:

- Разобраться в управленческих технологиях и видеть ключевые показатели эффективности визуально.

- Уметь правильно выбирать и настраивать виды визуализации под вашу задачу.

- Понимать пользователя и его поведение.

- Узнать как различные шрифты управляют вниманием, что такое изящность и какой шрифт подобрать для цифр.

- Как переносить стили художников и их цветовые палитры в дизайн своих информационных продуктов.

- Уметь различать 50 оттенков серого, знать их названия и понимать природу цвета, уверенно подбирать свои целевые палитры для данных.

- Различать зрительные иллюзии и понимать людей с особенностями восприятия.

- Уметь выстраивать аргументы за использование таблиц для работы с цифрами, и настаивать на применение визуализации для аналитических целей.

- Противодействовать когнитивным искажениям, знать их природу и не допускать ошибок визуализациях и презентациях.

- Освоить составление информативных заголовков, аналитических выводов и аннотаций, правильно размещать метаданные.

Мастрид для всех, кто занимается визуализацией данных.

Если бы не книга, редактор не пополнил бы свою коллекцию цитатами Йоги Берра:

В теории нет разницы между практикой и теорией. Но на практике она есть.


Кроме книги в DataYoga предлагают бесплатные марафоны по Qlik, Tableau, Yandex DataLens.

#аналитика
🔥5❤‍🔥3👍2👾2
Как в Росгосстрахе оценивают цифровую зрелость

В статье на Хабре авторы из Росгосстраха рассуждают о том, «Можно ли оценить эффективность цифровой трансформации или это просто дань моде?»

Мы прочитали, нам понравилось. Решили структурировать и суммировать то, как в у них там устроена цветовая дифференциация штанов дифференциация уровней цифровой зрелости.

Рассказываем:

1. Начальный уровень

- Инструменты и процессы: Ведущей практикой являются простые офисные программные средства — Excel, электронная почта, ручная обработка данных.

- Автоматизация: Практически отсутствует или ограничивается единичными сценариями (например, выгрузка отчетов вручную, без единой платформы).

- Стратегия: Нет сформулированного понимания ценности и целей цифровизации — решения принимаются интуитивно, на основании какой-то идеи руководства, но без долгосрочной дорожной карты.

- Организационная культура: Люди не привыкли к новым технологиям, процессы разрознены, отсутствует единое понимание, зачем нужна цифровизация, и кто за нее отвечает.

2. Развивающийся

- Инструменты и процессы: Внедряются базовые корпоративные системы (CRM, ERP), начинается сбор первичных данных, появляются первые попытки автоматизировать рутинные процессы.

- Работа с данными: Запускаются простейшие эксперименты с данными — выгрузка отчетов из CRM, аккумулирование мастер-данных, но без полноценной платформы для централизованного хранения и обработки.

- Автоматизация: Начало централизованной автоматизации отдельных процессов, но зачастую интеграция разрозненных систем выполнена лишь частично.

- Организационная культура: Формируются первые точки взаимодействия цифровой команды с бизнес-подразделениями, появляются ответственные за цифру, но глубины проникновения в процессы пока недостаточно.

- Измеримые показатели: На этом уровне цифровизация ключевых справочных и мастер-данных достигает порядка 50–60% и соответствует внутренней диагностике развивающегося состояния.

3. Продвинутый

- Инструменты и процессы: Компании начинают активно использовать BI-порталы, формируются сквозные сценарии построения отчетности и аналитики. Есть интеграция основных систем: ERP, CRM, BI, DWH, а иногда и элементы песочниц для машинного обучения.

- Работа с данными: Данные очищены, объединены и доступны в едином хранилище; налажены механизмы ETL/ELT, настроены пайплайны. Впервые появляются пилотные проекты с использованием технологий искусственного интеллекта (например, прогнозирование спроса, рекомендательные движки).

- Автоматизация: Достаточно высокая степень автоматизации рутинных задач, интеграция систем, снижение доли ручного труда при пересборке отчетов, своевременный контроль качества данных.

- Организационная культура и компетенции: Появляются гуру аналитики, базовые курсы по BI-инструментам охватывают значительное число сотрудников. Повышается вовлеченность: специалисты готовы обучаться и использовать новые решения, формируется среда data-driven decision making.

- Клиентский опыт: Цифровые каналы продаж работают стабильно, постепенно формируется омниканальная стратегия: клиенты могут переходить из офлайн-точек во внутрикорпоративное приложение и обратно без потерь данных.

4. Зрелый

- Инструменты и процессы: Цифровые решения охватывают весь жизненный цикл бизнеса: от привлечения клиента до послепродажного обслуживания. Используются большие данные, автоматика принимает участие в ключевых бизнес-процессах, а алгоритмы ИИ и ML регулярно обновляются и корректируются.

- Работа с данными: Устойчиво работают распределенные архитектуры (Data Mesh, Data Lakehouse); портрет клиента и картина процессов доступна всему руководству в режиме реального времени. Все данные проходят через систему качества и безопасности.

- Автоматизация: Автоматизированы не только рутинные задачи, но и значительная часть управленческих процессов (кредитный скоринг, динамическое ценообразование, автоматические взаимодействия с клиентами через чат-боты).
👍4🔥3❤‍🔥22👏1
- Организационная культура и компетенции: Высокая вовлеченность сотрудников, непрерывные информационные тренинги, четко сформированные роли Data Engineer, Data Scientist, Business Analyst. Культура постоянного экспериментирования: fail fast, learn faster.

- Клиентский опыт: Пользовательских болей почти нет: цифровая экосистема обеспечивает клиенту максимально простой путь — от оформления продукта до его получения и поддержки. NPS находится на высоком уровне благодаря технологической гибкости и быстрому отклику на запросы.

Итого:

Каждый следующий уровень не просто добавляет три-четыре новых инструмента, а качественно меняет подход работы с данными и принятия решений. Ключевая дифференциация между ними заключается в глубине встроенности цифровых практик:

- Наличие системы и стратегии: от отсутствия единого понимания до четко артикулированной долговременной программы.

- Степень интеграции: от изолированных точечных решений до работающей экосистемы, где данные легко передаются между различными компонентами.

- Роль данных в принятии решений: от интуитивного подхода к полноценному data-driven.

- Культура и компетенции: от усталого отношения к айти-инициативам до активного обучения и генерации внутренних точек роста со стороны сотрудников.

#аналитика #статьи
4🔥3👌3❤‍🔥2
Инсайты из 1000 бесед с командами дата-аналитиков

Рассказываем самое интересное из статьи Миккеля Денсё Data about data from 1,000 conversations with data teams, в которой автор делится инсайтами, полученными из 1000 бесед с дата-командами на платформе Synq.

1. DWH как центр управления бизнесом

Раньше DWH использовались только для сводных отчетов. Сегодня туда сводят данные из разных систем, чтобы запустить ML-модели, автоматизировать рекламные кампании и готовить отчеты.

В одном крупном интернет-магазине из-за сбоя в канале передачи данных неправильные CLTV-метрики показали, что на рекламные кампании можно тратить больше. За пару часов некорректного запуска пайплайна команда потратила на рекламу лишние $100 000.

Если DWH влияет на бизнес-решения и доход, к нему нужно относиться как к продакшн-инфраструктуре. Внедрите SLA-алерты, четкие процессы инцидент-менеджмента и метрики качества данных: процент успешных загрузок, время восстановления после ошибки.

2. Масштаб и цена заблуждения при росте стеков

В этом исследовании 20% команд, которые используют DBT (data build tool), отметили, что в их проекте более 1000 моделей. Еще 5% проектов имеют свыше 5000 таких моделей.

Модель в DBT – это SQL-скрипт, который преобразует сырые данные в готовые таблицы для аналитиков или других систем.

В Siemens один инстанс DBT обслуживает более 800 отдельных проектов. В этой экосистеме работают 550 дата-инженеров и аналитиков. Ежедневно запускается около 2500 задач преобразования данных и обрабатывается примерно 85 000 DBT-моделей. При таких объемах невозможно помнить, кто отвечает за каждую модель или отчет.

Командам нужны карты ответственности – документы, где указано, кто владеет каждой моделью и дашбордом. Без этого легко упускать из виду устаревшие модели, дубли и неиспользуемые отчеты.

3. Тестирование как инструмент доверия, а не галочка

Раньше данные проверяли на простой уровень качества: NOT NULL и UNIQUE, чтобы убедиться, что нет пустых или дублирующих записей. Сейчас нужны тесты, которые отражают бизнес-логику и специфику источников.

На маркетплейсе, где раз в неделю обновляют ML-модель прогнозирования цен на автомобили, команда блокирует выгрузку в AWS S3, если исторические данные не полные за последние 12 месяцев. Для обучения модели важна не только свежесть, но и непрерывная временная серия.

В медийной компании данные о кликах и показах поступают от тысяч партнеров: поток достигает сотен тысяч строк в день. Если хотя бы один партнер задержит данные, дашборды окажутся пустыми. Команда ежедневно сравнивает фактический объем строк с ожидаемым диапазоном, чтобы вовремя обнаружить исчезновение данных, а не исправлять последствия нерегулярной поставки.

Пора понять, что DWH — не источник отчетов, а центр управления бизнесом. Так-то.

#аналитика #статьи
👍5❤‍🔥4🔥31
Преподаватели вузов обучаются работе с ИИ

В правительстве сообщили, что повышение квалификации в сфере ИИ с 2022 года прошли уже 5400 преподавателей вузов.

Вроде бы здорово, но есть нюанс: всего в российских вузах работает аж 220 тысяч преподавателей. Так что это пока капля в море.

Студенты, наверняка, и без преподавателей разберутся, как работать с ИИ. Но вряд ли так же массово, как в Китае, где работу с ИИ включают в начальные и средние классы.

#ии
👍3👏32❤‍🔥2
Как разные LLM справляются с преобразованием запросов на естественном языке в SQL

В Tinybird опубликовали результаты бенчмарка по генерации SQL-запросов для 22 популярных моделей.

Топ 5:

1. claude-opus-4

2. claude-3.7-sonnet

3. o3-mini

4. claude-3.5-sonnet

5. gpt-4.1

Здорово, что авторы подробно описали методологию и позволяют сравнить результаты всех моделей со средними результатами человека (процентные значения в крайних правых столбцах).

По клику на название модели в таблице можно посмотреть подробности результатов.

#ии #sql
❤‍🔥5👍4🔥3🏆3
Шифрование больших данных — это не издержки, а экономия

На SSRN опубликовали исследование о том, как шифрование помогает экономить миллионы долларов компаниям, использующим большие данные.

Название, если не боитесь сломать язык: «Изучение экономического влияния утечек данных и роли технологий шифрования в снижении финансовых потерь для компаний, использующих аналитику больших данных для персонализированного маркетинга».

Кейсы

В исследовании разобраны 2 примера.

Первый:

Хакеры взломали базу онлайн-ритейлера на 50 млн клиентов с адресами, именами и номерами кредиток. Данные были зашифрованы с помощью AES-256, и злоумышленники не получили к ним доступ.

Компания избежала убытков в $200 млн: $120 млн на штрафы GDPR (до 4% годового оборота), $50 млн — на юридические издержки и компенсации и $30 млн — на восстановление репутации.

Среднее время восстановления (MTTR) сократилось на 61%: с 72 до 28 часов, потому что не требовалась полная перестройка хранилищ и индексов: достаточно было заменить ключи и провести тестирование среды.

Второй:

В аналитической платформе банка было 80 млн записей о транзакциях. Внедрение AES-256 для данных в покое и TLS 1.3 для данных в пути сократило расходы на ликвидацию последствий взлома на 45%: с €90 млн до €49,5 млн.

MTTR снизился на 53%: с 96 до 45 часов. Ежеквартальные затраты на аудит ключей и протоколов составляют всего €50–75 тысяч, а каждые полгода ротация ключей обходится примерно в €30 тысяч.

Выводы

Современные протоколы шифрования AES-256 для данных в покое и TLS 1.3 для данных в пути снижают затраты на ликвидацию последствий утечек в среднем на 60%, а также сокращают время простоя систем на 50–60%.

Кроме прямой экономии на штрафах и юридических издержках шифрование повышает лояльность клиентов. Компании, раскрывающие меры защиты, удерживают на 15% больше пользователей. Повышенная скорость обработки данных дает прирост выручки за счет более точной персонализации. Даже при ежегодных расходах на поддержку шифрования окупаемость достигается уже после первой серьезной утечки.

Не то чтобы мы всего этого не знали, но теперь у нас есть пруфы.

#деньги #исследования
👍4🔥4❤‍🔥32
Перспективы развития рынка СУБД до 2031 года

В ЦСР выкатили исследование «Рынок систем управления и обработки данных в России: текущее состояние и перспективы развития до 2031 года».

Разбираемся в главных инсайтах и прогнозах.

Объем рынка

Общая оценка по итогам 2024 года — ₽90 млрд. К 2031 году объем рынка вырастет на 180% и составит ₽251 млрд.

Проекты «Экономика данных» (₽1,4 трлн) и «Цифровое государственное управление» (₽0,5 трлн) нуждаются в больших цифровых платформах для всех ключевых отраслей. Так что этот сценарий кажется даже не оптимистичным, а вполне себе базовым.

Топ 10 компаний

На десятку лидеров приходится 28% рынка.

1. PostgresPro — 10,4% (₽9,3 млрд)

2. Группа Arenadata — 6,7% (₽6 млрд)

3. Yandex Cloud — 2,5% (₽2,2 млрд)

4. DIS Group — 2,2% (₽2 млрд)

5. Тантор Лабс — 1,5% (₽1,4 млрд)

6. VK Tech — 0,8% (₽0,7 млрд)

7. Ростелеком — 0,7% (₽0,6 млрд)

8. СберТех — 0,3% (₽0,3 млрд)

9. Газинформсервис — 0,3% (₽0,3 млрд)

10. Orion Soft — 0,2% (₽0,2 млрд)

Импортозамещение

В 2024 году доля продаж зарубежного ПО на рынке СУБД и сервисов составила около 10%, при этом в инсталлированной базе все еще более 60% активных СУБД — зарубежные решения.

Около 58% опрошенных считают, что западные вендоры могут вернуться на российский рынок до 2031 года, но уже не на доминирующие позиции.

К 2031 году российские вендоры могут захватить до 99% новых продаж СУБД, однако высокий уровень установленной базы западных решений сохранится.

Импортозамещение останется главным драйвером роста до 2027 года, после чего ключевыми станут ИИ-технологии, цифровизация отраслей и экспорт российских решений в дружественные страны.

#субд #деньги #исследования
🔥8❤‍🔥5👍5
Начинайте внедрение ИИ с честного разговора о качестве ваших данных

Генеративный ИИ стал катализатором, который обнажил старую, но до сих пор нерешенную проблему — плохое качество корпоративных данных. Пока бизнес-группы требуют внедрения ChatGPT и других моделей, CDO и CTO шепчут: «С такими данными это будет катастрофа».

По данным Ataccama, 68% дата-стратегов называют качество данных ключевой проблемой CDO. И это не просто внутренняя возня: грязные данные приводят к ошибочным выводам, снижению ROI, срывам кампаний и провалам ИИ-проектов.

Только 33% компаний добились ощутимого прогресса с ИИ. Остальные буксуют из-за ошибок в адресах, пропущенных полей и устаревших систем, которые не справляются с потоками данных.

CEO Ataccama Майк Маки напоминает:

ИИ настолько хорош, насколько хороши данные, на которых он основан.


Качество данных стало приоритетом №1 на 2025 год: об этом заявили 51% компаний. Особенно остро эту задачу ощущают страховые (68%) и дата-гавернанс команды (59%). Параллельно 77% организаций уже видят первые выгоды от ИИ, но только там, где данные под контролем.

Проблема не только в технологиях, но и в культуре. По данным Bean & Davenport, 92% опрошенных считают, что главный барьер для ИИ — не технологии, а люди и процессы. Пока ИИ внедряется, 43% компаний все еще борются с базовыми задачами: приватностью, безопасностью и этическими рисками.

Не вините ИИ в плохих результатах. Он просто показывает, насколько уязвимы мы без доверия к данным. Это лакмус. Если кажется, что он не работает, возможно, вы просто не знаете, в каком состоянии ваши данные.

#ии #исследования
👍4🔥4❤‍🔥32
Считаете, что ваши данные при передаче третьей стороне защищены? Ну и зря

Скандалы, интриги, расследования.

В федеральном законодательстве США есть лазейка. Регуляторы могут получить доступ к вашим личным данным без ордера — если эти данные хранятся у третьей стороны.

Сейчас Верховный суд США рассматривает резонансное дело Джеймса Харпера против главы Налоговой службы США Дугласа О’Доннелла. В деле фигурирует Third-Party Doctrine. На русский это можно перевести как «Доктрина отказа от конфиденциальности при передаче данных третьим лицам».

В 2016 году налоговая провела масштабный сбор данных, потребовав от криптобиржи Coinbase записи транзакций более чем 14 000 клиентов платформы. После клиент Coinbase Джеймс Харпер получил письмо от налоговой с обвинением в занижении доходов от криптовалют.

Харпер обвинение отрицает. Он узнал, что налоговая без ордера получила доступ к его журналам транзакций, адресам кошельков и публичным ключам.

Юристы Харпера заявили, что налоговая нарушила его конституционные права, в частности четвертую поправку, которая защищает от необоснованных обысков и изъятий.

Суды низших инстанций несколько раз отклоняли иск Харпера, ссылаясь на ту самую Third-Party Doctrine, основанную на двух решениях Верховного суда США 1970-х годов. Тогда суд постановил, что «человек не может рассчитывать на неприкосновенность данных, которые он добровольно передал третьим сторонам».

После апелляции суд постановил, что записи Харпера принадлежат Coinbase, и потому подпадают под исключение из действия четвертой поправки.

Это вообще законно?

Формально все законно. С точки зрения гражданских прав — спорно.

Ордер обязателен только при физическом обыске или прямом вмешательстве в частную жизнь. Если же информация хранится у сторонней компании, ее можно запросить административно, без суда. Так что это не халатность налоговой, а особенности правовой системы.

На чем настаивают юристы Харпера:

Эта доктрина имела смысл в 1970-х, когда никаких персональных данных в сети не водилось. Но в 2025 году почти у каждого гражданина США есть обширный цифровой след.

Юристы утверждают, что Харпер имеет право на «разумное ожидание конфиденциальности своих финансовых данных».

Почему?

Ибо Верховный суд более 7 лет назад в деле Карпентера против США решил, что данные геолокации телефона частично защищены, а уж детализированные финансовые записи заслуживают не меньшей защиты от обысков без ордера.

Выходит, что не все данные подлежат автоматической передаче — вопрос в том, какие именно. Именно это и должен прояснить новый судебный прецедент.

Институт Катона подал в Верховный суд amicus curiae в поддержку Харпера, заявив, что Third-Party Doctrine угрожает праву американцев на неприкосновенность частной жизни.

Если Верховный суд поддержит налоговиков, это создаст прецедент, при котором любые данные, хранящиеся у сторонних компаний, окажутся вне зоны защиты четвертой поправки. Теоретически это может коснуться всего: от банковских счетов до истории чатов.

Если же суд встанет на сторону Харпера, это ограничит действия государственных органов и ужесточит требования к доступу к цифровым данным, даже если они формально не находятся у пользователя.

В России же уже на этапе законодательного оформления банковской тайны, закона о персональных данных и налогового кодекса изначально закладывается идея, что определенные государственные органы (прежде всего ФНС) вправе получать данные без судебного решения.

То есть никакого сюрприза в том, что ФНС может обратиться в банк за выпиской, в российском законодательстве нет — напротив, все открыто и закреплено.

#безопасность
👍6❤‍🔥4🔥4
Одними айтишниками цифровую трансформацию не провести

Инвестиции в цифровые инициативы и платформы для управления данными растут. Однако по данным Gartner, меньше половины таких проектов достигают бизнес-целей.

Главная причина — цифровую трансформацию замыкают внутри айти, оставляя по ту сторону всех остальных: бизнес-руководителей, аналитиков, маркетинг, финансы, продуктовые команды.

Успешные компании действуют иначе: вовлекают в работу с данными всех, кто влияет на бизнес, и получают в 2 раза больше эффекта. Их называют Digital Vanguards — и у них стоит поучиться.

Только 48% цифровых инициатив в мире достигают бизнес-целей. У Digital Vanguards этот показатель — 71%. Они делают два принципиально важных шага:

1. Разделяют ответственность за проекты между CIO и другими топ-менеджерами.

2. Создают условия, чтобы бизнес-команды работали с данными и технологиями напрямую, а не через заявки в айти-отделы.

Зачем подключать кого-то, кроме айтишников

1. Только бизнес может точно сформулировать, какие данные нужны для принятия решений, где искать инсайты, что измерять. Без этого айтишники работают вслепую.

2. Если каждый дашборд, отчет или модель надо заказывать через айти-отдел, процесс тормозится. Подключая бизнес, компании дают ему инструменты прямо в руки.

3. Визуализация происхождения данных, доступность диаграмм и отслеживаемость истории данных повышают доверие к ним — особенно если это доступно не только инженерам, но и бизнесу.

4. Когда топ-менеджеры участвуют в создании цифровых решений — они не просто клиенты, они соавторы. Это повышает вовлеченность, инициативность и фокус на результате.

Если хотите, чтобы инвестиции в данные приносили результат — дайте бизнесу инструменты, знания и право действовать, а не возможность оставить заявку для айтишников на получение отчета или создание очередного дашборда.

#аналитика #исследования
🔥43👌3👍2
В словосочетании Data Driven нет слова Big

Почему?

Потому, что данные не обязательно должны быть большими, чтобы принимать решения на их основе.

Это самое интересное, что сказал в своем интервью Михаил Нетук, руководитель аналитики в Литресе.

В остальном там мало интересных деталей. Но эту мысль стоит взять на вооружение всем, кто откладывает переход к принятию решений на основе данных из-за того, у них нет больших данных.

Не откладывайте. Работайте с тем, что есть.

#статьи
❤‍🔥5👍5🔥3
Яндекс выложил в открытый доступ Yambda

Это один из крупнейших в мире открытых датасетов для разработки и тестирования рекомендательных систем.

Какие данные внутри?

В датасете 5 млрд действий, собранных с 1 млн пользователей на 9 млн треков в Яндекс-музыке:

- Прослушивания

- Лайки и отмены лайков

- Дизлайки и отмены дизлайков

- Аудио-эмбеддинги треков, связи трек-артист-альбом

Все действия разделены метками на органические и те, что вызваны рекомендациями.

Все это в формате Apache Parquet, что удобно для Pandas/Polars.

Есть урезанные версии на 500 и 50 млн действий для разных вычислительных мощностей.

Кому пригодится?

- Исследователям и разработчикам рекомендательных систем для тестирования новых моделей в условиях, близких к продакшену.

- Студентам и энтузиастам для изучения принципов работы рекомендаций на реальных больших данных.

- Инженерам для бенчмаркинга своих алгоритмов против предоставленных Яндексом бейслайнов.

Подробности читайте на Хабре.

Сам датасет забирайте на Hugging Face.

#ии #статьи
❤‍🔥4👍3🙏2
Мы искали и нашли: мастрид для тех, кто интересуется ИИ-агентами

В IBM Consulting опубликовали мощный и фундаментальный аналитический отчет по агентному ИИ в финансовом секторе. Если планируете внедрять ИИ в корпоративные бизнес-процессы, обязательно прочитайте.

Вот, про что узнаете:

- Текущий суперцикл ИИ, ключевые возможности агентных систем в финансах и основные вызовы, требующие новых подходов к управлению рисками и комплаенсу.

- Эволюция от RPA и чат-ботов до современных LLM-агентов: из каких компонентов состоят агенты (модель, инструменты, слой рассуждений и памяти) и какие сценарии оркестрации нескольких агентов возможны.

- Уникальные риски агентных систем (несоответствие целей, автономные действия, неправильное использование API, ползучие полномочия, обманчивость, предвзятость, дрейф памяти и моделей, проблемы объяснимости, уязвимости безопасности, каскадные эффекты, операционная устойчивость, конфликт между агентами и коллюзия) и ключевые контролы для каждой категории.

- Как встроить оценку рисков и требования комплаенса уже на этапе проектирования (shift-left), какие корпоративные контролы и guardrails нужны, как выстроить централизованный мониторинг, систему управления данными и повысить ИИ-грамотность сотрудников.

- Примеры system cards (OpenAI Operator, Microsoft 365 Copilot), чтобы понять, какие метрики и сведения должны предоставлять вендоры, а также какие роли и обязанности несут поставщики, разработчики и эксплуатационные команды.

- Краткий чек-лист для формирования требований при выборе агентных решений: безопасность, соответствие стандартам, прозрачность моделей, SLA, вопросы приватности и то, как оценивать поставщиков с точки зрения рисков.

- Примерный набор внутриорганизационных ролей (Data Steward, Risk Manager, Security Analyst, AI Ethicist, Product Owner и так далее) с их зонами ответственности при разработке, внедрении и поддержке агентных систем.

Очень круто, что кто-то не просто объяснил, что такое агентный ИИ, чем он отличается от генеративного ИИ, но и погрузился в тему рисков и механизмов их минимизации.

Делитесь со всеми причастными.

#ии #аналитика
4👍4❤‍🔥31
Кажется, мало кто переживает по поводу безопасности при внедрении ИИ

В Коммерсанте пишут, что из 43% компаний, которые уже внедрили нейросети в свои процессы, только 36% обеспечили их защиту.

Может, это халатность, а может, все ждут, пока в Минцифры опубликует «Концепцию развития регулирования ИИ до 2030 года»:

Сейчас доработка документа почти завершена, в ближайшее время мы согласуем ее с другими ведомствами.


При этом в AppSec Solutions предупреждают:

Особенно уязвимыми становятся ИИ-ассистенты, встроенные в корпоративную инфраструктуру. Они получают доступ к клиентским базам, внутренним документам и системам управления и могут стать источником утечек


Кажется, что всем стоит поторопиться: регуляторам с требованиями, а бизнесу с внедрением протоколов безопасности, ибо в России растет количество исков из-за ИИ:

В 2021 году таких исков было 112, а в 2024 году их было уже 292. Совокупная сумма исковых требований по уже рассмотренным делам превышает ₽1,7 млрд.

В большинстве случаев — это споры, касающиеся авторского права. На втором месте иски, связанные с защитой прав потребителей.

#ии #безопасность
👍43❤‍🔥2🔥2
Как выиграть Премьер-лигу с помощью искусственного интеллекта и больших данных

За Ливерпуль. Не на приставке, в реальности.

В преддверии завтрашнего финала Лиги Чемпионов делимся интересностями про большие данные в футболе и книгой Иана Грэма «Как выиграть Премьер-лигу».

С 2012 по 2023 год Грэм работал директором по исследованиям футбольного клуба Ливерпуль. Его пребывание на посту совпало с периодом наибольшего успеха клуба с 1980-х годов, включая победу в Премьер-лиге в 2020 году — первый чемпионский титул Ливерпуля после мучительных 29 лет.

Кстати, месяц назад Ливерпуль снова досрочно стал чемпионом Англии.

Почитать книгу на русском можно бесплатно. Любителям футбола горячо рекомендуем.

Кратко о том, к чему привела цифровая трансформация футбольной команды:

- Сотрудничество DeepMind с футбольным клубом Ливерпуль привело к созданию TacticAI, предлагающего тактические решения, которые в 90% случаев эксперты предпочитают традиционным методам.

- TacticAI представляет собой значительный шаг вперед в использовании алгоритмов машинного обучения для понимания стратегических игр, особенно с упором на угловые удары. Благодаря тщательному анализу данных более чем 7000 угловых ударов, выполненных в сезоне Премьер-лиги, система была обучена предсказывать траекторию мяча с впечатляющей точностью 78%.

Но это результаты, а вот путь к ним изложен в книге, сохраняйте и делитесь с друзьями перед походом в спорт-бар.

Ну и не относите деньги букмекерам, лучше делайте ставку на данные. Оле-оле!

#ии
🏆6👏31❤‍🔥1
Российский рынок СХД в 2025 году

В CNews опубликовали карту и обзор российского рынка СХД, а в Аквариусе — исследование практики использования СХД в российских компаниях.

Разбираемся, что да как.

По оценке CNews, объем всего российского рынка СХД в 2024 составил ₽50 млрд, а в 2025 вырастет на 8% до ₽54 млрд.

При этом спрос смещается в пользу отечественных решений. Если в 2024 только 34% крупных компаний использовали российские СХД, то в планы закупок на 2025 российские СХД включили уже в 41% таких компаний. Доля иностранных решений, наоборот, снизилась с 55% до 31%.

В опросе 75% респондентов назвали приоритетной задачей виртуализацию, 73% — файловые хранилища, а 63% — резервное копирование, что подчеркивает многообразие сценариев использования.

По данным IDC, ключевым драйвером мирового рынка СХД остается экспоненциальный рост объемов данных. Может и так. Но куда важнее понимать качественные, а не количественные изменения на рынке:

Главным трендом первой половины 2025 стало резкое смещение к объектным хранилищам, которые из дополнительного решения превратились в самый востребованный сегмент. Они позволяют консолидировать горячие и холодные данные в рамках единого пула, снижая TCO и обеспечивая высокие показатели IOPS за счет параллельной архитектуры.

С одной стороны, по данным опроса Аквариуса, уже сейчас 89% компаний, использующих российские СХД, довольны качеством решений. С другой стороны, в CNews говорят, что хотя российские СХД активно догоняют западные аналоги, у них все еще существуют узкие места:

- Ограниченная горизонтальная и вертикальная масштабируемость.

- Более узкий функционал управления.

- Отсутствие полноценного GUI.

Это все еще вынуждает некоторых заказчиков обращаться к импортным решениям в самых критичных сценариях.

Однако господдержка работает и создает благоприятные условия для развития отечественных продуктов. По прогнозам, в 2025–2026 спрос на российские СХД в сегменте начального и среднего уровня вырастет ещё на 30–40%.

#деньги #исследования
❤‍🔥4👍3🔥3
В чем отличия и зачем вообще отличать Data Management от Data Governance

Data Governance — это про стратегию. Принципы, стандарты и правила работы с данными на всем жизненном цикле. Data Governance определяет роли и ответственность сотрудников, устанавливает требования к качеству, доступу и безопасности.

Data Management — это про тактику. Техническое исполнение политик и процедур, заданных в рамках Data Governance. Data Management включает создание и поддержку ETL/ELT-пайплайнов, администрирование каталога данных, контроль доступа, управление хранилищами и озерами данных.

Как объясняют в Tableau:

Между Data Management и Data Governance есть сходства. Оба направления влияют на то, как данные используются в компании Однако все волшебство в том, как их различия дополняют друг друга.

Data Governance разрабатывает чертеж здания, а Data Management отвечает за его возведение. Конечно, здание можно построить и без плана, но это будет гораздо менее эффективно и надежно.


Почему нельзя смешивать одно с другим

1. Разные уровни ответственности и задач. Data Governance задает «что и зачем»: какие данные нужны, кому их можно давать и при каких условиях, какие метрики качества обязательны. Data Management решает «как именно»: разрабатывает техническую архитектуру, внедряет процессы, следит за исполнением политик и оперативно исправляет ошибки.

2. Прозрачность и контроль. Разделение ролей позволяет избежать конфликта интересов. Когда стратегические решения принимает одна группа, а техническую работу выполняет другая, проще отследить, что политика действительно соблюдается, и вовремя заметить риски

3. Соответствие нормативным требованиям. В крупных организациях (особенно в регулируемых отраслях) часто требуется формально разграничивать тех, кто разрабатывает правила, от тех, кто их выполняет. Это критично для внешнего аудита и для уменьшения юридических рисков.

4. Гибкость и масштабируемость. Разделение дает возможность масштабировать обе функции независимо: регламентирование может сосредоточиться на новых бизнес-инициативах и изменениях законодательства, а управление — на оптимизации технических процессов и внедрении новых инструментов.

5. Повышение эффективности. Когда сотрудники точно знают свои зоны ответственности, снижается дублирование усилий. Регламентирование фокусируется на долгосрочных целях и стандартах, а управление оперативно реагирует на технические задачи без перекрытия по стратегическим вопросам.

Это всегда отдельные, но всегда тесно взаимодействующие дисциплины.
❤‍🔥6👍4🔥3🙏2
Почему фактический бюджет на внедрение BI в 2-4 раза выше запланированного

Ребята из GlowByte в статье на Хабре разобрали причины.

Помимо очевидных расходов на лицензии и оборудование, существуют затраты на интеграцию, доработку отчетов, миграцию данных, тестирование, обучение и поддержку. В 80% проектов фактический бюджет оказывается в 2-4 раза выше запланированного, а до 40% расходов и вовсе изначально не были предусмотрены сметой.

Если собрать в кучу разрозненные подсчеты авторов статьи, получится примерно следующее:

1. Интеграция с существующими системами (ERP, CRM): 20-40% от базового бюджета

Компании часто полагают, что штатные коннекторы из коробки справятся с задачей, и не закладывают дополнительные ресурсы на анализ форматов, разработку адаптивных API и обработку ошибок при нестабильности источников.

2. Подготовка и перенос исторических данных: 10-15% от базового бюджета

Руководство склонно считать, что данные просто выгрузятся из старых систем, не учитывая потребности в очистке, нормализации и многократных тестовых прогонах, что приводит к недооценке трудозатрат на валидацию и исправление дырявых записей.

3. Настройка ETL-процессов: 30-35% от базового бюджета

Часто исходят из предположения, что стандартные схемы загрузки подходят под любые сценарии, и не предусматривают времени на адаптацию бизнес-правил, переработку справочников и доработку конвейеров под уникальную структуру данных.

4. Кастомизация отчетов и дашбордов: 20-25% от базового бюджета

Компаниям кажется, что типовых шаблонов достаточно, поэтому они до последнего откладывают обсуждение специфических KPI и интерактивных элементов, из-за чего потом приходится перерабатывать функциональные решения на коленке.

5. Многоступенчатое тестирование (unit-, интеграционные и UAT-сценарии): 10-15% от базового бюджета

Полагают, что можно сэкономить время за счет сокращения тестовых итераций, не учитывая, что обнаружение ошибок на продакшене оборачивается простоем и откатом, который в разы дороже любого планового QA.

6. Ежегодная поддержка и развитие BI: 15-20% от первоначального бюджета

Менеджеры иногда считают, что после запуска, когда проект сдан в эксплуатацию, деньги больше не нужны, и не закладывают в смету расходы на мониторинг, апдейты, обучение новых сотрудников и расширение инфраструктуры, хотя без этого BI быстро теряет актуальность.

Мораль:

Если недосчитать бюджет до начала работ, то после вы недосчитаетесь ROI.

#деньги #аналитика #статьи
❤‍🔥4👍4🔥3
Барометр открытых данных все еще глобальный, не переживайте

Если вы интересуетесь открытыми данными в разных странах, то знаете про Global Data Barometer. Если нет, рассказываем: это международный проект, оценивающий, как страны управляют данными, обеспечивают к ним доступ и используют их во благо общества.

На сайте публикуются отчеты и интерактивные инструменты для сравнения показателей управления данными, инфраструктуры и прозрачности между странами и регионами.

В новом отчете Global Data Barometer опубликованы данные только по 43 развивающимся странам Южной Америки и Африки. Многие начали сетовать на то, что отчет перестал быть глобальным. Это не так — просто теперь он будет выпускаться частями. Данные по 120 странам Европы, Азии и других регионов подвезут к концу 2025 или началу 2026 года.

Основные выводы отчета

В Африке отмечен прогресс в создании нормативных актов, однако на практике реализация этих норм затруднена из-за ограниченных ресурсов, слабой инфраструктуры и отсутствия единой системы идентификаторов.

В Латинской Америке и Карибском регионе сильны институциональные структуры, но слабая координация между ведомствами мешает эффективному обмену данными.

Наше скромное мнение

Думаем, что настоящих причин у проблем с данными в этих регионах две:

1. Бюджеты на развитие цифровой инфраструктуры часто уступают другим приоритетам, а квалифицированных специалистов по анализу данных и ИИ катастрофически не хватает.

2. Исторически эти регионы сталкиваются с высокой политической нестабильностью и частой сменой властей, что не позволяет доводить начатые инициативы до конца и создает препятствия для долгосрочного планирования.

Ну не едут в Африку крутые спецы по работе с данными. Там крокодилы, львы и гориллы.

#аналитика #исследования
👍5❤‍🔥3👏2🔥1
Ротшильд, поражение Наполеона при Ватерлоо, коронавирус и работа с данными

Сегодня пост не про большие данные, а скорее про малые, но под большим контролем.

На Форбсе вышла статья про гейткипинг: термин описывает контроль доступа к данным, осуществляемый определенными людьми в своих интересах.

Разбираемся на примерах, что это такое и как работает.

Гейткипинг еще называют теорией привратника. Важнейшими объектами, подпадающими под определение гейткипинга, выступают СМИ, где привратники — это главные редакторы, пиарщики, продюсеры и журналисты. О влиянии на мир моды главного редактора Vogue Анны Винтур даже снимают фильмы. 

Гейткипинг может быть как положительным, так и отрицательным механизмом.

Все зависит от контекста и мотива:

Ограничение доступа к порносайтам для несовершеннолетних или рецензирование научных статей — очевидно положительные механизмы.

Когда журналист освещает какой-то конфликт и дает возможность высказаться только одной из сторон — это, напротив, отрицательный гейткипинг.

Похоже на цензуру, но есть разница. Цензура всегда подразумевает насильственное или властное ограничение свободы слова, тогда как гейткипинг — более широкий понятийный инструментарий отбора, который не всегда преследует криминальные или антиобщественные цели.

Теперь к интересным историческим примерам.

По легенде, в июне 1815 года Натан Ротшильд, имея разветвленную сеть агентов и курьеров по всей Европе, первым получил сообщение о поражении Наполеона у Ватерлоо — якобы с помощью голубиной почты или особого гонца, прибывшего в Лондон раньше официальных депеш.

Узнав о поражении, он поспешно распродал британские гособлигации, спровоцировав панику на рынке и падение цен, а затем выкупил их по значительно сниженной стоимости: когда же новость об успехе англо-голландских войск была официально подтверждена, стоимость облигаций резко выросла, и Ротшильд заработал на этой операции целое состояние.

Есть и более свежий пример.

В июле 2021 года редакцию одного из самых авторитетных медицинских журналов The Lance обвинили в сокрытии важной информации о COVID-19: редакторы не сразу опубликовали данные о том, что коронавирус передается от человека к человеку. 

С одной стороны, возможности привратников, которые решают, какие данные попадут к общественности, а какие нет, становятся скромнее. Из-за всепроникающих соцсетей и мессенджеров.

С другой стороны, мы вверяем полномочия другим привратникам — нейросетям, возможности которых, вероятно, превосходят возможности Ротшильда в начале 19 века.

#статьи
👍4🔥4❤‍🔥3