Чат-боты отбирают хлеб у поисковых систем
У компании OneLittleWeb вышло исследование на тему того, как за последние 2 года чат-боты на базе искусственного интеллекта забирают трафик у традиционных поисковых систем.
Главные выводы:
- С апреля 2024 года по март 2025 трафик чат-ботов на базе ИИ увеличился на 80%, достигнув 55 млрд посещений за год.
- За тот же период поисковые системы столкнулись со спадом трафика на 0,51%, с общим числом посещений в 1,86 трлн. Хотя снижение незначительное, оно указывает на изменения в поведении пользователей.
- ChatGPT занимает лидирующую позицию с долей рынка 86,32% среди чат-ботов на базе ИИ, далее идут DeepSeek (3,15%) и Gemini (3,06%).
- Google остается лидером среди поисковых систем с долей 87,57%, за ним следуют Microsoft Bing (3,23%) и Yandex (2,23%).
- В то же время посещаемость Yahoo снизилась на 22,5% за последний год. По мнению авторов документа, это может быть связано с трудностями, которые наблюдаются у этой поисковой системы в адаптации к ИИ-решениям.
- Несмотря на рост интереса к ИИ, у ChatGPT примерно в 26 раз меньше ежедневных посещений, чем у Google, так что чат-боты еще не достигли масштабов традиционных поисковиков.
Больше всего поражает, что Yahoo все еще есть, куда падать в плане трафика.
#ии #исследования
У компании OneLittleWeb вышло исследование на тему того, как за последние 2 года чат-боты на базе искусственного интеллекта забирают трафик у традиционных поисковых систем.
Главные выводы:
- С апреля 2024 года по март 2025 трафик чат-ботов на базе ИИ увеличился на 80%, достигнув 55 млрд посещений за год.
- За тот же период поисковые системы столкнулись со спадом трафика на 0,51%, с общим числом посещений в 1,86 трлн. Хотя снижение незначительное, оно указывает на изменения в поведении пользователей.
- ChatGPT занимает лидирующую позицию с долей рынка 86,32% среди чат-ботов на базе ИИ, далее идут DeepSeek (3,15%) и Gemini (3,06%).
- Google остается лидером среди поисковых систем с долей 87,57%, за ним следуют Microsoft Bing (3,23%) и Yandex (2,23%).
- В то же время посещаемость Yahoo снизилась на 22,5% за последний год. По мнению авторов документа, это может быть связано с трудностями, которые наблюдаются у этой поисковой системы в адаптации к ИИ-решениям.
- Несмотря на рост интереса к ИИ, у ChatGPT примерно в 26 раз меньше ежедневных посещений, чем у Google, так что чат-боты еще не достигли масштабов традиционных поисковиков.
Больше всего поражает, что Yahoo все еще есть, куда падать в плане трафика.
#ии #исследования
👍6🔥4❤🔥2❤1
Кто работает с данными в Убере
В беседе с командой Monte Carlo бывший менеджер платформы данных Убера описывает роль менеджера продукта на основе данных (Data Product Manager / DPM) с помощью вопросов, на которые тот отвечает.
DPM — это роль, полностью посвященная решению вопросов вроде:
- Какие данные существуют в компании?
- Кому эти данные нужны?
- Откуда и куда эти данные поступают?
- Какую цель они выполняют?
- Можно ли упростить работу с ними или доступ к ним?
- Соответствуют ли данные нормам и пригодны ли для практического использования?
- Как сделать данные полезными для большего числа сотрудников быстрее?
Менеджеры продуктов на основе данных отвечают на эти вопросы, создавая внутренние инструменты и платформы для сотрудников.
Одни менеджеры продуктов на основе данных тесно сотрудничают с аналитиками и дата-сайентистами. Другие работают с операционными или айти-командами. В крупных компаниях такие менеджеры могут напрямую общаться с топ-менеджментом. Обычно эти специалисты имеют опыт в B2B-продуктах, управлении внутренними инструментами или анализе данных. Некоторые приходят из бэкенд-разработки.
В отличие от классических продуктовых менеджеров, их клиенты — не внешние покупатели. Их клиенты — это сотрудники компании, которые используют данные для работы.
#статьи
В беседе с командой Monte Carlo бывший менеджер платформы данных Убера описывает роль менеджера продукта на основе данных (Data Product Manager / DPM) с помощью вопросов, на которые тот отвечает.
DPM — это роль, полностью посвященная решению вопросов вроде:
- Какие данные существуют в компании?
- Кому эти данные нужны?
- Откуда и куда эти данные поступают?
- Какую цель они выполняют?
- Можно ли упростить работу с ними или доступ к ним?
- Соответствуют ли данные нормам и пригодны ли для практического использования?
- Как сделать данные полезными для большего числа сотрудников быстрее?
Менеджеры продуктов на основе данных отвечают на эти вопросы, создавая внутренние инструменты и платформы для сотрудников.
Одни менеджеры продуктов на основе данных тесно сотрудничают с аналитиками и дата-сайентистами. Другие работают с операционными или айти-командами. В крупных компаниях такие менеджеры могут напрямую общаться с топ-менеджментом. Обычно эти специалисты имеют опыт в B2B-продуктах, управлении внутренними инструментами или анализе данных. Некоторые приходят из бэкенд-разработки.
В отличие от классических продуктовых менеджеров, их клиенты — не внешние покупатели. Их клиенты — это сотрудники компании, которые используют данные для работы.
#статьи
🔥4 4❤1❤🔥1🥰1
Перспективы и тренды больших данных в России
В России беда с экспортом продуктов с высокой добавленной стоимостью. Проблема стала еще более выпуклой в режиме санкций. Однако большие данные меняют ситуацию — индустрия растет быстрее, чем по экспоненте. Из управления большими данными постоянно возникают новые бизнесы.
Про это и многое другое смотрите и слушайте на подкасте L&B с Алексеем Нейманом, исполнительным директором Ассоциации Больших Данных.
В России беда с экспортом продуктов с высокой добавленной стоимостью. Проблема стала еще более выпуклой в режиме санкций. Однако большие данные меняют ситуацию — индустрия растет быстрее, чем по экспоненте. Из управления большими данными постоянно возникают новые бизнесы.
Про это и многое другое смотрите и слушайте на подкасте L&B с Алексеем Нейманом, исполнительным директором Ассоциации Больших Данных.
👍4🔥3❤🔥2🤩1
Вам не нужно хранить столько данных. Или нужно?
На BigDATAwire собрали в кучу результаты разных исследований и отчетов. По инсайтам и выводам вышло густо. Разбираемся.
В Gresham опросили 200 старших специалистов по данным из финансовых компаний США и Великобритании и выяснили, что 44% сталкиваются с проблемами. Внимание! Из-за избытка данных или из-за того, что хранят их в слишком многих местах.
О как! Пока кто-то еще только планирует управлять данными по-взрослому, кто-то уже заигрался и насобирал больше, чем может переварить.
По данным опроса Fivetran, 40% ИИ-проектов терпят неудачу или не достигают целей из-за недостатков в управлении данными.
Выходит, что в ЕС главный вызов для технологического и финансового сектора — не доступ к большим данным, а управление ими.
И с 2025 года регуляторы помогают бизнесу с этим вызовом справиться.
Регуляторная инициатива DORA — кнут и пряник в одном наборе. Хотя, больше кнут, конечно. Без соответствия DORA компании не могут внедрять технологии генеративного ИИ, так как их данные не считаются готовыми для обучения моделей.
Соблюдение DORA позволяет партнериться с банками и биржами и минимизирует риски утечек. Кроме того, по данным опросов, инвесторы охотнее вкладываются в компании, которые выполняют предусмотренные в DORA требования.
И напоследок.
Мы уже писали, что отладка пайплайнов — это первый в очереди кандидат на автоматизацию с помощью ИИ. Но мы не знали, сколько времени эти процессы занимают у инженеров. Теперь знаем: 80% ресурсов инженеров данных тратится на поддержку существующих ETL-пайплайнов, даже в компаниях с централизованными данными.
Ну и чем займетесь в свободное время?
#аналитика #статьи #исследования
На BigDATAwire собрали в кучу результаты разных исследований и отчетов. По инсайтам и выводам вышло густо. Разбираемся.
В Gresham опросили 200 старших специалистов по данным из финансовых компаний США и Великобритании и выяснили, что 44% сталкиваются с проблемами. Внимание! Из-за избытка данных или из-за того, что хранят их в слишком многих местах.
О как! Пока кто-то еще только планирует управлять данными по-взрослому, кто-то уже заигрался и насобирал больше, чем может переварить.
По данным опроса Fivetran, 40% ИИ-проектов терпят неудачу или не достигают целей из-за недостатков в управлении данными.
Выходит, что в ЕС главный вызов для технологического и финансового сектора — не доступ к большим данным, а управление ими.
И с 2025 года регуляторы помогают бизнесу с этим вызовом справиться.
Регуляторная инициатива DORA — кнут и пряник в одном наборе. Хотя, больше кнут, конечно. Без соответствия DORA компании не могут внедрять технологии генеративного ИИ, так как их данные не считаются готовыми для обучения моделей.
Соблюдение DORA позволяет партнериться с банками и биржами и минимизирует риски утечек. Кроме того, по данным опросов, инвесторы охотнее вкладываются в компании, которые выполняют предусмотренные в DORA требования.
И напоследок.
Мы уже писали, что отладка пайплайнов — это первый в очереди кандидат на автоматизацию с помощью ИИ. Но мы не знали, сколько времени эти процессы занимают у инженеров. Теперь знаем: 80% ресурсов инженеров данных тратится на поддержку существующих ETL-пайплайнов, даже в компаниях с централизованными данными.
Ну и чем займетесь в свободное время?
#аналитика #статьи #исследования
👍4🔥4❤🔥3
С помощью данных можно предсказать увольнение сотрудника
В InfoWatch получили патент на систему для прогнозирования увольнений.
Система представляет собой программно-аппаратный комплекс. ПАК отслеживает поведение сотрудников и строит математическую модель действий. При выявлении аномалий в поведении система формирует группы риска, указывающие на возможные намерения уволиться, снижение лояльности или падение вовлеченности.
В InfoWatch утверждают, что система прошла тестирование и с точностью до 80% может предсказать увольнение сотрудника за 25 дней до его ухода.
Интересно, как отреагируют зумеры, если узнают, что за ними следят, чтобы понять, не собираются ли они уволиться? Каждый десятый зумер, кстати, хотел бы, чтобы его руководителя заменили на искусственный интеллект.
#ии #аналитика
В InfoWatch получили патент на систему для прогнозирования увольнений.
Система представляет собой программно-аппаратный комплекс. ПАК отслеживает поведение сотрудников и строит математическую модель действий. При выявлении аномалий в поведении система формирует группы риска, указывающие на возможные намерения уволиться, снижение лояльности или падение вовлеченности.
В InfoWatch утверждают, что система прошла тестирование и с точностью до 80% может предсказать увольнение сотрудника за 25 дней до его ухода.
Интересно, как отреагируют зумеры, если узнают, что за ними следят, чтобы понять, не собираются ли они уволиться? Каждый десятый зумер, кстати, хотел бы, чтобы его руководителя заменили на искусственный интеллект.
#ии #аналитика
🔥6👍5❤🔥2😁1
DataYoga.pdf
13 MB
Работаем с данными в позе собаки
Нашли крутую книгу от образовательного бренда DataYoga: «Дата йога: грамотная работа с данными».
Книга — источник подходов и советов по созданию визуальных форм ваших данных. Авторы учат создавать красоту из сложных хитросплетений абстрактных данных, задавать аналитические вопросы и разрабатывать интерактивные дашборды.
Темы книги:
- Разобраться в управленческих технологиях и видеть ключевые показатели эффективности визуально.
- Уметь правильно выбирать и настраивать виды визуализации под вашу задачу.
- Понимать пользователя и его поведение.
- Узнать как различные шрифты управляют вниманием, что такое изящность и какой шрифт подобрать для цифр.
- Как переносить стили художников и их цветовые палитры в дизайн своих информационных продуктов.
- Уметь различать 50 оттенков серого, знать их названия и понимать природу цвета, уверенно подбирать свои целевые палитры для данных.
- Различать зрительные иллюзии и понимать людей с особенностями восприятия.
- Уметь выстраивать аргументы за использование таблиц для работы с цифрами, и настаивать на применение визуализации для аналитических целей.
- Противодействовать когнитивным искажениям, знать их природу и не допускать ошибок визуализациях и презентациях.
- Освоить составление информативных заголовков, аналитических выводов и аннотаций, правильно размещать метаданные.
Мастрид для всех, кто занимается визуализацией данных.
Если бы не книга, редактор не пополнил бы свою коллекцию цитатами Йоги Берра:
Кроме книги в DataYoga предлагают бесплатные марафоны по Qlik, Tableau, Yandex DataLens.
#аналитика
Нашли крутую книгу от образовательного бренда DataYoga: «Дата йога: грамотная работа с данными».
Книга — источник подходов и советов по созданию визуальных форм ваших данных. Авторы учат создавать красоту из сложных хитросплетений абстрактных данных, задавать аналитические вопросы и разрабатывать интерактивные дашборды.
Темы книги:
- Разобраться в управленческих технологиях и видеть ключевые показатели эффективности визуально.
- Уметь правильно выбирать и настраивать виды визуализации под вашу задачу.
- Понимать пользователя и его поведение.
- Узнать как различные шрифты управляют вниманием, что такое изящность и какой шрифт подобрать для цифр.
- Как переносить стили художников и их цветовые палитры в дизайн своих информационных продуктов.
- Уметь различать 50 оттенков серого, знать их названия и понимать природу цвета, уверенно подбирать свои целевые палитры для данных.
- Различать зрительные иллюзии и понимать людей с особенностями восприятия.
- Уметь выстраивать аргументы за использование таблиц для работы с цифрами, и настаивать на применение визуализации для аналитических целей.
- Противодействовать когнитивным искажениям, знать их природу и не допускать ошибок визуализациях и презентациях.
- Освоить составление информативных заголовков, аналитических выводов и аннотаций, правильно размещать метаданные.
Мастрид для всех, кто занимается визуализацией данных.
Если бы не книга, редактор не пополнил бы свою коллекцию цитатами Йоги Берра:
В теории нет разницы между практикой и теорией. Но на практике она есть.
Кроме книги в DataYoga предлагают бесплатные марафоны по Qlik, Tableau, Yandex DataLens.
#аналитика
🔥5❤🔥3👍2👾2
Как в Росгосстрахе оценивают цифровую зрелость
В статье на Хабре авторы из Росгосстраха рассуждают о том, «Можно ли оценить эффективность цифровой трансформации или это просто дань моде?»
Мы прочитали, нам понравилось. Решили структурировать и суммировать то, как в у них там устроенацветовая дифференциация штанов дифференциация уровней цифровой зрелости.
Рассказываем:
1. Начальный уровень
- Инструменты и процессы: Ведущей практикой являются простые офисные программные средства — Excel, электронная почта, ручная обработка данных.
- Автоматизация: Практически отсутствует или ограничивается единичными сценариями (например, выгрузка отчетов вручную, без единой платформы).
- Стратегия: Нет сформулированного понимания ценности и целей цифровизации — решения принимаются интуитивно, на основании какой-то идеи руководства, но без долгосрочной дорожной карты.
- Организационная культура: Люди не привыкли к новым технологиям, процессы разрознены, отсутствует единое понимание, зачем нужна цифровизация, и кто за нее отвечает.
2. Развивающийся
- Инструменты и процессы: Внедряются базовые корпоративные системы (CRM, ERP), начинается сбор первичных данных, появляются первые попытки автоматизировать рутинные процессы.
- Работа с данными: Запускаются простейшие эксперименты с данными — выгрузка отчетов из CRM, аккумулирование мастер-данных, но без полноценной платформы для централизованного хранения и обработки.
- Автоматизация: Начало централизованной автоматизации отдельных процессов, но зачастую интеграция разрозненных систем выполнена лишь частично.
- Организационная культура: Формируются первые точки взаимодействия цифровой команды с бизнес-подразделениями, появляются ответственные за цифру, но глубины проникновения в процессы пока недостаточно.
- Измеримые показатели: На этом уровне цифровизация ключевых справочных и мастер-данных достигает порядка 50–60% и соответствует внутренней диагностике развивающегося состояния.
3. Продвинутый
- Инструменты и процессы: Компании начинают активно использовать BI-порталы, формируются сквозные сценарии построения отчетности и аналитики. Есть интеграция основных систем: ERP, CRM, BI, DWH, а иногда и элементы песочниц для машинного обучения.
- Работа с данными: Данные очищены, объединены и доступны в едином хранилище; налажены механизмы ETL/ELT, настроены пайплайны. Впервые появляются пилотные проекты с использованием технологий искусственного интеллекта (например, прогнозирование спроса, рекомендательные движки).
- Автоматизация: Достаточно высокая степень автоматизации рутинных задач, интеграция систем, снижение доли ручного труда при пересборке отчетов, своевременный контроль качества данных.
- Организационная культура и компетенции: Появляются гуру аналитики, базовые курсы по BI-инструментам охватывают значительное число сотрудников. Повышается вовлеченность: специалисты готовы обучаться и использовать новые решения, формируется среда data-driven decision making.
- Клиентский опыт: Цифровые каналы продаж работают стабильно, постепенно формируется омниканальная стратегия: клиенты могут переходить из офлайн-точек во внутрикорпоративное приложение и обратно без потерь данных.
4. Зрелый
- Инструменты и процессы: Цифровые решения охватывают весь жизненный цикл бизнеса: от привлечения клиента до послепродажного обслуживания. Используются большие данные, автоматика принимает участие в ключевых бизнес-процессах, а алгоритмы ИИ и ML регулярно обновляются и корректируются.
- Работа с данными: Устойчиво работают распределенные архитектуры (Data Mesh, Data Lakehouse); портрет клиента и картина процессов доступна всему руководству в режиме реального времени. Все данные проходят через систему качества и безопасности.
- Автоматизация: Автоматизированы не только рутинные задачи, но и значительная часть управленческих процессов (кредитный скоринг, динамическое ценообразование, автоматические взаимодействия с клиентами через чат-боты).
В статье на Хабре авторы из Росгосстраха рассуждают о том, «Можно ли оценить эффективность цифровой трансформации или это просто дань моде?»
Мы прочитали, нам понравилось. Решили структурировать и суммировать то, как в у них там устроена
Рассказываем:
1. Начальный уровень
- Инструменты и процессы: Ведущей практикой являются простые офисные программные средства — Excel, электронная почта, ручная обработка данных.
- Автоматизация: Практически отсутствует или ограничивается единичными сценариями (например, выгрузка отчетов вручную, без единой платформы).
- Стратегия: Нет сформулированного понимания ценности и целей цифровизации — решения принимаются интуитивно, на основании какой-то идеи руководства, но без долгосрочной дорожной карты.
- Организационная культура: Люди не привыкли к новым технологиям, процессы разрознены, отсутствует единое понимание, зачем нужна цифровизация, и кто за нее отвечает.
2. Развивающийся
- Инструменты и процессы: Внедряются базовые корпоративные системы (CRM, ERP), начинается сбор первичных данных, появляются первые попытки автоматизировать рутинные процессы.
- Работа с данными: Запускаются простейшие эксперименты с данными — выгрузка отчетов из CRM, аккумулирование мастер-данных, но без полноценной платформы для централизованного хранения и обработки.
- Автоматизация: Начало централизованной автоматизации отдельных процессов, но зачастую интеграция разрозненных систем выполнена лишь частично.
- Организационная культура: Формируются первые точки взаимодействия цифровой команды с бизнес-подразделениями, появляются ответственные за цифру, но глубины проникновения в процессы пока недостаточно.
- Измеримые показатели: На этом уровне цифровизация ключевых справочных и мастер-данных достигает порядка 50–60% и соответствует внутренней диагностике развивающегося состояния.
3. Продвинутый
- Инструменты и процессы: Компании начинают активно использовать BI-порталы, формируются сквозные сценарии построения отчетности и аналитики. Есть интеграция основных систем: ERP, CRM, BI, DWH, а иногда и элементы песочниц для машинного обучения.
- Работа с данными: Данные очищены, объединены и доступны в едином хранилище; налажены механизмы ETL/ELT, настроены пайплайны. Впервые появляются пилотные проекты с использованием технологий искусственного интеллекта (например, прогнозирование спроса, рекомендательные движки).
- Автоматизация: Достаточно высокая степень автоматизации рутинных задач, интеграция систем, снижение доли ручного труда при пересборке отчетов, своевременный контроль качества данных.
- Организационная культура и компетенции: Появляются гуру аналитики, базовые курсы по BI-инструментам охватывают значительное число сотрудников. Повышается вовлеченность: специалисты готовы обучаться и использовать новые решения, формируется среда data-driven decision making.
- Клиентский опыт: Цифровые каналы продаж работают стабильно, постепенно формируется омниканальная стратегия: клиенты могут переходить из офлайн-точек во внутрикорпоративное приложение и обратно без потерь данных.
4. Зрелый
- Инструменты и процессы: Цифровые решения охватывают весь жизненный цикл бизнеса: от привлечения клиента до послепродажного обслуживания. Используются большие данные, автоматика принимает участие в ключевых бизнес-процессах, а алгоритмы ИИ и ML регулярно обновляются и корректируются.
- Работа с данными: Устойчиво работают распределенные архитектуры (Data Mesh, Data Lakehouse); портрет клиента и картина процессов доступна всему руководству в режиме реального времени. Все данные проходят через систему качества и безопасности.
- Автоматизация: Автоматизированы не только рутинные задачи, но и значительная часть управленческих процессов (кредитный скоринг, динамическое ценообразование, автоматические взаимодействия с клиентами через чат-боты).
👍4🔥3❤🔥2❤2👏1
- Организационная культура и компетенции: Высокая вовлеченность сотрудников, непрерывные информационные тренинги, четко сформированные роли Data Engineer, Data Scientist, Business Analyst. Культура постоянного экспериментирования: fail fast, learn faster.
- Клиентский опыт: Пользовательских болей почти нет: цифровая экосистема обеспечивает клиенту максимально простой путь — от оформления продукта до его получения и поддержки. NPS находится на высоком уровне благодаря технологической гибкости и быстрому отклику на запросы.
Итого:
Каждый следующий уровень не просто добавляет три-четыре новых инструмента, а качественно меняет подход работы с данными и принятия решений. Ключевая дифференциация между ними заключается в глубине встроенности цифровых практик:
- Наличие системы и стратегии: от отсутствия единого понимания до четко артикулированной долговременной программы.
- Степень интеграции: от изолированных точечных решений до работающей экосистемы, где данные легко передаются между различными компонентами.
- Роль данных в принятии решений: от интуитивного подхода к полноценному data-driven.
- Культура и компетенции: от усталого отношения к айти-инициативам до активного обучения и генерации внутренних точек роста со стороны сотрудников.
#аналитика #статьи
- Клиентский опыт: Пользовательских болей почти нет: цифровая экосистема обеспечивает клиенту максимально простой путь — от оформления продукта до его получения и поддержки. NPS находится на высоком уровне благодаря технологической гибкости и быстрому отклику на запросы.
Итого:
Каждый следующий уровень не просто добавляет три-четыре новых инструмента, а качественно меняет подход работы с данными и принятия решений. Ключевая дифференциация между ними заключается в глубине встроенности цифровых практик:
- Наличие системы и стратегии: от отсутствия единого понимания до четко артикулированной долговременной программы.
- Степень интеграции: от изолированных точечных решений до работающей экосистемы, где данные легко передаются между различными компонентами.
- Роль данных в принятии решений: от интуитивного подхода к полноценному data-driven.
- Культура и компетенции: от усталого отношения к айти-инициативам до активного обучения и генерации внутренних точек роста со стороны сотрудников.
#аналитика #статьи
Инсайты из 1000 бесед с командами дата-аналитиков
Рассказываем самое интересное из статьи Миккеля Денсё Data about data from 1,000 conversations with data teams, в которой автор делится инсайтами, полученными из 1000 бесед с дата-командами на платформе Synq.
1. DWH как центр управления бизнесом
Раньше DWH использовались только для сводных отчетов. Сегодня туда сводят данные из разных систем, чтобы запустить ML-модели, автоматизировать рекламные кампании и готовить отчеты.
В одном крупном интернет-магазине из-за сбоя в канале передачи данных неправильные CLTV-метрики показали, что на рекламные кампании можно тратить больше. За пару часов некорректного запуска пайплайна команда потратила на рекламу лишние $100 000.
Если DWH влияет на бизнес-решения и доход, к нему нужно относиться как к продакшн-инфраструктуре. Внедрите SLA-алерты, четкие процессы инцидент-менеджмента и метрики качества данных: процент успешных загрузок, время восстановления после ошибки.
2. Масштаб и цена заблуждения при росте стеков
В этом исследовании 20% команд, которые используют DBT (data build tool), отметили, что в их проекте более 1000 моделей. Еще 5% проектов имеют свыше 5000 таких моделей.
Модель в DBT – это SQL-скрипт, который преобразует сырые данные в готовые таблицы для аналитиков или других систем.
В Siemens один инстанс DBT обслуживает более 800 отдельных проектов. В этой экосистеме работают 550 дата-инженеров и аналитиков. Ежедневно запускается около 2500 задач преобразования данных и обрабатывается примерно 85 000 DBT-моделей. При таких объемах невозможно помнить, кто отвечает за каждую модель или отчет.
Командам нужны карты ответственности – документы, где указано, кто владеет каждой моделью и дашбордом. Без этого легко упускать из виду устаревшие модели, дубли и неиспользуемые отчеты.
3. Тестирование как инструмент доверия, а не галочка
Раньше данные проверяли на простой уровень качества: NOT NULL и UNIQUE, чтобы убедиться, что нет пустых или дублирующих записей. Сейчас нужны тесты, которые отражают бизнес-логику и специфику источников.
На маркетплейсе, где раз в неделю обновляют ML-модель прогнозирования цен на автомобили, команда блокирует выгрузку в AWS S3, если исторические данные не полные за последние 12 месяцев. Для обучения модели важна не только свежесть, но и непрерывная временная серия.
В медийной компании данные о кликах и показах поступают от тысяч партнеров: поток достигает сотен тысяч строк в день. Если хотя бы один партнер задержит данные, дашборды окажутся пустыми. Команда ежедневно сравнивает фактический объем строк с ожидаемым диапазоном, чтобы вовремя обнаружить исчезновение данных, а не исправлять последствия нерегулярной поставки.
Пора понять, что DWH — не источник отчетов, а центр управления бизнесом. Так-то.
#аналитика #статьи
Рассказываем самое интересное из статьи Миккеля Денсё Data about data from 1,000 conversations with data teams, в которой автор делится инсайтами, полученными из 1000 бесед с дата-командами на платформе Synq.
1. DWH как центр управления бизнесом
Раньше DWH использовались только для сводных отчетов. Сегодня туда сводят данные из разных систем, чтобы запустить ML-модели, автоматизировать рекламные кампании и готовить отчеты.
В одном крупном интернет-магазине из-за сбоя в канале передачи данных неправильные CLTV-метрики показали, что на рекламные кампании можно тратить больше. За пару часов некорректного запуска пайплайна команда потратила на рекламу лишние $100 000.
Если DWH влияет на бизнес-решения и доход, к нему нужно относиться как к продакшн-инфраструктуре. Внедрите SLA-алерты, четкие процессы инцидент-менеджмента и метрики качества данных: процент успешных загрузок, время восстановления после ошибки.
2. Масштаб и цена заблуждения при росте стеков
В этом исследовании 20% команд, которые используют DBT (data build tool), отметили, что в их проекте более 1000 моделей. Еще 5% проектов имеют свыше 5000 таких моделей.
Модель в DBT – это SQL-скрипт, который преобразует сырые данные в готовые таблицы для аналитиков или других систем.
В Siemens один инстанс DBT обслуживает более 800 отдельных проектов. В этой экосистеме работают 550 дата-инженеров и аналитиков. Ежедневно запускается около 2500 задач преобразования данных и обрабатывается примерно 85 000 DBT-моделей. При таких объемах невозможно помнить, кто отвечает за каждую модель или отчет.
Командам нужны карты ответственности – документы, где указано, кто владеет каждой моделью и дашбордом. Без этого легко упускать из виду устаревшие модели, дубли и неиспользуемые отчеты.
3. Тестирование как инструмент доверия, а не галочка
Раньше данные проверяли на простой уровень качества: NOT NULL и UNIQUE, чтобы убедиться, что нет пустых или дублирующих записей. Сейчас нужны тесты, которые отражают бизнес-логику и специфику источников.
На маркетплейсе, где раз в неделю обновляют ML-модель прогнозирования цен на автомобили, команда блокирует выгрузку в AWS S3, если исторические данные не полные за последние 12 месяцев. Для обучения модели важна не только свежесть, но и непрерывная временная серия.
В медийной компании данные о кликах и показах поступают от тысяч партнеров: поток достигает сотен тысяч строк в день. Если хотя бы один партнер задержит данные, дашборды окажутся пустыми. Команда ежедневно сравнивает фактический объем строк с ожидаемым диапазоном, чтобы вовремя обнаружить исчезновение данных, а не исправлять последствия нерегулярной поставки.
Пора понять, что DWH — не источник отчетов, а центр управления бизнесом. Так-то.
#аналитика #статьи
👍5❤🔥4🔥3 1
Преподаватели вузов обучаются работе с ИИ
В правительстве сообщили, что повышение квалификации в сфере ИИ с 2022 года прошли уже 5400 преподавателей вузов.
Вроде бы здорово, но есть нюанс: всего в российских вузах работает аж 220 тысяч преподавателей. Так что это пока капля в море.
Студенты, наверняка, и без преподавателей разберутся, как работать с ИИ. Но вряд ли так же массово, как в Китае, где работу с ИИ включают в начальные и средние классы.
#ии
В правительстве сообщили, что повышение квалификации в сфере ИИ с 2022 года прошли уже 5400 преподавателей вузов.
Вроде бы здорово, но есть нюанс: всего в российских вузах работает аж 220 тысяч преподавателей. Так что это пока капля в море.
Студенты, наверняка, и без преподавателей разберутся, как работать с ИИ. Но вряд ли так же массово, как в Китае, где работу с ИИ включают в начальные и средние классы.
#ии
👍3👏3❤2❤🔥2
Как разные LLM справляются с преобразованием запросов на естественном языке в SQL
В Tinybird опубликовали результаты бенчмарка по генерации SQL-запросов для 22 популярных моделей.
Топ 5:
1. claude-opus-4
2. claude-3.7-sonnet
3. o3-mini
4. claude-3.5-sonnet
5. gpt-4.1
Здорово, что авторы подробно описали методологию и позволяют сравнить результаты всех моделей со средними результатами человека (процентные значения в крайних правых столбцах).
По клику на название модели в таблице можно посмотреть подробности результатов.
#ии #sql
В Tinybird опубликовали результаты бенчмарка по генерации SQL-запросов для 22 популярных моделей.
Топ 5:
1. claude-opus-4
2. claude-3.7-sonnet
3. o3-mini
4. claude-3.5-sonnet
5. gpt-4.1
Здорово, что авторы подробно описали методологию и позволяют сравнить результаты всех моделей со средними результатами человека (процентные значения в крайних правых столбцах).
По клику на название модели в таблице можно посмотреть подробности результатов.
#ии #sql
❤🔥5👍4🔥3🏆3
Шифрование больших данных — это не издержки, а экономия
На SSRN опубликовали исследование о том, как шифрование помогает экономить миллионы долларов компаниям, использующим большие данные.
Название, если не боитесь сломать язык:«Изучение экономического влияния утечек данных и роли технологий шифрования в снижении финансовых потерь для компаний, использующих аналитику больших данных для персонализированного маркетинга».
Кейсы
В исследовании разобраны 2 примера.
Первый:
Хакеры взломали базу онлайн-ритейлера на 50 млн клиентов с адресами, именами и номерами кредиток. Данные были зашифрованы с помощью AES-256, и злоумышленники не получили к ним доступ.
Компания избежала убытков в $200 млн: $120 млн на штрафы GDPR (до 4% годового оборота), $50 млн — на юридические издержки и компенсации и $30 млн — на восстановление репутации.
Среднее время восстановления (MTTR) сократилось на 61%: с 72 до 28 часов, потому что не требовалась полная перестройка хранилищ и индексов: достаточно было заменить ключи и провести тестирование среды.
Второй:
В аналитической платформе банка было 80 млн записей о транзакциях. Внедрение AES-256 для данных в покое и TLS 1.3 для данных в пути сократило расходы на ликвидацию последствий взлома на 45%: с €90 млн до €49,5 млн.
MTTR снизился на 53%: с 96 до 45 часов. Ежеквартальные затраты на аудит ключей и протоколов составляют всего €50–75 тысяч, а каждые полгода ротация ключей обходится примерно в €30 тысяч.
Выводы
Современные протоколы шифрования AES-256 для данных в покое и TLS 1.3 для данных в пути снижают затраты на ликвидацию последствий утечек в среднем на 60%, а также сокращают время простоя систем на 50–60%.
Кроме прямой экономии на штрафах и юридических издержках шифрование повышает лояльность клиентов. Компании, раскрывающие меры защиты, удерживают на 15% больше пользователей. Повышенная скорость обработки данных дает прирост выручки за счет более точной персонализации. Даже при ежегодных расходах на поддержку шифрования окупаемость достигается уже после первой серьезной утечки.
Не то чтобы мы всего этого не знали, но теперь у нас есть пруфы.
#деньги #исследования
На SSRN опубликовали исследование о том, как шифрование помогает экономить миллионы долларов компаниям, использующим большие данные.
Название, если не боитесь сломать язык:
Кейсы
В исследовании разобраны 2 примера.
Первый:
Хакеры взломали базу онлайн-ритейлера на 50 млн клиентов с адресами, именами и номерами кредиток. Данные были зашифрованы с помощью AES-256, и злоумышленники не получили к ним доступ.
Компания избежала убытков в $200 млн: $120 млн на штрафы GDPR (до 4% годового оборота), $50 млн — на юридические издержки и компенсации и $30 млн — на восстановление репутации.
Среднее время восстановления (MTTR) сократилось на 61%: с 72 до 28 часов, потому что не требовалась полная перестройка хранилищ и индексов: достаточно было заменить ключи и провести тестирование среды.
Второй:
В аналитической платформе банка было 80 млн записей о транзакциях. Внедрение AES-256 для данных в покое и TLS 1.3 для данных в пути сократило расходы на ликвидацию последствий взлома на 45%: с €90 млн до €49,5 млн.
MTTR снизился на 53%: с 96 до 45 часов. Ежеквартальные затраты на аудит ключей и протоколов составляют всего €50–75 тысяч, а каждые полгода ротация ключей обходится примерно в €30 тысяч.
Выводы
Современные протоколы шифрования AES-256 для данных в покое и TLS 1.3 для данных в пути снижают затраты на ликвидацию последствий утечек в среднем на 60%, а также сокращают время простоя систем на 50–60%.
Кроме прямой экономии на штрафах и юридических издержках шифрование повышает лояльность клиентов. Компании, раскрывающие меры защиты, удерживают на 15% больше пользователей. Повышенная скорость обработки данных дает прирост выручки за счет более точной персонализации. Даже при ежегодных расходах на поддержку шифрования окупаемость достигается уже после первой серьезной утечки.
Не то чтобы мы всего этого не знали, но теперь у нас есть пруфы.
#деньги #исследования
👍4🔥4❤🔥3❤2
Перспективы развития рынка СУБД до 2031 года
В ЦСР выкатили исследование «Рынок систем управления и обработки данных в России: текущее состояние и перспективы развития до 2031 года».
Разбираемся в главных инсайтах и прогнозах.
Объем рынка
Общая оценка по итогам 2024 года — ₽90 млрд. К 2031 году объем рынка вырастет на 180% и составит ₽251 млрд.
Проекты «Экономика данных» (₽1,4 трлн) и «Цифровое государственное управление» (₽0,5 трлн) нуждаются в больших цифровых платформах для всех ключевых отраслей. Так что этот сценарий кажется даже не оптимистичным, а вполне себе базовым.
Топ 10 компаний
На десятку лидеров приходится 28% рынка.
1. PostgresPro — 10,4% (₽9,3 млрд)
2. Группа Arenadata — 6,7% (₽6 млрд)
3. Yandex Cloud — 2,5% (₽2,2 млрд)
4. DIS Group — 2,2% (₽2 млрд)
5. Тантор Лабс — 1,5% (₽1,4 млрд)
6. VK Tech — 0,8% (₽0,7 млрд)
7. Ростелеком — 0,7% (₽0,6 млрд)
8. СберТех — 0,3% (₽0,3 млрд)
9. Газинформсервис — 0,3% (₽0,3 млрд)
10. Orion Soft — 0,2% (₽0,2 млрд)
Импортозамещение
В 2024 году доля продаж зарубежного ПО на рынке СУБД и сервисов составила около 10%, при этом в инсталлированной базе все еще более 60% активных СУБД — зарубежные решения.
Около 58% опрошенных считают, что западные вендоры могут вернуться на российский рынок до 2031 года, но уже не на доминирующие позиции.
К 2031 году российские вендоры могут захватить до 99% новых продаж СУБД, однако высокий уровень установленной базы западных решений сохранится.
Импортозамещение останется главным драйвером роста до 2027 года, после чего ключевыми станут ИИ-технологии, цифровизация отраслей и экспорт российских решений в дружественные страны.
#субд #деньги #исследования
В ЦСР выкатили исследование «Рынок систем управления и обработки данных в России: текущее состояние и перспективы развития до 2031 года».
Разбираемся в главных инсайтах и прогнозах.
Объем рынка
Общая оценка по итогам 2024 года — ₽90 млрд. К 2031 году объем рынка вырастет на 180% и составит ₽251 млрд.
Проекты «Экономика данных» (₽1,4 трлн) и «Цифровое государственное управление» (₽0,5 трлн) нуждаются в больших цифровых платформах для всех ключевых отраслей. Так что этот сценарий кажется даже не оптимистичным, а вполне себе базовым.
Топ 10 компаний
На десятку лидеров приходится 28% рынка.
1. PostgresPro — 10,4% (₽9,3 млрд)
2. Группа Arenadata — 6,7% (₽6 млрд)
3. Yandex Cloud — 2,5% (₽2,2 млрд)
4. DIS Group — 2,2% (₽2 млрд)
5. Тантор Лабс — 1,5% (₽1,4 млрд)
6. VK Tech — 0,8% (₽0,7 млрд)
7. Ростелеком — 0,7% (₽0,6 млрд)
8. СберТех — 0,3% (₽0,3 млрд)
9. Газинформсервис — 0,3% (₽0,3 млрд)
10. Orion Soft — 0,2% (₽0,2 млрд)
Импортозамещение
В 2024 году доля продаж зарубежного ПО на рынке СУБД и сервисов составила около 10%, при этом в инсталлированной базе все еще более 60% активных СУБД — зарубежные решения.
Около 58% опрошенных считают, что западные вендоры могут вернуться на российский рынок до 2031 года, но уже не на доминирующие позиции.
К 2031 году российские вендоры могут захватить до 99% новых продаж СУБД, однако высокий уровень установленной базы западных решений сохранится.
Импортозамещение останется главным драйвером роста до 2027 года, после чего ключевыми станут ИИ-технологии, цифровизация отраслей и экспорт российских решений в дружественные страны.
#субд #деньги #исследования
🔥8❤🔥5👍5
Начинайте внедрение ИИ с честного разговора о качестве ваших данных
Генеративный ИИ стал катализатором, который обнажил старую, но до сих пор нерешенную проблему — плохое качество корпоративных данных. Пока бизнес-группы требуют внедрения ChatGPT и других моделей, CDO и CTO шепчут: «С такими данными это будет катастрофа».
По данным Ataccama, 68% дата-стратегов называют качество данных ключевой проблемой CDO. И это не просто внутренняя возня: грязные данные приводят к ошибочным выводам, снижению ROI, срывам кампаний и провалам ИИ-проектов.
Только 33% компаний добились ощутимого прогресса с ИИ. Остальные буксуют из-за ошибок в адресах, пропущенных полей и устаревших систем, которые не справляются с потоками данных.
CEO Ataccama Майк Маки напоминает:
Качество данных стало приоритетом №1 на 2025 год: об этом заявили 51% компаний. Особенно остро эту задачу ощущают страховые (68%) и дата-гавернанс команды (59%). Параллельно 77% организаций уже видят первые выгоды от ИИ, но только там, где данные под контролем.
Проблема не только в технологиях, но и в культуре. По данным Bean & Davenport, 92% опрошенных считают, что главный барьер для ИИ — не технологии, а люди и процессы. Пока ИИ внедряется, 43% компаний все еще борются с базовыми задачами: приватностью, безопасностью и этическими рисками.
Не вините ИИ в плохих результатах. Он просто показывает, насколько уязвимы мы без доверия к данным. Это лакмус. Если кажется, что он не работает, возможно, вы просто не знаете, в каком состоянии ваши данные.
#ии #исследования
Генеративный ИИ стал катализатором, который обнажил старую, но до сих пор нерешенную проблему — плохое качество корпоративных данных. Пока бизнес-группы требуют внедрения ChatGPT и других моделей, CDO и CTO шепчут: «С такими данными это будет катастрофа».
По данным Ataccama, 68% дата-стратегов называют качество данных ключевой проблемой CDO. И это не просто внутренняя возня: грязные данные приводят к ошибочным выводам, снижению ROI, срывам кампаний и провалам ИИ-проектов.
Только 33% компаний добились ощутимого прогресса с ИИ. Остальные буксуют из-за ошибок в адресах, пропущенных полей и устаревших систем, которые не справляются с потоками данных.
CEO Ataccama Майк Маки напоминает:
ИИ настолько хорош, насколько хороши данные, на которых он основан.
Качество данных стало приоритетом №1 на 2025 год: об этом заявили 51% компаний. Особенно остро эту задачу ощущают страховые (68%) и дата-гавернанс команды (59%). Параллельно 77% организаций уже видят первые выгоды от ИИ, но только там, где данные под контролем.
Проблема не только в технологиях, но и в культуре. По данным Bean & Davenport, 92% опрошенных считают, что главный барьер для ИИ — не технологии, а люди и процессы. Пока ИИ внедряется, 43% компаний все еще борются с базовыми задачами: приватностью, безопасностью и этическими рисками.
Не вините ИИ в плохих результатах. Он просто показывает, насколько уязвимы мы без доверия к данным. Это лакмус. Если кажется, что он не работает, возможно, вы просто не знаете, в каком состоянии ваши данные.
#ии #исследования
👍4🔥4❤🔥3❤2
Считаете, что ваши данные при передаче третьей стороне защищены? Ну и зря
Скандалы, интриги, расследования.
В федеральном законодательстве США есть лазейка. Регуляторы могут получить доступ к вашим личным данным без ордера — если эти данные хранятся у третьей стороны.
Сейчас Верховный суд США рассматривает резонансное дело Джеймса Харпера против главы Налоговой службы США Дугласа О’Доннелла. В деле фигурирует Third-Party Doctrine. На русский это можно перевести как «Доктрина отказа от конфиденциальности при передаче данных третьим лицам».
В 2016 году налоговая провела масштабный сбор данных, потребовав от криптобиржи Coinbase записи транзакций более чем 14 000 клиентов платформы. После клиент Coinbase Джеймс Харпер получил письмо от налоговой с обвинением в занижении доходов от криптовалют.
Харпер обвинение отрицает. Он узнал, что налоговая без ордера получила доступ к его журналам транзакций, адресам кошельков и публичным ключам.
Юристы Харпера заявили, что налоговая нарушила его конституционные права, в частности четвертую поправку, которая защищает от необоснованных обысков и изъятий.
Суды низших инстанций несколько раз отклоняли иск Харпера, ссылаясь на ту самую Third-Party Doctrine, основанную на двух решениях Верховного суда США 1970-х годов. Тогда суд постановил, что «человек не может рассчитывать на неприкосновенность данных, которые он добровольно передал третьим сторонам».
После апелляции суд постановил, что записи Харпера принадлежат Coinbase, и потому подпадают под исключение из действия четвертой поправки.
Это вообще законно?
Формально все законно. С точки зрения гражданских прав — спорно.
Ордер обязателен только при физическом обыске или прямом вмешательстве в частную жизнь. Если же информация хранится у сторонней компании, ее можно запросить административно, без суда. Так что это не халатность налоговой, а особенности правовой системы.
На чем настаивают юристы Харпера:
Эта доктрина имела смысл в 1970-х, когда никаких персональных данных в сети не водилось. Но в 2025 году почти у каждого гражданина США есть обширный цифровой след.
Юристы утверждают, что Харпер имеет право на «разумное ожидание конфиденциальности своих финансовых данных».
Почему?
Ибо Верховный суд более 7 лет назад в деле Карпентера против США решил, что данные геолокации телефона частично защищены, а уж детализированные финансовые записи заслуживают не меньшей защиты от обысков без ордера.
Выходит, что не все данные подлежат автоматической передаче — вопрос в том, какие именно. Именно это и должен прояснить новый судебный прецедент.
Институт Катона подал в Верховный суд amicus curiae в поддержку Харпера, заявив, что Third-Party Doctrine угрожает праву американцев на неприкосновенность частной жизни.
Если Верховный суд поддержит налоговиков, это создаст прецедент, при котором любые данные, хранящиеся у сторонних компаний, окажутся вне зоны защиты четвертой поправки. Теоретически это может коснуться всего: от банковских счетов до истории чатов.
Если же суд встанет на сторону Харпера, это ограничит действия государственных органов и ужесточит требования к доступу к цифровым данным, даже если они формально не находятся у пользователя.
В России же уже на этапе законодательного оформления банковской тайны, закона о персональных данных и налогового кодекса изначально закладывается идея, что определенные государственные органы (прежде всего ФНС) вправе получать данные без судебного решения.
То есть никакого сюрприза в том, что ФНС может обратиться в банк за выпиской, в российском законодательстве нет — напротив, все открыто и закреплено.
#безопасность
Скандалы, интриги, расследования.
В федеральном законодательстве США есть лазейка. Регуляторы могут получить доступ к вашим личным данным без ордера — если эти данные хранятся у третьей стороны.
Сейчас Верховный суд США рассматривает резонансное дело Джеймса Харпера против главы Налоговой службы США Дугласа О’Доннелла. В деле фигурирует Third-Party Doctrine. На русский это можно перевести как «Доктрина отказа от конфиденциальности при передаче данных третьим лицам».
В 2016 году налоговая провела масштабный сбор данных, потребовав от криптобиржи Coinbase записи транзакций более чем 14 000 клиентов платформы. После клиент Coinbase Джеймс Харпер получил письмо от налоговой с обвинением в занижении доходов от криптовалют.
Харпер обвинение отрицает. Он узнал, что налоговая без ордера получила доступ к его журналам транзакций, адресам кошельков и публичным ключам.
Юристы Харпера заявили, что налоговая нарушила его конституционные права, в частности четвертую поправку, которая защищает от необоснованных обысков и изъятий.
Суды низших инстанций несколько раз отклоняли иск Харпера, ссылаясь на ту самую Third-Party Doctrine, основанную на двух решениях Верховного суда США 1970-х годов. Тогда суд постановил, что «человек не может рассчитывать на неприкосновенность данных, которые он добровольно передал третьим сторонам».
После апелляции суд постановил, что записи Харпера принадлежат Coinbase, и потому подпадают под исключение из действия четвертой поправки.
Это вообще законно?
Формально все законно. С точки зрения гражданских прав — спорно.
Ордер обязателен только при физическом обыске или прямом вмешательстве в частную жизнь. Если же информация хранится у сторонней компании, ее можно запросить административно, без суда. Так что это не халатность налоговой, а особенности правовой системы.
На чем настаивают юристы Харпера:
Эта доктрина имела смысл в 1970-х, когда никаких персональных данных в сети не водилось. Но в 2025 году почти у каждого гражданина США есть обширный цифровой след.
Юристы утверждают, что Харпер имеет право на «разумное ожидание конфиденциальности своих финансовых данных».
Почему?
Ибо Верховный суд более 7 лет назад в деле Карпентера против США решил, что данные геолокации телефона частично защищены, а уж детализированные финансовые записи заслуживают не меньшей защиты от обысков без ордера.
Выходит, что не все данные подлежат автоматической передаче — вопрос в том, какие именно. Именно это и должен прояснить новый судебный прецедент.
Институт Катона подал в Верховный суд amicus curiae в поддержку Харпера, заявив, что Third-Party Doctrine угрожает праву американцев на неприкосновенность частной жизни.
Если Верховный суд поддержит налоговиков, это создаст прецедент, при котором любые данные, хранящиеся у сторонних компаний, окажутся вне зоны защиты четвертой поправки. Теоретически это может коснуться всего: от банковских счетов до истории чатов.
Если же суд встанет на сторону Харпера, это ограничит действия государственных органов и ужесточит требования к доступу к цифровым данным, даже если они формально не находятся у пользователя.
В России же уже на этапе законодательного оформления банковской тайны, закона о персональных данных и налогового кодекса изначально закладывается идея, что определенные государственные органы (прежде всего ФНС) вправе получать данные без судебного решения.
То есть никакого сюрприза в том, что ФНС может обратиться в банк за выпиской, в российском законодательстве нет — напротив, все открыто и закреплено.
#безопасность
👍6❤🔥4🔥4
Одними айтишниками цифровую трансформацию не провести
Инвестиции в цифровые инициативы и платформы для управления данными растут. Однако по данным Gartner, меньше половины таких проектов достигают бизнес-целей.
Главная причина — цифровую трансформацию замыкают внутри айти, оставляя по ту сторону всех остальных: бизнес-руководителей, аналитиков, маркетинг, финансы, продуктовые команды.
Успешные компании действуют иначе: вовлекают в работу с данными всех, кто влияет на бизнес, и получают в 2 раза больше эффекта. Их называют Digital Vanguards — и у них стоит поучиться.
Только 48% цифровых инициатив в мире достигают бизнес-целей. У Digital Vanguards этот показатель — 71%. Они делают два принципиально важных шага:
1. Разделяют ответственность за проекты между CIO и другими топ-менеджерами.
2. Создают условия, чтобы бизнес-команды работали с данными и технологиями напрямую, а не через заявки в айти-отделы.
Зачем подключать кого-то, кроме айтишников
1. Только бизнес может точно сформулировать, какие данные нужны для принятия решений, где искать инсайты, что измерять. Без этого айтишники работают вслепую.
2. Если каждый дашборд, отчет или модель надо заказывать через айти-отдел, процесс тормозится. Подключая бизнес, компании дают ему инструменты прямо в руки.
3. Визуализация происхождения данных, доступность диаграмм и отслеживаемость истории данных повышают доверие к ним — особенно если это доступно не только инженерам, но и бизнесу.
4. Когда топ-менеджеры участвуют в создании цифровых решений — они не просто клиенты, они соавторы. Это повышает вовлеченность, инициативность и фокус на результате.
Если хотите, чтобы инвестиции в данные приносили результат — дайте бизнесу инструменты, знания и право действовать, а не возможность оставить заявку для айтишников на получение отчета или создание очередного дашборда.
#аналитика #исследования
Инвестиции в цифровые инициативы и платформы для управления данными растут. Однако по данным Gartner, меньше половины таких проектов достигают бизнес-целей.
Главная причина — цифровую трансформацию замыкают внутри айти, оставляя по ту сторону всех остальных: бизнес-руководителей, аналитиков, маркетинг, финансы, продуктовые команды.
Успешные компании действуют иначе: вовлекают в работу с данными всех, кто влияет на бизнес, и получают в 2 раза больше эффекта. Их называют Digital Vanguards — и у них стоит поучиться.
Только 48% цифровых инициатив в мире достигают бизнес-целей. У Digital Vanguards этот показатель — 71%. Они делают два принципиально важных шага:
1. Разделяют ответственность за проекты между CIO и другими топ-менеджерами.
2. Создают условия, чтобы бизнес-команды работали с данными и технологиями напрямую, а не через заявки в айти-отделы.
Зачем подключать кого-то, кроме айтишников
1. Только бизнес может точно сформулировать, какие данные нужны для принятия решений, где искать инсайты, что измерять. Без этого айтишники работают вслепую.
2. Если каждый дашборд, отчет или модель надо заказывать через айти-отдел, процесс тормозится. Подключая бизнес, компании дают ему инструменты прямо в руки.
3. Визуализация происхождения данных, доступность диаграмм и отслеживаемость истории данных повышают доверие к ним — особенно если это доступно не только инженерам, но и бизнесу.
4. Когда топ-менеджеры участвуют в создании цифровых решений — они не просто клиенты, они соавторы. Это повышает вовлеченность, инициативность и фокус на результате.
Если хотите, чтобы инвестиции в данные приносили результат — дайте бизнесу инструменты, знания и право действовать, а не возможность оставить заявку для айтишников на получение отчета или создание очередного дашборда.
#аналитика #исследования
🔥4❤3👌3👍2
В словосочетании Data Driven нет слова Big
Почему?
Потому, что данные не обязательно должны быть большими, чтобы принимать решения на их основе.
Это самое интересное, что сказал в своем интервью Михаил Нетук, руководитель аналитики в Литресе.
В остальном там мало интересных деталей. Но эту мысль стоит взять на вооружение всем, кто откладывает переход к принятию решений на основе данных из-за того, у них нет больших данных.
Не откладывайте. Работайте с тем, что есть.
#статьи
Почему?
Потому, что данные не обязательно должны быть большими, чтобы принимать решения на их основе.
Это самое интересное, что сказал в своем интервью Михаил Нетук, руководитель аналитики в Литресе.
В остальном там мало интересных деталей. Но эту мысль стоит взять на вооружение всем, кто откладывает переход к принятию решений на основе данных из-за того, у них нет больших данных.
Не откладывайте. Работайте с тем, что есть.
#статьи
❤🔥5👍5🔥3
Яндекс выложил в открытый доступ Yambda
Это один из крупнейших в мире открытых датасетов для разработки и тестирования рекомендательных систем.
Какие данные внутри?
В датасете 5 млрд действий, собранных с 1 млн пользователей на 9 млн треков в Яндекс-музыке:
- Прослушивания
- Лайки и отмены лайков
- Дизлайки и отмены дизлайков
- Аудио-эмбеддинги треков, связи трек-артист-альбом
Все действия разделены метками на органические и те, что вызваны рекомендациями.
Все это в формате Apache Parquet, что удобно для Pandas/Polars.
Есть урезанные версии на 500 и 50 млн действий для разных вычислительных мощностей.
Кому пригодится?
- Исследователям и разработчикам рекомендательных систем для тестирования новых моделей в условиях, близких к продакшену.
- Студентам и энтузиастам для изучения принципов работы рекомендаций на реальных больших данных.
- Инженерам для бенчмаркинга своих алгоритмов против предоставленных Яндексом бейслайнов.
Подробности читайте на Хабре.
Сам датасет забирайте на Hugging Face.
#ии #статьи
Это один из крупнейших в мире открытых датасетов для разработки и тестирования рекомендательных систем.
Какие данные внутри?
В датасете 5 млрд действий, собранных с 1 млн пользователей на 9 млн треков в Яндекс-музыке:
- Прослушивания
- Лайки и отмены лайков
- Дизлайки и отмены дизлайков
- Аудио-эмбеддинги треков, связи трек-артист-альбом
Все действия разделены метками на органические и те, что вызваны рекомендациями.
Все это в формате Apache Parquet, что удобно для Pandas/Polars.
Есть урезанные версии на 500 и 50 млн действий для разных вычислительных мощностей.
Кому пригодится?
- Исследователям и разработчикам рекомендательных систем для тестирования новых моделей в условиях, близких к продакшену.
- Студентам и энтузиастам для изучения принципов работы рекомендаций на реальных больших данных.
- Инженерам для бенчмаркинга своих алгоритмов против предоставленных Яндексом бейслайнов.
Подробности читайте на Хабре.
Сам датасет забирайте на Hugging Face.
#ии #статьи
❤🔥4👍3🙏2
Мы искали и нашли: мастрид для тех, кто интересуется ИИ-агентами
В IBM Consulting опубликовали мощный и фундаментальный аналитический отчет по агентному ИИ в финансовом секторе. Если планируете внедрять ИИ в корпоративные бизнес-процессы, обязательно прочитайте.
Вот, про что узнаете:
- Текущий суперцикл ИИ, ключевые возможности агентных систем в финансах и основные вызовы, требующие новых подходов к управлению рисками и комплаенсу.
- Эволюция от RPA и чат-ботов до современных LLM-агентов: из каких компонентов состоят агенты (модель, инструменты, слой рассуждений и памяти) и какие сценарии оркестрации нескольких агентов возможны.
- Уникальные риски агентных систем (несоответствие целей, автономные действия, неправильное использование API, ползучие полномочия, обманчивость, предвзятость, дрейф памяти и моделей, проблемы объяснимости, уязвимости безопасности, каскадные эффекты, операционная устойчивость, конфликт между агентами и коллюзия) и ключевые контролы для каждой категории.
- Как встроить оценку рисков и требования комплаенса уже на этапе проектирования (shift-left), какие корпоративные контролы и guardrails нужны, как выстроить централизованный мониторинг, систему управления данными и повысить ИИ-грамотность сотрудников.
- Примеры system cards (OpenAI Operator, Microsoft 365 Copilot), чтобы понять, какие метрики и сведения должны предоставлять вендоры, а также какие роли и обязанности несут поставщики, разработчики и эксплуатационные команды.
- Краткий чек-лист для формирования требований при выборе агентных решений: безопасность, соответствие стандартам, прозрачность моделей, SLA, вопросы приватности и то, как оценивать поставщиков с точки зрения рисков.
- Примерный набор внутриорганизационных ролей (Data Steward, Risk Manager, Security Analyst, AI Ethicist, Product Owner и так далее) с их зонами ответственности при разработке, внедрении и поддержке агентных систем.
Очень круто, что кто-то не просто объяснил, что такое агентный ИИ, чем он отличается от генеративного ИИ, но и погрузился в тему рисков и механизмов их минимизации.
Делитесь со всеми причастными.
#ии #аналитика
В IBM Consulting опубликовали мощный и фундаментальный аналитический отчет по агентному ИИ в финансовом секторе. Если планируете внедрять ИИ в корпоративные бизнес-процессы, обязательно прочитайте.
Вот, про что узнаете:
- Текущий суперцикл ИИ, ключевые возможности агентных систем в финансах и основные вызовы, требующие новых подходов к управлению рисками и комплаенсу.
- Эволюция от RPA и чат-ботов до современных LLM-агентов: из каких компонентов состоят агенты (модель, инструменты, слой рассуждений и памяти) и какие сценарии оркестрации нескольких агентов возможны.
- Уникальные риски агентных систем (несоответствие целей, автономные действия, неправильное использование API, ползучие полномочия, обманчивость, предвзятость, дрейф памяти и моделей, проблемы объяснимости, уязвимости безопасности, каскадные эффекты, операционная устойчивость, конфликт между агентами и коллюзия) и ключевые контролы для каждой категории.
- Как встроить оценку рисков и требования комплаенса уже на этапе проектирования (shift-left), какие корпоративные контролы и guardrails нужны, как выстроить централизованный мониторинг, систему управления данными и повысить ИИ-грамотность сотрудников.
- Примеры system cards (OpenAI Operator, Microsoft 365 Copilot), чтобы понять, какие метрики и сведения должны предоставлять вендоры, а также какие роли и обязанности несут поставщики, разработчики и эксплуатационные команды.
- Краткий чек-лист для формирования требований при выборе агентных решений: безопасность, соответствие стандартам, прозрачность моделей, SLA, вопросы приватности и то, как оценивать поставщиков с точки зрения рисков.
- Примерный набор внутриорганизационных ролей (Data Steward, Risk Manager, Security Analyst, AI Ethicist, Product Owner и так далее) с их зонами ответственности при разработке, внедрении и поддержке агентных систем.
Очень круто, что кто-то не просто объяснил, что такое агентный ИИ, чем он отличается от генеративного ИИ, но и погрузился в тему рисков и механизмов их минимизации.
Делитесь со всеми причастными.
#ии #аналитика
⚡4👍4❤🔥3❤1
Кажется, мало кто переживает по поводу безопасности при внедрении ИИ
В Коммерсанте пишут, что из 43% компаний, которые уже внедрили нейросети в свои процессы, только 36% обеспечили их защиту.
Может, это халатность, а может, все ждут, пока в Минцифры опубликует «Концепцию развития регулирования ИИ до 2030 года»:
При этом в AppSec Solutions предупреждают:
Кажется, что всем стоит поторопиться: регуляторам с требованиями, а бизнесу с внедрением протоколов безопасности, ибо в России растет количество исков из-за ИИ:
В 2021 году таких исков было 112, а в 2024 году их было уже 292. Совокупная сумма исковых требований по уже рассмотренным делам превышает ₽1,7 млрд.
В большинстве случаев — это споры, касающиеся авторского права. На втором месте иски, связанные с защитой прав потребителей.
#ии #безопасность
В Коммерсанте пишут, что из 43% компаний, которые уже внедрили нейросети в свои процессы, только 36% обеспечили их защиту.
Может, это халатность, а может, все ждут, пока в Минцифры опубликует «Концепцию развития регулирования ИИ до 2030 года»:
Сейчас доработка документа почти завершена, в ближайшее время мы согласуем ее с другими ведомствами.
При этом в AppSec Solutions предупреждают:
Особенно уязвимыми становятся ИИ-ассистенты, встроенные в корпоративную инфраструктуру. Они получают доступ к клиентским базам, внутренним документам и системам управления и могут стать источником утечек
Кажется, что всем стоит поторопиться: регуляторам с требованиями, а бизнесу с внедрением протоколов безопасности, ибо в России растет количество исков из-за ИИ:
В 2021 году таких исков было 112, а в 2024 году их было уже 292. Совокупная сумма исковых требований по уже рассмотренным делам превышает ₽1,7 млрд.
В большинстве случаев — это споры, касающиеся авторского права. На втором месте иски, связанные с защитой прав потребителей.
#ии #безопасность
👍4 3❤🔥2🔥2