Темная материя, темная энергия, а теперь еще и темные данные
В недавнем отчете AvePoint сказано, что 64% компаний управляют минимум 1 ПБ данных, а 41% — минимум 500 ПБ. Само по себе это круто, но есть нюанс: от 40% до 90% этих данных не анализируются и не используются.
Как и в случае с темной энергией и темной материей в астрономии, в темных данных нет ничего мрачного или зловещего. Темные они не из-за преступного происхождения, а из-за таинственности, они просто неструктурированные и неиспользуемые: это могут быть логи или старые клиентские отзывы.
Темные данные несут риски (затраты на хранение, сложности с соблюдением нормативов), но вместе с тем дают множество возможностей. Из-за огромного объема темных данных компании упускают ценные инсайты, лишают себя точных решений, упрощенной отчетности и оптимизации расходов.
Не нужно собирать все подряд просто потому, что вы можете. Иногда поиск инсайтов оборачивается поиском иголки в стоге сена.
Чтобы не копить все подряд:
- Собирайте только действительно нужные данные и четко формулируйте цели. Для внешних источников выбирайте надежные сторонние решения с ИИ-возможностями.
- Внедрите политику управления данными, продумайте гигиену данных и проводите регулярные аудиты ROT (redundant, obsolete, trivial). Архивируйте ценное, остальное удаляйте.
- Используйте ИИ-системы для автоматической классификации и приоритизации данных по их бизнес-ценности.
По прогнозам ВЭФ, к 2040 году до 14% мировых выбросов углекислого газа будет приходиться на цифровые данные. Так что осветляйте то, что можете и хотите использовать, и регулярно очищайте архив — сэкономленные на хранении темных данных деньги можно потратить с большей пользой.
#аналитика
В недавнем отчете AvePoint сказано, что 64% компаний управляют минимум 1 ПБ данных, а 41% — минимум 500 ПБ. Само по себе это круто, но есть нюанс: от 40% до 90% этих данных не анализируются и не используются.
Как и в случае с темной энергией и темной материей в астрономии, в темных данных нет ничего мрачного или зловещего. Темные они не из-за преступного происхождения, а из-за таинственности, они просто неструктурированные и неиспользуемые: это могут быть логи или старые клиентские отзывы.
Темные данные несут риски (затраты на хранение, сложности с соблюдением нормативов), но вместе с тем дают множество возможностей. Из-за огромного объема темных данных компании упускают ценные инсайты, лишают себя точных решений, упрощенной отчетности и оптимизации расходов.
Не нужно собирать все подряд просто потому, что вы можете. Иногда поиск инсайтов оборачивается поиском иголки в стоге сена.
Чтобы не копить все подряд:
- Собирайте только действительно нужные данные и четко формулируйте цели. Для внешних источников выбирайте надежные сторонние решения с ИИ-возможностями.
- Внедрите политику управления данными, продумайте гигиену данных и проводите регулярные аудиты ROT (redundant, obsolete, trivial). Архивируйте ценное, остальное удаляйте.
- Используйте ИИ-системы для автоматической классификации и приоритизации данных по их бизнес-ценности.
По прогнозам ВЭФ, к 2040 году до 14% мировых выбросов углекислого газа будет приходиться на цифровые данные. Так что осветляйте то, что можете и хотите использовать, и регулярно очищайте архив — сэкономленные на хранении темных данных деньги можно потратить с большей пользой.
#аналитика
👍6🔥5❤🔥2 1
В Москве появится озеро обезличенных персональных данных для обучения искусственного интеллекта
Москва планирует создание своего регионального озера данных, заявил заместитель руководителя департамента информтехнологий (ДИТ) Москвы Владислав Шишмарев, выступая на конференции First Russian Data Forum 17 апреля. Он отметил, что столичные власти интересует обмен данными государства и бизнеса.
Кто создает это озеро данных?
Правительство Москвы, а точнее Департамент информационных технологий (ДИТ) столицы, разрабатывает региональную информационную систему формирования составов данных (ИС ФРСД).
Кто будет им управлять?
Оператором системы выступит сам ДИТ Москвы.
Как оно будет пополняться?
За счет сбора и обезличивания персональных данных жителей, которые уже обрабатываются столичными госорганами и подведомственными организациями. После обезличивания эти данные автоматически попадают в ИС ФРСД, а часть может передаваться и в федеральное госозеро Минцифры.
Кем и для чего будет использоваться?
Госорганы Москвы будут применять озеро для аналитики и внедрения дата-центричного управления: логистика, социальные сервисы, адресная поддержка и так далее.
Бизнес и разработчики ИИ получат доступ к обезличенным дата-сетам для обучения своих алгоритмов и проведения прикладного анализа: создание продуктов и сервисов на больших данных, повышение качества услуг для граждан и малого/среднего бизнеса.
Какую пользу получит бизнес?
Это будет зависеть от того, на каких условиях бизнес получит дата-сеты и сможет ли воспользоваться результатами их обработки.
Вот, что говорит Алексей Мунтян, эксперт по защите персональных данных:
Забавно.
Получается, пляж к купальному сезону откроют, но в воду заходить запретят?
#аналитика
Москва планирует создание своего регионального озера данных, заявил заместитель руководителя департамента информтехнологий (ДИТ) Москвы Владислав Шишмарев, выступая на конференции First Russian Data Forum 17 апреля. Он отметил, что столичные власти интересует обмен данными государства и бизнеса.
Кто создает это озеро данных?
Правительство Москвы, а точнее Департамент информационных технологий (ДИТ) столицы, разрабатывает региональную информационную систему формирования составов данных (ИС ФРСД).
Кто будет им управлять?
Оператором системы выступит сам ДИТ Москвы.
Как оно будет пополняться?
За счет сбора и обезличивания персональных данных жителей, которые уже обрабатываются столичными госорганами и подведомственными организациями. После обезличивания эти данные автоматически попадают в ИС ФРСД, а часть может передаваться и в федеральное госозеро Минцифры.
Кем и для чего будет использоваться?
Госорганы Москвы будут применять озеро для аналитики и внедрения дата-центричного управления: логистика, социальные сервисы, адресная поддержка и так далее.
Бизнес и разработчики ИИ получат доступ к обезличенным дата-сетам для обучения своих алгоритмов и проведения прикладного анализа: создание продуктов и сервисов на больших данных, повышение качества услуг для граждан и малого/среднего бизнеса.
Какую пользу получит бизнес?
Это будет зависеть от того, на каких условиях бизнес получит дата-сеты и сможет ли воспользоваться результатами их обработки.
Вот, что говорит Алексей Мунтян, эксперт по защите персональных данных:
Это один из самых болезненных вопросов сейчас, когда мы говорим о «госозере» данных, потому что по закону выгрузить из него нельзя ничего, даже результатов анализа информации. Это сильно повлияет на эффективность всей этой затеи.
Забавно.
Получается, пляж к купальному сезону откроют, но в воду заходить запретят?
#аналитика
🐳3👍2🆒2 2❤🔥1
Старший вице-президент Сбера: что ждет рынок больших данных
В 2023 году вице-премьер Дмитрий Чернышенко предрек бурный рост рынка данных в РФ:
С тех пор представителей правительства и корпораций по поводу и без мучают вопросами про это.
Публикуем цитаты из недавнего интервью Кирилла Меньшова, старшего вице-президента и руководителя блока «Технологии» Сбера.
Он рассказал про 4 главных тренда:
1. ИИ-ассистенты возьмут на себя рутину
2. Инфраструктура для генеративного ИИ
3. Интернет вещей и не только
4. ИИ-агенты — клиенты дата-платформ
Роли аналитиков и инженеров изменятся, как и задачи, которые они будут решать. Кто с этими трансформациями лучше справится, тот и в дамках.
#аналитика #ии
В 2023 году вице-премьер Дмитрий Чернышенко предрек бурный рост рынка данных в РФ:
Российский рынок данных — быстрорастущий и перспективный. По прогнозам экспертов, к 2030 году его объем достигнет 800 миллиардов рублей, а применение технологий искусственного интеллекта добавит более 11 триллионов рублей к ВВП.
С тех пор представителей правительства и корпораций по поводу и без мучают вопросами про это.
Публикуем цитаты из недавнего интервью Кирилла Меньшова, старшего вице-президента и руководителя блока «Технологии» Сбера.
Он рассказал про 4 главных тренда:
1. ИИ-ассистенты возьмут на себя рутину
Сегодня на первый план выходит автоматизация задач. Возможности генеративного искусственного интеллекта позволяют внедрять новые решения, которые упрощают и автоматизируют рутинные действия. Многие компании уже внедряют решения, основанные на технологии speech2SQL и text2SQL.
По сути это AI-ассистент, которому можно поставить задачу на естественном языке. Он воспримет ее и преобразует в готовый SQL-код, который затем отправит на исполнение и предоставит пользователю результат в виде графика, выборки данных или таблицы.
2. Инфраструктура для генеративного ИИ
Во всем мире растет сегмент нереляционных баз данных. Мы видим тренд на применении векторных баз данных и видим большой потенциал в развитии графовых. Такие инструменты адаптированы для GenAI и отличаются высокой производительностью.
Не менее важное требование — поставка и обмен большими массивами данных в реальном времени (real time data). Все сервисы компании должны поддерживать поставку данных в моменте. Это большой вызов с точки зрения инфраструктуры и технологий, но другого пути нет.
3. Интернет вещей и не только
К 2035 году данные интернета вещей составят 40% всех доступных данных. Работа с ними потребует значительных инвестиций в технологии и инфраструктуру обработки. Благодаря инструментам генеративного AI удается эффективно справляться с обработкой огромных объемов данных, которые ранее казались неподъемными.
На основе искусственного интеллекта Сбера GigaChat разработали сервис, который восстанавливает описания атрибутов в наших базах данных. Технологии генеративного ИИ позволили решить задачу описания физической модели семи тысяч баз данных и примерно 67,5 млн атрибутов. ИИ справляется с этой работой в 290 раз быстрее человека, восстанавливает 99,6% описаний полей базы данных и генерирует 89% точных и качественных смысловых описаний.
4. ИИ-агенты — клиенты дата-платформ
Основными пользователями дата-платформ будут не аналитики, дата-инженеры и исследователи, а ИИ-агенты. Они решают поставленную задачу под ключ, заменяя типовые ручные рутинные операции. По нашим расчетам, ИИ-агенты увеличат нагрузку на инфраструктуру примерно в пять раз больше других пользователей.
Сегодня ИИ-агенты помогают инженерам и аналитикам быстрее написать код, найти данные, проверить качество, построить графики. А уже завтра по запросу бизнес-пользователей они смогут находить тренды, делать выборки, проверять гипотезы, искать инсайты и строить модели.
Роли аналитиков и инженеров изменятся, как и задачи, которые они будут решать. Кто с этими трансформациями лучше справится, тот и в дамках.
#аналитика #ии
👍5⚡3❤🔥2🔥1
Как посчитать профит дата-команды
Однажды аналитик Максим получил задачу от продуктового директора Марии: «Максим, докажи, что ваша дата-команда реально приносит пользу». Максим вспомнил статью How to think about the ROI of data work и решил с помощью простой формулы и эмодзи доказать зумеру Марии, что его команда не зря получает зарплату.
Максим объяснил Марии:
🎳 — Это число специалистов или систем, которые пользуются нашим решением.
🖇 — Насколько наша работа ускоряет или упрощает их жизнь.
💰 — Сколько каждая единица этой экономии стоит для бизнеса.
⏳ — Сколько человеко-дней мы потратили.
Чтобы убедить Марию, Максим привел свой недавний кейс:
Он автоматизировал отчет, который раньше вручную собирали шесть аналитиков по два часа каждый рабочий день. Новая система стала делать все сама — экономия 100% времени. Один час работы аналитика в их компании стоит примерно $50, значит каждый из шести коллег теперь зарабатывал для бизнеса по $100 в день. Сам проект занял у команды 8 человеко-дней.
Подставив все это в формулу, Максим получил:
Столько выгоды в день получает компания от работы команды.
Когда Мария увидела цифру, она улыбнулась: «Понятно и наглядно!»
Но Максим предупредил: «Не все так просто. Вендоры часто рисуют красивые ROI-презентации, обещают сверхприбыль от еще несуществующих фич — это больше маркетинг, чем реальность. Реальный ROI всегда ниже, потому что мы забываем учесть скрытые издержки: зарплаты, поддержку, последующие доработки».
Вместо того, чтобы увязнуть в бесконечных расчетах, Максим предложил переходить на OKR-подход: привязывать каждую задачу к бизнес-целям и ключевым результатам, чтобы уже по факту спринта можно было увидеть Impact и Value. Так дата-команда получала четкий фокус на самых окупаемых задачах и одновременно создавала платформы и инструменты для масштабного эффекта.
Когда в конце встречи Мария спросила: «А как быть с ROI, например, от покупки нового iPhone для работы?»
Максим улыбнулся и ответил: «Здесь та же формула: посчитайте, сколько вы сэкономите времени и получите пользы, и поделите на затраты. Но сначала лучше завести OKR и измерять настоящий вклад данных!»
И с тех пор в их команде ROI перестал быть пугающим набором цифр — он превратился в понятный инструмент, который помогает выбирать правильные проекты и показывать реальную ценность данных.
#аналитика #деньги #статьи
Однажды аналитик Максим получил задачу от продуктового директора Марии: «Максим, докажи, что ваша дата-команда реально приносит пользу». Максим вспомнил статью How to think about the ROI of data work и решил с помощью простой формулы и эмодзи доказать зумеру Марии, что его команда не зря получает зарплату.
ROI = (🎳 × 🖇 × 💰) / ⏳
Максим объяснил Марии:
🎳 — Это число специалистов или систем, которые пользуются нашим решением.
🖇 — Насколько наша работа ускоряет или упрощает их жизнь.
💰 — Сколько каждая единица этой экономии стоит для бизнеса.
⏳ — Сколько человеко-дней мы потратили.
Чтобы убедить Марию, Максим привел свой недавний кейс:
Он автоматизировал отчет, который раньше вручную собирали шесть аналитиков по два часа каждый рабочий день. Новая система стала делать все сама — экономия 100% времени. Один час работы аналитика в их компании стоит примерно $50, значит каждый из шести коллег теперь зарабатывал для бизнеса по $100 в день. Сам проект занял у команды 8 человеко-дней.
Подставив все это в формулу, Максим получил:
ROI = (6 🎳 × 1 🖇 × $50 💰) / 8 дн ⏳ ≈ $37,5
Столько выгоды в день получает компания от работы команды.
Когда Мария увидела цифру, она улыбнулась: «Понятно и наглядно!»
Но Максим предупредил: «Не все так просто. Вендоры часто рисуют красивые ROI-презентации, обещают сверхприбыль от еще несуществующих фич — это больше маркетинг, чем реальность. Реальный ROI всегда ниже, потому что мы забываем учесть скрытые издержки: зарплаты, поддержку, последующие доработки».
Вместо того, чтобы увязнуть в бесконечных расчетах, Максим предложил переходить на OKR-подход: привязывать каждую задачу к бизнес-целям и ключевым результатам, чтобы уже по факту спринта можно было увидеть Impact и Value. Так дата-команда получала четкий фокус на самых окупаемых задачах и одновременно создавала платформы и инструменты для масштабного эффекта.
Когда в конце встречи Мария спросила: «А как быть с ROI, например, от покупки нового iPhone для работы?»
Максим улыбнулся и ответил: «Здесь та же формула: посчитайте, сколько вы сэкономите времени и получите пользы, и поделите на затраты. Но сначала лучше завести OKR и измерять настоящий вклад данных!»
И с тех пор в их команде ROI перестал быть пугающим набором цифр — он превратился в понятный инструмент, который помогает выбирать правильные проекты и показывать реальную ценность данных.
#аналитика #деньги #статьи
👍5🙏3❤🔥2🔥1
Кейс: как наружка заменяет таргетинг. И причем тут большие данные и нейросети
Рекламные бюджеты все чаще уходят в цифру, но коллаборация Билайна и Делимобиля показывает: наружная реклама может быть не менее эффективной, особенно когда ее подкрепляет аналитика больших данных и ИИ.
Суть проекта
Делимобиль разместил стикеры на 300 авто в Москве, чтобы продвинуть новый сервис. Раньше метрики ограничивались подсчетом арендаторов оклеенных машин каршеринга, но это не отражало реального охвата — рекламу видели и пешеходы, и другие водители. Задача была амбициозной: оцифровать охват, частоту контактов и процент аудитории, которая фактически видела сообщение.
Роль больших данных и искусственного интеллекта
1. Геоданные от Делимобиля
Автомобили оснащены телематикой, фиксирующей их местоположение каждые 5–10 секунд. Это дало точную карту маршрутов.
2. Анонимизированные данные Билайна
Сотовый оператор предоставил агрегированные данные о перемещении людей через нагрузку на базовые станции. Так можно было определить, сколько пользователей находились рядом с рекламными авто.
3. Искусственный интеллект для очистки данных
Алгоритмы исключили шум — места вроде торговых центров или развязок, где высокая проходимость не гарантирует внимания к рекламе. Также ИИ сегментировал аудиторию и рассчитал частоту контактов.
Результаты, которые перевернули подход к наружке
Охват: 7,6 млн уникальных пользователей за кампанию против прежних 100 тысяч (только арендаторы).
Частота: до 20 контактов с сообщением на человека.
39% жителей Москвы увидели рекламу уже в первый месяц.
Парковки против движения: припаркованные машины генерировали на 16% больше просмотров благодаря пешеходному трафику. Старыми методами аналитики это вообще не учитывалось.
Вывод
Этот кейс — пример того, как большие данные и ИИ превращают наружную рекламу в умный инструмент с измеримой эффективностью. Вместо точечного таргетинга — широкий охват с аналитикой, которая раньше была недоступна. Для брендов это шанс выйти за рамки диджитал-пузыря и достучаться до аудитории там, где она живет: в офлайне.
Поделитесь со знакомыми таргетологами. Интересно, что они скажут.
#ии #аналитика #деньги
Рекламные бюджеты все чаще уходят в цифру, но коллаборация Билайна и Делимобиля показывает: наружная реклама может быть не менее эффективной, особенно когда ее подкрепляет аналитика больших данных и ИИ.
Суть проекта
Делимобиль разместил стикеры на 300 авто в Москве, чтобы продвинуть новый сервис. Раньше метрики ограничивались подсчетом арендаторов оклеенных машин каршеринга, но это не отражало реального охвата — рекламу видели и пешеходы, и другие водители. Задача была амбициозной: оцифровать охват, частоту контактов и процент аудитории, которая фактически видела сообщение.
Роль больших данных и искусственного интеллекта
1. Геоданные от Делимобиля
Автомобили оснащены телематикой, фиксирующей их местоположение каждые 5–10 секунд. Это дало точную карту маршрутов.
2. Анонимизированные данные Билайна
Сотовый оператор предоставил агрегированные данные о перемещении людей через нагрузку на базовые станции. Так можно было определить, сколько пользователей находились рядом с рекламными авто.
3. Искусственный интеллект для очистки данных
Алгоритмы исключили шум — места вроде торговых центров или развязок, где высокая проходимость не гарантирует внимания к рекламе. Также ИИ сегментировал аудиторию и рассчитал частоту контактов.
Результаты, которые перевернули подход к наружке
Охват: 7,6 млн уникальных пользователей за кампанию против прежних 100 тысяч (только арендаторы).
Частота: до 20 контактов с сообщением на человека.
39% жителей Москвы увидели рекламу уже в первый месяц.
Парковки против движения: припаркованные машины генерировали на 16% больше просмотров благодаря пешеходному трафику. Старыми методами аналитики это вообще не учитывалось.
Вывод
Этот кейс — пример того, как большие данные и ИИ превращают наружную рекламу в умный инструмент с измеримой эффективностью. Вместо точечного таргетинга — широкий охват с аналитикой, которая раньше была недоступна. Для брендов это шанс выйти за рамки диджитал-пузыря и достучаться до аудитории там, где она живет: в офлайне.
Поделитесь со знакомыми таргетологами. Интересно, что они скажут.
#ии #аналитика #деньги
👍5❤🔥4🔥3👌1
Вредные советы: как не внедрить data-driven с помощью магии
Есть выражения, произнося которые, даже очень рациональные люди скатываются в магическое мышление. Печально, но модные слова часто становятся самостоятельными трендами, отвлекая на себя внимание от тех самых трендов, для которых были придуманы.
Новая этика, импортозамещение, здравый смысл, права человека, цифровая трансформация, управление на основе данных.
Корпоративная культура — это не тон оф войс, это гайдлайн. Одним расширением лексикона не отделаться, нужно переосмыслять подходы, привычки, уклады. Это трудно и дорого, а слова бесплатные.
В статье «Data-driven в одном iGaming проекте: когда культура работы с данными не приживается» автор делится своим опытом и предлагает разделить с ним негодование. Как и почему корпоративная культура, в которой полно ML-специалистов, аналитиков и всяких инженеров, отторгла data-driven подход, когда ей его попытались привить?
Делимся его вредными советами для топ-менеджеров и главными инсайтами:
1. Управляйте словами, люди лучше всего понимают образы и абстракции. Профессионалы сами разберутся, какие цифры и когда им нужны.
2. Следите, чтобы сотрудники были проактивны и любознательны. Если отчеты есть, то пущай привыкают и пользуются. Главное, чтобы отчеты были, а то нечем будет пользоваться.
3. Отчеты и цифры нужны только аналитикам. Им это близко и понятно, вот от них и ожидайте инсайты и основанные на данных решения.
4. Ставьте цели в цифрах, разрабатывайте метрики, но не утруждайте себя поиском и оценкой ресурсов, которые позволят этих целей добиться.
5. Если сотрудники сообщили о баге, немедленно бросьте все силы на решение. Похвалите за разрешение проблемы и постарайтесь замять разбор причин, это только добавит перчинки в работу коллег.
Опыт, в котором автор выстрадал эти советы, описан в статье, а мы сфокусируемся на интересной детали. Ничего в этих советах не покажется инновационным тому, кто ни разу не слышал про data-driven. Если в какой-то компании производят отчеты, которыми никто не пользуется, то им выражение data-driven нужнее остальных, ибо им можно заменить напрашивающуюся брань.
Неважно, как где называется подход к управлению на основе данных. Вон, на юге России баклажаны называют синенькими. Еще раз: слова бесплатные, а баклажаны на рынке за деньги продаются.
#аналитика #статьи
Есть выражения, произнося которые, даже очень рациональные люди скатываются в магическое мышление. Печально, но модные слова часто становятся самостоятельными трендами, отвлекая на себя внимание от тех самых трендов, для которых были придуманы.
Новая этика, импортозамещение, здравый смысл, права человека, цифровая трансформация, управление на основе данных.
Корпоративная культура — это не тон оф войс, это гайдлайн. Одним расширением лексикона не отделаться, нужно переосмыслять подходы, привычки, уклады. Это трудно и дорого, а слова бесплатные.
В статье «Data-driven в одном iGaming проекте: когда культура работы с данными не приживается» автор делится своим опытом и предлагает разделить с ним негодование. Как и почему корпоративная культура, в которой полно ML-специалистов, аналитиков и всяких инженеров, отторгла data-driven подход, когда ей его попытались привить?
Делимся его вредными советами для топ-менеджеров и главными инсайтами:
1. Управляйте словами, люди лучше всего понимают образы и абстракции. Профессионалы сами разберутся, какие цифры и когда им нужны.
2. Следите, чтобы сотрудники были проактивны и любознательны. Если отчеты есть, то пущай привыкают и пользуются. Главное, чтобы отчеты были, а то нечем будет пользоваться.
3. Отчеты и цифры нужны только аналитикам. Им это близко и понятно, вот от них и ожидайте инсайты и основанные на данных решения.
4. Ставьте цели в цифрах, разрабатывайте метрики, но не утруждайте себя поиском и оценкой ресурсов, которые позволят этих целей добиться.
5. Если сотрудники сообщили о баге, немедленно бросьте все силы на решение. Похвалите за разрешение проблемы и постарайтесь замять разбор причин, это только добавит перчинки в работу коллег.
Опыт, в котором автор выстрадал эти советы, описан в статье, а мы сфокусируемся на интересной детали. Ничего в этих советах не покажется инновационным тому, кто ни разу не слышал про data-driven. Если в какой-то компании производят отчеты, которыми никто не пользуется, то им выражение data-driven нужнее остальных, ибо им можно заменить напрашивающуюся брань.
Неважно, как где называется подход к управлению на основе данных. Вон, на юге России баклажаны называют синенькими. Еще раз: слова бесплатные, а баклажаны на рынке за деньги продаются.
#аналитика #статьи
🤓5👀4 2❤🔥1👍1
Смерть оригинальности
Современное кино намеренно убивает оригинальность. Оригинальные сценарии не пускают в производство, потому что оригинальность непредсказуема, а непредсказуемость приносит киностудиям убытки.
Как же быть? Надо быть, как Доктор Стрендж с камнем времени. Просто загляните в будущее и узнаете, какой фильм понравится публике, а какой нет.
Как? С помощью дата-аналитики, конечно.
Если вы не смотрели «Карточный домик» с отмененным Кевином Спейси, то наверняка хотя бы слышали про него. Если бы не дата-аналитики, этот сериал не случился бы.
Обычно все устроено так: нашли сценарий, собрали актеров, наняли режиссера, сняли пилотную серию, показали и только потом вам разрешат тратить большие деньги на производство. Пилотный выпуск — типа MVP в мире телевидения.
И в 2011 году в Нетфликсе поступили немыслимо самонадеянно: сразу заказали в производство 2 сезона «Карточного домика», съемки которых обошлись в $100 млн. Без пилотной серии и сомнений в будущем успехе.
Почему они так рискнули?
Риска не было. Аналитики сопоставили 3 фактора, обработав колоссальные объемы данных: зрителям нравятся сериалы с Кевином Спейси, зрители любят Дэвида Финчера, просмотры политических драм растут.
В Нетфликсе предсказали 20 млн зрителей в первый месяц, фактически вышло 23. Это невероятная точность для кинобизнеса.
Отрывок из книги Бена Фритца «Битва за прокат. Как легендарные франшизы убивают оригинальность в Голливуде»:
То, что режиссеры-визионеры создавали, прислушиваясь к своему профессиональному чутью и таланту мировосприятия, Нетфликс оцифровал, разложил на дашборды и поставил на конвейер.
Сегодня в Нетфликсе работает 350 собственных исследователей, ML-инженеров и аналитиков. В Диснее, Ворнер Бразерс и Юниверсал по 100-200 человек в командах Data & Analytics, Marketing Science и Audience Insights.
Эпоха, когда ради сборов в фильме нужно было непременно снять звезду, прошла. Раньше гарантировать прибыль могли только те проекты, у которых хватало бюджета на заоблачные гонорары Тому Крузу, Брэду Питту и Ди Каприо. Сегодня можно обойтись без актеров первого эшелона, если вместо них пригласить дата-аналитиков.
Первые Мстители не произвели фурора в китайских кинотеатрах? Изучите, сколько экранного времени у китайских актеров в западных фильмах, тепло встреченных китайской публикой. Если у ваших китайцев этого времени меньше, поправьте сценарий.
Если не знаете, какого персонажа следующим лучше ввести в сюжет, чтобы история была более захватывающей, то вы не о том думаете. Хотите, чтобы зрителю понравился новый герой? Обратитесь к исследованиям в других индустриях: от каких игрушек дети пищат и какие принты на футболках у взрослых фанатов?
Причем тут Человек Паук?
Не только дата-аналитики убили оригинальность, но и киновселенные.
Зачем рисковать, снимая фильм по оригинальному сценарию, если можно просто выпустить следующую часть успешной франшизы? А началось засилие кинофраншиз не с киновселенной Марвел, а с Человека Паука в исполнении Тоби Магуайра.
Теперь кино — это про простые и развлекательные проекты, а телевидение и сериалы — про сложные авторские идеи. Все перевернулось, как только пришли аналитики и начали считать.
#аналитика #деньги
Современное кино намеренно убивает оригинальность. Оригинальные сценарии не пускают в производство, потому что оригинальность непредсказуема, а непредсказуемость приносит киностудиям убытки.
Как же быть? Надо быть, как Доктор Стрендж с камнем времени. Просто загляните в будущее и узнаете, какой фильм понравится публике, а какой нет.
Как? С помощью дата-аналитики, конечно.
Если вы не смотрели «Карточный домик» с отмененным Кевином Спейси, то наверняка хотя бы слышали про него. Если бы не дата-аналитики, этот сериал не случился бы.
Обычно все устроено так: нашли сценарий, собрали актеров, наняли режиссера, сняли пилотную серию, показали и только потом вам разрешат тратить большие деньги на производство. Пилотный выпуск — типа MVP в мире телевидения.
И в 2011 году в Нетфликсе поступили немыслимо самонадеянно: сразу заказали в производство 2 сезона «Карточного домика», съемки которых обошлись в $100 млн. Без пилотной серии и сомнений в будущем успехе.
Почему они так рискнули?
Риска не было. Аналитики сопоставили 3 фактора, обработав колоссальные объемы данных: зрителям нравятся сериалы с Кевином Спейси, зрители любят Дэвида Финчера, просмотры политических драм растут.
В Нетфликсе предсказали 20 млн зрителей в первый месяц, фактически вышло 23. Это невероятная точность для кинобизнеса.
Отрывок из книги Бена Фритца «Битва за прокат. Как легендарные франшизы убивают оригинальность в Голливуде»:
Если Нетфликс не может рассчитывать на Голливуд [телеканалы и студии отказывались продавать Нетфликсу контент, видя в нем опасного конкурента], значит, ему придется производить контент самому. Но процесс его отбора должен быть совершенно иным. Вместо того чтобы полагаться на фокус-группы, субъективные сравнения с аналогичным контентом и интуицию руководителей, Нетфликс использовал данные.
То, что режиссеры-визионеры создавали, прислушиваясь к своему профессиональному чутью и таланту мировосприятия, Нетфликс оцифровал, разложил на дашборды и поставил на конвейер.
Сегодня в Нетфликсе работает 350 собственных исследователей, ML-инженеров и аналитиков. В Диснее, Ворнер Бразерс и Юниверсал по 100-200 человек в командах Data & Analytics, Marketing Science и Audience Insights.
Эпоха, когда ради сборов в фильме нужно было непременно снять звезду, прошла. Раньше гарантировать прибыль могли только те проекты, у которых хватало бюджета на заоблачные гонорары Тому Крузу, Брэду Питту и Ди Каприо. Сегодня можно обойтись без актеров первого эшелона, если вместо них пригласить дата-аналитиков.
Первые Мстители не произвели фурора в китайских кинотеатрах? Изучите, сколько экранного времени у китайских актеров в западных фильмах, тепло встреченных китайской публикой. Если у ваших китайцев этого времени меньше, поправьте сценарий.
Если не знаете, какого персонажа следующим лучше ввести в сюжет, чтобы история была более захватывающей, то вы не о том думаете. Хотите, чтобы зрителю понравился новый герой? Обратитесь к исследованиям в других индустриях: от каких игрушек дети пищат и какие принты на футболках у взрослых фанатов?
Причем тут Человек Паук?
Не только дата-аналитики убили оригинальность, но и киновселенные.
Зачем рисковать, снимая фильм по оригинальному сценарию, если можно просто выпустить следующую часть успешной франшизы? А началось засилие кинофраншиз не с киновселенной Марвел, а с Человека Паука в исполнении Тоби Магуайра.
Теперь кино — это про простые и развлекательные проекты, а телевидение и сериалы — про сложные авторские идеи. Все перевернулось, как только пришли аналитики и начали считать.
#аналитика #деньги
👍8❤🔥6🎉4
Вам не нужно хранить столько данных. Или нужно?
На BigDATAwire собрали в кучу результаты разных исследований и отчетов. По инсайтам и выводам вышло густо. Разбираемся.
В Gresham опросили 200 старших специалистов по данным из финансовых компаний США и Великобритании и выяснили, что 44% сталкиваются с проблемами. Внимание! Из-за избытка данных или из-за того, что хранят их в слишком многих местах.
О как! Пока кто-то еще только планирует управлять данными по-взрослому, кто-то уже заигрался и насобирал больше, чем может переварить.
По данным опроса Fivetran, 40% ИИ-проектов терпят неудачу или не достигают целей из-за недостатков в управлении данными.
Выходит, что в ЕС главный вызов для технологического и финансового сектора — не доступ к большим данным, а управление ими.
И с 2025 года регуляторы помогают бизнесу с этим вызовом справиться.
Регуляторная инициатива DORA — кнут и пряник в одном наборе. Хотя, больше кнут, конечно. Без соответствия DORA компании не могут внедрять технологии генеративного ИИ, так как их данные не считаются готовыми для обучения моделей.
Соблюдение DORA позволяет партнериться с банками и биржами и минимизирует риски утечек. Кроме того, по данным опросов, инвесторы охотнее вкладываются в компании, которые выполняют предусмотренные в DORA требования.
И напоследок.
Мы уже писали, что отладка пайплайнов — это первый в очереди кандидат на автоматизацию с помощью ИИ. Но мы не знали, сколько времени эти процессы занимают у инженеров. Теперь знаем: 80% ресурсов инженеров данных тратится на поддержку существующих ETL-пайплайнов, даже в компаниях с централизованными данными.
Ну и чем займетесь в свободное время?
#аналитика #статьи #исследования
На BigDATAwire собрали в кучу результаты разных исследований и отчетов. По инсайтам и выводам вышло густо. Разбираемся.
В Gresham опросили 200 старших специалистов по данным из финансовых компаний США и Великобритании и выяснили, что 44% сталкиваются с проблемами. Внимание! Из-за избытка данных или из-за того, что хранят их в слишком многих местах.
О как! Пока кто-то еще только планирует управлять данными по-взрослому, кто-то уже заигрался и насобирал больше, чем может переварить.
По данным опроса Fivetran, 40% ИИ-проектов терпят неудачу или не достигают целей из-за недостатков в управлении данными.
Выходит, что в ЕС главный вызов для технологического и финансового сектора — не доступ к большим данным, а управление ими.
И с 2025 года регуляторы помогают бизнесу с этим вызовом справиться.
Регуляторная инициатива DORA — кнут и пряник в одном наборе. Хотя, больше кнут, конечно. Без соответствия DORA компании не могут внедрять технологии генеративного ИИ, так как их данные не считаются готовыми для обучения моделей.
Соблюдение DORA позволяет партнериться с банками и биржами и минимизирует риски утечек. Кроме того, по данным опросов, инвесторы охотнее вкладываются в компании, которые выполняют предусмотренные в DORA требования.
И напоследок.
Мы уже писали, что отладка пайплайнов — это первый в очереди кандидат на автоматизацию с помощью ИИ. Но мы не знали, сколько времени эти процессы занимают у инженеров. Теперь знаем: 80% ресурсов инженеров данных тратится на поддержку существующих ETL-пайплайнов, даже в компаниях с централизованными данными.
Ну и чем займетесь в свободное время?
#аналитика #статьи #исследования
👍4🔥4❤🔥3
С помощью данных можно предсказать увольнение сотрудника
В InfoWatch получили патент на систему для прогнозирования увольнений.
Система представляет собой программно-аппаратный комплекс. ПАК отслеживает поведение сотрудников и строит математическую модель действий. При выявлении аномалий в поведении система формирует группы риска, указывающие на возможные намерения уволиться, снижение лояльности или падение вовлеченности.
В InfoWatch утверждают, что система прошла тестирование и с точностью до 80% может предсказать увольнение сотрудника за 25 дней до его ухода.
Интересно, как отреагируют зумеры, если узнают, что за ними следят, чтобы понять, не собираются ли они уволиться? Каждый десятый зумер, кстати, хотел бы, чтобы его руководителя заменили на искусственный интеллект.
#ии #аналитика
В InfoWatch получили патент на систему для прогнозирования увольнений.
Система представляет собой программно-аппаратный комплекс. ПАК отслеживает поведение сотрудников и строит математическую модель действий. При выявлении аномалий в поведении система формирует группы риска, указывающие на возможные намерения уволиться, снижение лояльности или падение вовлеченности.
В InfoWatch утверждают, что система прошла тестирование и с точностью до 80% может предсказать увольнение сотрудника за 25 дней до его ухода.
Интересно, как отреагируют зумеры, если узнают, что за ними следят, чтобы понять, не собираются ли они уволиться? Каждый десятый зумер, кстати, хотел бы, чтобы его руководителя заменили на искусственный интеллект.
#ии #аналитика
🔥6👍5❤🔥2😁1
DataYoga.pdf
13 MB
Работаем с данными в позе собаки
Нашли крутую книгу от образовательного бренда DataYoga: «Дата йога: грамотная работа с данными».
Книга — источник подходов и советов по созданию визуальных форм ваших данных. Авторы учат создавать красоту из сложных хитросплетений абстрактных данных, задавать аналитические вопросы и разрабатывать интерактивные дашборды.
Темы книги:
- Разобраться в управленческих технологиях и видеть ключевые показатели эффективности визуально.
- Уметь правильно выбирать и настраивать виды визуализации под вашу задачу.
- Понимать пользователя и его поведение.
- Узнать как различные шрифты управляют вниманием, что такое изящность и какой шрифт подобрать для цифр.
- Как переносить стили художников и их цветовые палитры в дизайн своих информационных продуктов.
- Уметь различать 50 оттенков серого, знать их названия и понимать природу цвета, уверенно подбирать свои целевые палитры для данных.
- Различать зрительные иллюзии и понимать людей с особенностями восприятия.
- Уметь выстраивать аргументы за использование таблиц для работы с цифрами, и настаивать на применение визуализации для аналитических целей.
- Противодействовать когнитивным искажениям, знать их природу и не допускать ошибок визуализациях и презентациях.
- Освоить составление информативных заголовков, аналитических выводов и аннотаций, правильно размещать метаданные.
Мастрид для всех, кто занимается визуализацией данных.
Если бы не книга, редактор не пополнил бы свою коллекцию цитатами Йоги Берра:
Кроме книги в DataYoga предлагают бесплатные марафоны по Qlik, Tableau, Yandex DataLens.
#аналитика
Нашли крутую книгу от образовательного бренда DataYoga: «Дата йога: грамотная работа с данными».
Книга — источник подходов и советов по созданию визуальных форм ваших данных. Авторы учат создавать красоту из сложных хитросплетений абстрактных данных, задавать аналитические вопросы и разрабатывать интерактивные дашборды.
Темы книги:
- Разобраться в управленческих технологиях и видеть ключевые показатели эффективности визуально.
- Уметь правильно выбирать и настраивать виды визуализации под вашу задачу.
- Понимать пользователя и его поведение.
- Узнать как различные шрифты управляют вниманием, что такое изящность и какой шрифт подобрать для цифр.
- Как переносить стили художников и их цветовые палитры в дизайн своих информационных продуктов.
- Уметь различать 50 оттенков серого, знать их названия и понимать природу цвета, уверенно подбирать свои целевые палитры для данных.
- Различать зрительные иллюзии и понимать людей с особенностями восприятия.
- Уметь выстраивать аргументы за использование таблиц для работы с цифрами, и настаивать на применение визуализации для аналитических целей.
- Противодействовать когнитивным искажениям, знать их природу и не допускать ошибок визуализациях и презентациях.
- Освоить составление информативных заголовков, аналитических выводов и аннотаций, правильно размещать метаданные.
Мастрид для всех, кто занимается визуализацией данных.
Если бы не книга, редактор не пополнил бы свою коллекцию цитатами Йоги Берра:
В теории нет разницы между практикой и теорией. Но на практике она есть.
Кроме книги в DataYoga предлагают бесплатные марафоны по Qlik, Tableau, Yandex DataLens.
#аналитика
🔥5❤🔥3👍2👾2
- Организационная культура и компетенции: Высокая вовлеченность сотрудников, непрерывные информационные тренинги, четко сформированные роли Data Engineer, Data Scientist, Business Analyst. Культура постоянного экспериментирования: fail fast, learn faster.
- Клиентский опыт: Пользовательских болей почти нет: цифровая экосистема обеспечивает клиенту максимально простой путь — от оформления продукта до его получения и поддержки. NPS находится на высоком уровне благодаря технологической гибкости и быстрому отклику на запросы.
Итого:
Каждый следующий уровень не просто добавляет три-четыре новых инструмента, а качественно меняет подход работы с данными и принятия решений. Ключевая дифференциация между ними заключается в глубине встроенности цифровых практик:
- Наличие системы и стратегии: от отсутствия единого понимания до четко артикулированной долговременной программы.
- Степень интеграции: от изолированных точечных решений до работающей экосистемы, где данные легко передаются между различными компонентами.
- Роль данных в принятии решений: от интуитивного подхода к полноценному data-driven.
- Культура и компетенции: от усталого отношения к айти-инициативам до активного обучения и генерации внутренних точек роста со стороны сотрудников.
#аналитика #статьи
- Клиентский опыт: Пользовательских болей почти нет: цифровая экосистема обеспечивает клиенту максимально простой путь — от оформления продукта до его получения и поддержки. NPS находится на высоком уровне благодаря технологической гибкости и быстрому отклику на запросы.
Итого:
Каждый следующий уровень не просто добавляет три-четыре новых инструмента, а качественно меняет подход работы с данными и принятия решений. Ключевая дифференциация между ними заключается в глубине встроенности цифровых практик:
- Наличие системы и стратегии: от отсутствия единого понимания до четко артикулированной долговременной программы.
- Степень интеграции: от изолированных точечных решений до работающей экосистемы, где данные легко передаются между различными компонентами.
- Роль данных в принятии решений: от интуитивного подхода к полноценному data-driven.
- Культура и компетенции: от усталого отношения к айти-инициативам до активного обучения и генерации внутренних точек роста со стороны сотрудников.
#аналитика #статьи
Инсайты из 1000 бесед с командами дата-аналитиков
Рассказываем самое интересное из статьи Миккеля Денсё Data about data from 1,000 conversations with data teams, в которой автор делится инсайтами, полученными из 1000 бесед с дата-командами на платформе Synq.
1. DWH как центр управления бизнесом
Раньше DWH использовались только для сводных отчетов. Сегодня туда сводят данные из разных систем, чтобы запустить ML-модели, автоматизировать рекламные кампании и готовить отчеты.
В одном крупном интернет-магазине из-за сбоя в канале передачи данных неправильные CLTV-метрики показали, что на рекламные кампании можно тратить больше. За пару часов некорректного запуска пайплайна команда потратила на рекламу лишние $100 000.
Если DWH влияет на бизнес-решения и доход, к нему нужно относиться как к продакшн-инфраструктуре. Внедрите SLA-алерты, четкие процессы инцидент-менеджмента и метрики качества данных: процент успешных загрузок, время восстановления после ошибки.
2. Масштаб и цена заблуждения при росте стеков
В этом исследовании 20% команд, которые используют DBT (data build tool), отметили, что в их проекте более 1000 моделей. Еще 5% проектов имеют свыше 5000 таких моделей.
Модель в DBT – это SQL-скрипт, который преобразует сырые данные в готовые таблицы для аналитиков или других систем.
В Siemens один инстанс DBT обслуживает более 800 отдельных проектов. В этой экосистеме работают 550 дата-инженеров и аналитиков. Ежедневно запускается около 2500 задач преобразования данных и обрабатывается примерно 85 000 DBT-моделей. При таких объемах невозможно помнить, кто отвечает за каждую модель или отчет.
Командам нужны карты ответственности – документы, где указано, кто владеет каждой моделью и дашбордом. Без этого легко упускать из виду устаревшие модели, дубли и неиспользуемые отчеты.
3. Тестирование как инструмент доверия, а не галочка
Раньше данные проверяли на простой уровень качества: NOT NULL и UNIQUE, чтобы убедиться, что нет пустых или дублирующих записей. Сейчас нужны тесты, которые отражают бизнес-логику и специфику источников.
На маркетплейсе, где раз в неделю обновляют ML-модель прогнозирования цен на автомобили, команда блокирует выгрузку в AWS S3, если исторические данные не полные за последние 12 месяцев. Для обучения модели важна не только свежесть, но и непрерывная временная серия.
В медийной компании данные о кликах и показах поступают от тысяч партнеров: поток достигает сотен тысяч строк в день. Если хотя бы один партнер задержит данные, дашборды окажутся пустыми. Команда ежедневно сравнивает фактический объем строк с ожидаемым диапазоном, чтобы вовремя обнаружить исчезновение данных, а не исправлять последствия нерегулярной поставки.
Пора понять, что DWH — не источник отчетов, а центр управления бизнесом. Так-то.
#аналитика #статьи
Рассказываем самое интересное из статьи Миккеля Денсё Data about data from 1,000 conversations with data teams, в которой автор делится инсайтами, полученными из 1000 бесед с дата-командами на платформе Synq.
1. DWH как центр управления бизнесом
Раньше DWH использовались только для сводных отчетов. Сегодня туда сводят данные из разных систем, чтобы запустить ML-модели, автоматизировать рекламные кампании и готовить отчеты.
В одном крупном интернет-магазине из-за сбоя в канале передачи данных неправильные CLTV-метрики показали, что на рекламные кампании можно тратить больше. За пару часов некорректного запуска пайплайна команда потратила на рекламу лишние $100 000.
Если DWH влияет на бизнес-решения и доход, к нему нужно относиться как к продакшн-инфраструктуре. Внедрите SLA-алерты, четкие процессы инцидент-менеджмента и метрики качества данных: процент успешных загрузок, время восстановления после ошибки.
2. Масштаб и цена заблуждения при росте стеков
В этом исследовании 20% команд, которые используют DBT (data build tool), отметили, что в их проекте более 1000 моделей. Еще 5% проектов имеют свыше 5000 таких моделей.
Модель в DBT – это SQL-скрипт, который преобразует сырые данные в готовые таблицы для аналитиков или других систем.
В Siemens один инстанс DBT обслуживает более 800 отдельных проектов. В этой экосистеме работают 550 дата-инженеров и аналитиков. Ежедневно запускается около 2500 задач преобразования данных и обрабатывается примерно 85 000 DBT-моделей. При таких объемах невозможно помнить, кто отвечает за каждую модель или отчет.
Командам нужны карты ответственности – документы, где указано, кто владеет каждой моделью и дашбордом. Без этого легко упускать из виду устаревшие модели, дубли и неиспользуемые отчеты.
3. Тестирование как инструмент доверия, а не галочка
Раньше данные проверяли на простой уровень качества: NOT NULL и UNIQUE, чтобы убедиться, что нет пустых или дублирующих записей. Сейчас нужны тесты, которые отражают бизнес-логику и специфику источников.
На маркетплейсе, где раз в неделю обновляют ML-модель прогнозирования цен на автомобили, команда блокирует выгрузку в AWS S3, если исторические данные не полные за последние 12 месяцев. Для обучения модели важна не только свежесть, но и непрерывная временная серия.
В медийной компании данные о кликах и показах поступают от тысяч партнеров: поток достигает сотен тысяч строк в день. Если хотя бы один партнер задержит данные, дашборды окажутся пустыми. Команда ежедневно сравнивает фактический объем строк с ожидаемым диапазоном, чтобы вовремя обнаружить исчезновение данных, а не исправлять последствия нерегулярной поставки.
Пора понять, что DWH — не источник отчетов, а центр управления бизнесом. Так-то.
#аналитика #статьи
👍5❤🔥4🔥3 1
Одними айтишниками цифровую трансформацию не провести
Инвестиции в цифровые инициативы и платформы для управления данными растут. Однако по данным Gartner, меньше половины таких проектов достигают бизнес-целей.
Главная причина — цифровую трансформацию замыкают внутри айти, оставляя по ту сторону всех остальных: бизнес-руководителей, аналитиков, маркетинг, финансы, продуктовые команды.
Успешные компании действуют иначе: вовлекают в работу с данными всех, кто влияет на бизнес, и получают в 2 раза больше эффекта. Их называют Digital Vanguards — и у них стоит поучиться.
Только 48% цифровых инициатив в мире достигают бизнес-целей. У Digital Vanguards этот показатель — 71%. Они делают два принципиально важных шага:
1. Разделяют ответственность за проекты между CIO и другими топ-менеджерами.
2. Создают условия, чтобы бизнес-команды работали с данными и технологиями напрямую, а не через заявки в айти-отделы.
Зачем подключать кого-то, кроме айтишников
1. Только бизнес может точно сформулировать, какие данные нужны для принятия решений, где искать инсайты, что измерять. Без этого айтишники работают вслепую.
2. Если каждый дашборд, отчет или модель надо заказывать через айти-отдел, процесс тормозится. Подключая бизнес, компании дают ему инструменты прямо в руки.
3. Визуализация происхождения данных, доступность диаграмм и отслеживаемость истории данных повышают доверие к ним — особенно если это доступно не только инженерам, но и бизнесу.
4. Когда топ-менеджеры участвуют в создании цифровых решений — они не просто клиенты, они соавторы. Это повышает вовлеченность, инициативность и фокус на результате.
Если хотите, чтобы инвестиции в данные приносили результат — дайте бизнесу инструменты, знания и право действовать, а не возможность оставить заявку для айтишников на получение отчета или создание очередного дашборда.
#аналитика #исследования
Инвестиции в цифровые инициативы и платформы для управления данными растут. Однако по данным Gartner, меньше половины таких проектов достигают бизнес-целей.
Главная причина — цифровую трансформацию замыкают внутри айти, оставляя по ту сторону всех остальных: бизнес-руководителей, аналитиков, маркетинг, финансы, продуктовые команды.
Успешные компании действуют иначе: вовлекают в работу с данными всех, кто влияет на бизнес, и получают в 2 раза больше эффекта. Их называют Digital Vanguards — и у них стоит поучиться.
Только 48% цифровых инициатив в мире достигают бизнес-целей. У Digital Vanguards этот показатель — 71%. Они делают два принципиально важных шага:
1. Разделяют ответственность за проекты между CIO и другими топ-менеджерами.
2. Создают условия, чтобы бизнес-команды работали с данными и технологиями напрямую, а не через заявки в айти-отделы.
Зачем подключать кого-то, кроме айтишников
1. Только бизнес может точно сформулировать, какие данные нужны для принятия решений, где искать инсайты, что измерять. Без этого айтишники работают вслепую.
2. Если каждый дашборд, отчет или модель надо заказывать через айти-отдел, процесс тормозится. Подключая бизнес, компании дают ему инструменты прямо в руки.
3. Визуализация происхождения данных, доступность диаграмм и отслеживаемость истории данных повышают доверие к ним — особенно если это доступно не только инженерам, но и бизнесу.
4. Когда топ-менеджеры участвуют в создании цифровых решений — они не просто клиенты, они соавторы. Это повышает вовлеченность, инициативность и фокус на результате.
Если хотите, чтобы инвестиции в данные приносили результат — дайте бизнесу инструменты, знания и право действовать, а не возможность оставить заявку для айтишников на получение отчета или создание очередного дашборда.
#аналитика #исследования
🔥4❤3👌3👍2
Мы искали и нашли: мастрид для тех, кто интересуется ИИ-агентами
В IBM Consulting опубликовали мощный и фундаментальный аналитический отчет по агентному ИИ в финансовом секторе. Если планируете внедрять ИИ в корпоративные бизнес-процессы, обязательно прочитайте.
Вот, про что узнаете:
- Текущий суперцикл ИИ, ключевые возможности агентных систем в финансах и основные вызовы, требующие новых подходов к управлению рисками и комплаенсу.
- Эволюция от RPA и чат-ботов до современных LLM-агентов: из каких компонентов состоят агенты (модель, инструменты, слой рассуждений и памяти) и какие сценарии оркестрации нескольких агентов возможны.
- Уникальные риски агентных систем (несоответствие целей, автономные действия, неправильное использование API, ползучие полномочия, обманчивость, предвзятость, дрейф памяти и моделей, проблемы объяснимости, уязвимости безопасности, каскадные эффекты, операционная устойчивость, конфликт между агентами и коллюзия) и ключевые контролы для каждой категории.
- Как встроить оценку рисков и требования комплаенса уже на этапе проектирования (shift-left), какие корпоративные контролы и guardrails нужны, как выстроить централизованный мониторинг, систему управления данными и повысить ИИ-грамотность сотрудников.
- Примеры system cards (OpenAI Operator, Microsoft 365 Copilot), чтобы понять, какие метрики и сведения должны предоставлять вендоры, а также какие роли и обязанности несут поставщики, разработчики и эксплуатационные команды.
- Краткий чек-лист для формирования требований при выборе агентных решений: безопасность, соответствие стандартам, прозрачность моделей, SLA, вопросы приватности и то, как оценивать поставщиков с точки зрения рисков.
- Примерный набор внутриорганизационных ролей (Data Steward, Risk Manager, Security Analyst, AI Ethicist, Product Owner и так далее) с их зонами ответственности при разработке, внедрении и поддержке агентных систем.
Очень круто, что кто-то не просто объяснил, что такое агентный ИИ, чем он отличается от генеративного ИИ, но и погрузился в тему рисков и механизмов их минимизации.
Делитесь со всеми причастными.
#ии #аналитика
В IBM Consulting опубликовали мощный и фундаментальный аналитический отчет по агентному ИИ в финансовом секторе. Если планируете внедрять ИИ в корпоративные бизнес-процессы, обязательно прочитайте.
Вот, про что узнаете:
- Текущий суперцикл ИИ, ключевые возможности агентных систем в финансах и основные вызовы, требующие новых подходов к управлению рисками и комплаенсу.
- Эволюция от RPA и чат-ботов до современных LLM-агентов: из каких компонентов состоят агенты (модель, инструменты, слой рассуждений и памяти) и какие сценарии оркестрации нескольких агентов возможны.
- Уникальные риски агентных систем (несоответствие целей, автономные действия, неправильное использование API, ползучие полномочия, обманчивость, предвзятость, дрейф памяти и моделей, проблемы объяснимости, уязвимости безопасности, каскадные эффекты, операционная устойчивость, конфликт между агентами и коллюзия) и ключевые контролы для каждой категории.
- Как встроить оценку рисков и требования комплаенса уже на этапе проектирования (shift-left), какие корпоративные контролы и guardrails нужны, как выстроить централизованный мониторинг, систему управления данными и повысить ИИ-грамотность сотрудников.
- Примеры system cards (OpenAI Operator, Microsoft 365 Copilot), чтобы понять, какие метрики и сведения должны предоставлять вендоры, а также какие роли и обязанности несут поставщики, разработчики и эксплуатационные команды.
- Краткий чек-лист для формирования требований при выборе агентных решений: безопасность, соответствие стандартам, прозрачность моделей, SLA, вопросы приватности и то, как оценивать поставщиков с точки зрения рисков.
- Примерный набор внутриорганизационных ролей (Data Steward, Risk Manager, Security Analyst, AI Ethicist, Product Owner и так далее) с их зонами ответственности при разработке, внедрении и поддержке агентных систем.
Очень круто, что кто-то не просто объяснил, что такое агентный ИИ, чем он отличается от генеративного ИИ, но и погрузился в тему рисков и механизмов их минимизации.
Делитесь со всеми причастными.
#ии #аналитика
⚡4👍4❤🔥3❤1
Почему фактический бюджет на внедрение BI в 2-4 раза выше запланированного
Ребята из GlowByte в статье на Хабре разобрали причины.
Помимо очевидных расходов на лицензии и оборудование, существуют затраты на интеграцию, доработку отчетов, миграцию данных, тестирование, обучение и поддержку. В 80% проектов фактический бюджет оказывается в 2-4 раза выше запланированного, а до 40% расходов и вовсе изначально не были предусмотрены сметой.
Если собрать в кучу разрозненные подсчеты авторов статьи, получится примерно следующее:
1. Интеграция с существующими системами (ERP, CRM): 20-40% от базового бюджета
Компании часто полагают, что штатные коннекторы из коробки справятся с задачей, и не закладывают дополнительные ресурсы на анализ форматов, разработку адаптивных API и обработку ошибок при нестабильности источников.
2. Подготовка и перенос исторических данных: 10-15% от базового бюджета
Руководство склонно считать, что данные просто выгрузятся из старых систем, не учитывая потребности в очистке, нормализации и многократных тестовых прогонах, что приводит к недооценке трудозатрат на валидацию и исправление дырявых записей.
3. Настройка ETL-процессов: 30-35% от базового бюджета
Часто исходят из предположения, что стандартные схемы загрузки подходят под любые сценарии, и не предусматривают времени на адаптацию бизнес-правил, переработку справочников и доработку конвейеров под уникальную структуру данных.
4. Кастомизация отчетов и дашбордов: 20-25% от базового бюджета
Компаниям кажется, что типовых шаблонов достаточно, поэтому они до последнего откладывают обсуждение специфических KPI и интерактивных элементов, из-за чего потом приходится перерабатывать функциональные решения на коленке.
5. Многоступенчатое тестирование (unit-, интеграционные и UAT-сценарии): 10-15% от базового бюджета
Полагают, что можно сэкономить время за счет сокращения тестовых итераций, не учитывая, что обнаружение ошибок на продакшене оборачивается простоем и откатом, который в разы дороже любого планового QA.
6. Ежегодная поддержка и развитие BI: 15-20% от первоначального бюджета
Менеджеры иногда считают, что после запуска, когда проект сдан в эксплуатацию, деньги больше не нужны, и не закладывают в смету расходы на мониторинг, апдейты, обучение новых сотрудников и расширение инфраструктуры, хотя без этого BI быстро теряет актуальность.
Мораль:
Если недосчитать бюджет до начала работ, то после вы недосчитаетесь ROI.
#деньги #аналитика #статьи
Ребята из GlowByte в статье на Хабре разобрали причины.
Помимо очевидных расходов на лицензии и оборудование, существуют затраты на интеграцию, доработку отчетов, миграцию данных, тестирование, обучение и поддержку. В 80% проектов фактический бюджет оказывается в 2-4 раза выше запланированного, а до 40% расходов и вовсе изначально не были предусмотрены сметой.
Если собрать в кучу разрозненные подсчеты авторов статьи, получится примерно следующее:
1. Интеграция с существующими системами (ERP, CRM): 20-40% от базового бюджета
Компании часто полагают, что штатные коннекторы из коробки справятся с задачей, и не закладывают дополнительные ресурсы на анализ форматов, разработку адаптивных API и обработку ошибок при нестабильности источников.
2. Подготовка и перенос исторических данных: 10-15% от базового бюджета
Руководство склонно считать, что данные просто выгрузятся из старых систем, не учитывая потребности в очистке, нормализации и многократных тестовых прогонах, что приводит к недооценке трудозатрат на валидацию и исправление дырявых записей.
3. Настройка ETL-процессов: 30-35% от базового бюджета
Часто исходят из предположения, что стандартные схемы загрузки подходят под любые сценарии, и не предусматривают времени на адаптацию бизнес-правил, переработку справочников и доработку конвейеров под уникальную структуру данных.
4. Кастомизация отчетов и дашбордов: 20-25% от базового бюджета
Компаниям кажется, что типовых шаблонов достаточно, поэтому они до последнего откладывают обсуждение специфических KPI и интерактивных элементов, из-за чего потом приходится перерабатывать функциональные решения на коленке.
5. Многоступенчатое тестирование (unit-, интеграционные и UAT-сценарии): 10-15% от базового бюджета
Полагают, что можно сэкономить время за счет сокращения тестовых итераций, не учитывая, что обнаружение ошибок на продакшене оборачивается простоем и откатом, который в разы дороже любого планового QA.
6. Ежегодная поддержка и развитие BI: 15-20% от первоначального бюджета
Менеджеры иногда считают, что после запуска, когда проект сдан в эксплуатацию, деньги больше не нужны, и не закладывают в смету расходы на мониторинг, апдейты, обучение новых сотрудников и расширение инфраструктуры, хотя без этого BI быстро теряет актуальность.
Мораль:
Если недосчитать бюджет до начала работ, то после вы недосчитаетесь ROI.
#деньги #аналитика #статьи
❤🔥4👍4🔥3
Барометр открытых данных все еще глобальный, не переживайте
Если вы интересуетесь открытыми данными в разных странах, то знаете про Global Data Barometer. Если нет, рассказываем: это международный проект, оценивающий, как страны управляют данными, обеспечивают к ним доступ и используют их во благо общества.
На сайте публикуются отчеты и интерактивные инструменты для сравнения показателей управления данными, инфраструктуры и прозрачности между странами и регионами.
В новом отчете Global Data Barometer опубликованы данные только по 43 развивающимся странам Южной Америки и Африки. Многие начали сетовать на то, что отчет перестал быть глобальным. Это не так — просто теперь он будет выпускаться частями. Данные по 120 странам Европы, Азии и других регионов подвезут к концу 2025 или началу 2026 года.
Основные выводы отчета
В Африке отмечен прогресс в создании нормативных актов, однако на практике реализация этих норм затруднена из-за ограниченных ресурсов, слабой инфраструктуры и отсутствия единой системы идентификаторов.
В Латинской Америке и Карибском регионе сильны институциональные структуры, но слабая координация между ведомствами мешает эффективному обмену данными.
Наше скромное мнение
Думаем, что настоящих причин у проблем с данными в этих регионах две:
1. Бюджеты на развитие цифровой инфраструктуры часто уступают другим приоритетам, а квалифицированных специалистов по анализу данных и ИИ катастрофически не хватает.
2. Исторически эти регионы сталкиваются с высокой политической нестабильностью и частой сменой властей, что не позволяет доводить начатые инициативы до конца и создает препятствия для долгосрочного планирования.
Ну не едут в Африку крутые спецы по работе с данными. Там крокодилы, львы и гориллы.
#аналитика #исследования
Если вы интересуетесь открытыми данными в разных странах, то знаете про Global Data Barometer. Если нет, рассказываем: это международный проект, оценивающий, как страны управляют данными, обеспечивают к ним доступ и используют их во благо общества.
На сайте публикуются отчеты и интерактивные инструменты для сравнения показателей управления данными, инфраструктуры и прозрачности между странами и регионами.
В новом отчете Global Data Barometer опубликованы данные только по 43 развивающимся странам Южной Америки и Африки. Многие начали сетовать на то, что отчет перестал быть глобальным. Это не так — просто теперь он будет выпускаться частями. Данные по 120 странам Европы, Азии и других регионов подвезут к концу 2025 или началу 2026 года.
Основные выводы отчета
В Африке отмечен прогресс в создании нормативных актов, однако на практике реализация этих норм затруднена из-за ограниченных ресурсов, слабой инфраструктуры и отсутствия единой системы идентификаторов.
В Латинской Америке и Карибском регионе сильны институциональные структуры, но слабая координация между ведомствами мешает эффективному обмену данными.
Наше скромное мнение
Думаем, что настоящих причин у проблем с данными в этих регионах две:
1. Бюджеты на развитие цифровой инфраструктуры часто уступают другим приоритетам, а квалифицированных специалистов по анализу данных и ИИ катастрофически не хватает.
2. Исторически эти регионы сталкиваются с высокой политической нестабильностью и частой сменой властей, что не позволяет доводить начатые инициативы до конца и создает препятствия для долгосрочного планирования.
Ну не едут в Африку крутые спецы по работе с данными. Там крокодилы, львы и гориллы.
#аналитика #исследования
👍5❤🔥3👏2🔥1
«Размер значения не имеет», — учил мастер Йода
Не нужны миллионы и орды аналитиков, чтобы стать data-driven. Маленький стартап с парой простых инструментов и вовлеченными сотрудниками моментально принимает решения на основе данных, тогда как в корпорации десятки хранилищ, несколько Data Lake и семь BI-систем лишь создают хаос, и инсайты тонут в бюрократии.
Разбираемся, почему так.
1. Гибкость против избыточности инструментов
В небольших командах хватит простой эксельки и одной BI-системы, чтобы быстро видеть метрики и проверять гипотезы. В крупных организациях же десяток хранилищ, несколько Data Lake и BI-платформ приводят к разрозненности данных и затягивают получение инсайтов.
2. Скорость принятия решений против бюрократии
Стартап может менять метрики на ходу и сразу внедрять выводы, тогда как в корпорации любое нововведение проходит длинный цикл согласований, и бизнес-пользователь теряет мотивацию ждать.
3. Прямая мотивация против формальных ролей
В маленькой компании аналитик тесно общается с командой и видит прямой эффект своего анализа. В большой — аналитики часто сидят в одном офисе, инженеры в другом, а бизнес-отдел вообще отдельно, из-за чего качество данных и фокус на нужных KPI размываются.
4. Простые процессы против формализация
В стартапе достаточно договориться о нескольких ключевых показателях и пройти цикл «гипотеза→сбор данных→проверка→действие». В корпорации же для каждого дашборда нужен регламент, аудит качества данных и долгие согласования, из-за чего процессы превращаются в тяжеловесную машину.
Разбираемся, как быть.
Попробовать 3P-Framework.
В компании любого размера зрелая data-driven культура стоит на трехслонах столпах:
1. People
Важно, чтобы сотрудники понимали ценность данных и могли сами формулировать бизнес-вопросы, задавать гипотезы и проверять их.
2. Platform
Инструменты должны быть удобными и доступными: одна BI-система, понятные дашборды, минимальное количество промежуточных слоев и четко выстроенное хранилище.
3. Process
Легкая, гибкая методология превращает данные в инсайты: регулярные ретроспективы, хакатоны, интеграция аналитиков в поля, временная посадка внутри бизнес-команд, открытые каналы коммуникации.
Да пребудет с вами сила.
#аналитика
Не нужны миллионы и орды аналитиков, чтобы стать data-driven. Маленький стартап с парой простых инструментов и вовлеченными сотрудниками моментально принимает решения на основе данных, тогда как в корпорации десятки хранилищ, несколько Data Lake и семь BI-систем лишь создают хаос, и инсайты тонут в бюрократии.
Разбираемся, почему так.
1. Гибкость против избыточности инструментов
В небольших командах хватит простой эксельки и одной BI-системы, чтобы быстро видеть метрики и проверять гипотезы. В крупных организациях же десяток хранилищ, несколько Data Lake и BI-платформ приводят к разрозненности данных и затягивают получение инсайтов.
2. Скорость принятия решений против бюрократии
Стартап может менять метрики на ходу и сразу внедрять выводы, тогда как в корпорации любое нововведение проходит длинный цикл согласований, и бизнес-пользователь теряет мотивацию ждать.
3. Прямая мотивация против формальных ролей
В маленькой компании аналитик тесно общается с командой и видит прямой эффект своего анализа. В большой — аналитики часто сидят в одном офисе, инженеры в другом, а бизнес-отдел вообще отдельно, из-за чего качество данных и фокус на нужных KPI размываются.
4. Простые процессы против формализация
В стартапе достаточно договориться о нескольких ключевых показателях и пройти цикл «гипотеза→сбор данных→проверка→действие». В корпорации же для каждого дашборда нужен регламент, аудит качества данных и долгие согласования, из-за чего процессы превращаются в тяжеловесную машину.
Разбираемся, как быть.
Попробовать 3P-Framework.
В компании любого размера зрелая data-driven культура стоит на трех
1. People
Важно, чтобы сотрудники понимали ценность данных и могли сами формулировать бизнес-вопросы, задавать гипотезы и проверять их.
2. Platform
Инструменты должны быть удобными и доступными: одна BI-система, понятные дашборды, минимальное количество промежуточных слоев и четко выстроенное хранилище.
3. Process
Легкая, гибкая методология превращает данные в инсайты: регулярные ретроспективы, хакатоны, интеграция аналитиков в поля, временная посадка внутри бизнес-команд, открытые каналы коммуникации.
Да пребудет с вами сила.
#аналитика
👍4 3❤🔥2🔥2
Большие данные умирают
Вот и мы тоже не смогли пройти мимо заголовка статьи Is Big Data Dying?
Разумеется, большие данные переживают не гибель самого понятия, а устаревание традиционных технологий и подходов.
В статье авторы разбирают историю эволюции больших данных и делают прогнозы.
История делится на три этапа:
Этап 1 (классический Hadoop + Lambda)
- Архитектуру составляли более 30 компонентов, требовавших команды из 50+ специалистов.
- Постоянные конфликты данных: единственный способ исправить ошибку — удаление и полная перезапись раздела.
- Хранение дублировавшихся данных приводило к росту расходов.
- Любой слепой SQL-запрос без фильтрации по партиции мог потопить всю систему.
- При объемах в несколько миллиардов записей в день производительность падала, а платформа оказывалась крайне ненадежной.
Этап 2 (Data Lake и Lakehouse)
- С новыми форматами Iceberg и Delta Lake число компонентов и количество людей в командах сократилось до 10.
- Появилась транзакционная поддержка, единые метаданные и единое хранилище, что упростило процессы компактирования версий и Z-order оптимизации.
- SQL-запросы стали маршрутизироваться по разным движкам в зависимости от задач.
- Максимальный размер таблицы ~10 млрд строк, число таблиц — до 10 000.
- Даже с этими улучшениями для триллионной шкалы данных все еще требовались большие инженерные ресурсы, а архитектура оставалась сложной.
Этап 3 (облачные платформы pay-as-you-go)
- Решения вроде Snowflake и Databend позволяют выполнять SQL-запросы напрямую к файлам в S3 (CSV, Parquet, ORC) без подготовки Spark-файлов.
- ETL-инженеры, ранее тратившие дни на загрузку и трансформацию, теперь справляются за полчаса.
- Потоковая и пакетная обработки полностью интегрированы, возможность запускать UDF-задачи на Python заменяет десятки кластеров Flink.
Последствия перехода
В результате перехода на облачные платформы классическая роль Data Mover фактически исчезает: задачи, ранее занимавшие дни у крупных команд инженеров, теперь выполняются автоматически в рамках облачного сервиса.
Вместо специалистов по DWH, чья основная функция заключалась в настройке и поддержке сложных пайплайнов, появляются новые профессии:
- Инженеры, работающие с лоукод-инструментами для подготовки данных.
- Специалисты по интеграции и визуализации.
- Бизнес-аналитики, использующие Text2SQL.
- Разработчики умных систем, фокусирующиеся на генерации ценности, а не на сложных пайплайнах.
Вместо инженеров широкого профиля становятся востребованы узкие специалисты с глубокими знаниями лоукод-платформ, UDF-функций и внутренних принципов новых хранилищ.
#аналитика #статьи
Вот и мы тоже не смогли пройти мимо заголовка статьи Is Big Data Dying?
Разумеется, большие данные переживают не гибель самого понятия, а устаревание традиционных технологий и подходов.
В статье авторы разбирают историю эволюции больших данных и делают прогнозы.
История делится на три этапа:
Этап 1 (классический Hadoop + Lambda)
- Архитектуру составляли более 30 компонентов, требовавших команды из 50+ специалистов.
- Постоянные конфликты данных: единственный способ исправить ошибку — удаление и полная перезапись раздела.
- Хранение дублировавшихся данных приводило к росту расходов.
- Любой слепой SQL-запрос без фильтрации по партиции мог потопить всю систему.
- При объемах в несколько миллиардов записей в день производительность падала, а платформа оказывалась крайне ненадежной.
Этап 2 (Data Lake и Lakehouse)
- С новыми форматами Iceberg и Delta Lake число компонентов и количество людей в командах сократилось до 10.
- Появилась транзакционная поддержка, единые метаданные и единое хранилище, что упростило процессы компактирования версий и Z-order оптимизации.
- SQL-запросы стали маршрутизироваться по разным движкам в зависимости от задач.
- Максимальный размер таблицы ~10 млрд строк, число таблиц — до 10 000.
- Даже с этими улучшениями для триллионной шкалы данных все еще требовались большие инженерные ресурсы, а архитектура оставалась сложной.
Этап 3 (облачные платформы pay-as-you-go)
- Решения вроде Snowflake и Databend позволяют выполнять SQL-запросы напрямую к файлам в S3 (CSV, Parquet, ORC) без подготовки Spark-файлов.
- ETL-инженеры, ранее тратившие дни на загрузку и трансформацию, теперь справляются за полчаса.
- Потоковая и пакетная обработки полностью интегрированы, возможность запускать UDF-задачи на Python заменяет десятки кластеров Flink.
Последствия перехода
В результате перехода на облачные платформы классическая роль Data Mover фактически исчезает: задачи, ранее занимавшие дни у крупных команд инженеров, теперь выполняются автоматически в рамках облачного сервиса.
Вместо специалистов по DWH, чья основная функция заключалась в настройке и поддержке сложных пайплайнов, появляются новые профессии:
- Инженеры, работающие с лоукод-инструментами для подготовки данных.
- Специалисты по интеграции и визуализации.
- Бизнес-аналитики, использующие Text2SQL.
- Разработчики умных систем, фокусирующиеся на генерации ценности, а не на сложных пайплайнах.
Вместо инженеров широкого профиля становятся востребованы узкие специалисты с глубокими знаниями лоукод-платформ, UDF-функций и внутренних принципов новых хранилищ.
#аналитика #статьи
👍7❤🔥3🔥3
Разработчики ИИ тратят миллионы на лоббирование своих интересов в США
OpenAI и Anthropic, традиционно позиционировавшиеся как осторожные исследовательские центры, в последние месяцы стали активно расширять присутствие в Вашингтоне, нанимая новых сотрудников и наращивая расходы на лоббизм.
Федеральный бюджет США на айти-сектор составляет около $75 млрд, значительная часть которого теперь направлена на проекты, связанные с ИИ.
Главный инструмент лоббистов — страшилка о том, что если правительство США сейчас же не направит миллиарды долларов на развитие ИИ-отрасли, то китайцы начнут доминировать в этой сфере.
Это резонно. И это работает: администрация Трампа и Конгресс рассматривают ИИ прежде всего как стратегический инструмент в гонке технологий с Китаем. Палата представителей уже приняла положение о десятилетнем моратории на ужесточение законов об ИИ на уровне штатов и местных органов власти.
В некоторых источниках пишут, что уже сегодня ИИ-компании лоббируют больше, чем нефтяные и табачные корпорации.
Нам думается, что именно и только благодаря лоббистам на американском рынке искусственного интеллекта все еще не так плотно закручены гайки регулирования. При этом госзаказы уже стали многомиллиардными.
Пока лоббисты выбивают настолько большие подряды, защита пользовательских данных и сомнительные социальные эффекты от распространения ИИ не так сильно беспокоят законотворцев.
#аналитика #ии #статьи
OpenAI и Anthropic, традиционно позиционировавшиеся как осторожные исследовательские центры, в последние месяцы стали активно расширять присутствие в Вашингтоне, нанимая новых сотрудников и наращивая расходы на лоббизм.
Федеральный бюджет США на айти-сектор составляет около $75 млрд, значительная часть которого теперь направлена на проекты, связанные с ИИ.
Главный инструмент лоббистов — страшилка о том, что если правительство США сейчас же не направит миллиарды долларов на развитие ИИ-отрасли, то китайцы начнут доминировать в этой сфере.
Это резонно. И это работает: администрация Трампа и Конгресс рассматривают ИИ прежде всего как стратегический инструмент в гонке технологий с Китаем. Палата представителей уже приняла положение о десятилетнем моратории на ужесточение законов об ИИ на уровне штатов и местных органов власти.
В некоторых источниках пишут, что уже сегодня ИИ-компании лоббируют больше, чем нефтяные и табачные корпорации.
Нам думается, что именно и только благодаря лоббистам на американском рынке искусственного интеллекта все еще не так плотно закручены гайки регулирования. При этом госзаказы уже стали многомиллиардными.
Пока лоббисты выбивают настолько большие подряды, защита пользовательских данных и сомнительные социальные эффекты от распространения ИИ не так сильно беспокоят законотворцев.
#аналитика #ии #статьи
👍4❤3❤🔥2🔥2
Как изменилась работа с ИИ и данными в 2025 году
Инфраструктура становится умнее, инструменты гибче, а данные — центром принятия решений. Отчеты State of Data and AI Engineering и Artificial Analysis State of AI за 2025 год показывают: индустрия стремительно переходит от универсальности к эффективности.
Разбираем ключевые тренды.
Индустрия данных и ИИ в 2025 году переживает фундаментальную перестройку
На первый план выходят не столько новые платформы, сколько архитектурные сдвиги. Самый заметный — отказ от универсальных MLOps-решений в пользу легких, встроенных компонентов. Компании, как CoreWeave и ClearML, трансформируют свои продукты под конкретные задачи — оптимизацию GPU, наблюдение за LLM, CI/CD для моделей.
Это совпадает с переходом к ризонинг-моделям: по данным Artificial Analysis, они теперь доминируют в рейтингах интеллекта и требуют новых подходов к мониторингу и оценке.
В инфраструктуре фокус смещается в сторону гибкости и отказа от вендорской зависимости
AWS Glue становится фактически единственным инструментом, способным обеспечить read/write-федерацию Apache Iceberg с разными движками. Это важно, учитывая, что форматы Iceberg и Delta теперь — стандарт в построении масштабируемых lakehouse-архитектур. Такой подход снижает риски блокировки на одном вендоре и облегчает мультиоблачную миграцию.
Параллельно облачные провайдеры ведут гонку за низкой латентностью
GCS Fast Tier от Google и S3 Express от AWS ориентированы на real-time приложения, особенно на inference для LLM. Это особенно актуально в контексте новых моделей: ризонинг-системы генерируют в 10 раз больше токенов, а агентные фреймворки делают десятки запросов на одну задачу.
По сути, эффективность хранения и скорости доступа становится новым полем конкуренции в ИИ.
BigQuery закрепляет лидерство, став фундаментом аналитической стратегии Google
Количество клиентов BigQuery в 5 раз превышает суммарную аудиторию Snowflake и Databricks. Это подкрепляется тем, что Google — один из немногих игроков, обладающих полной вертикальной интеграцией — от TPU до собственных ризонинг-моделей Gemini. Такая связка данных и вычислений становится ключевым преимуществом в эпоху генеративных ИИ.
Оркестрация данных становится умной и реактивной
Dagster, Flyte, Prefect используют ИИ для построения DAG-ов, предсказания сбоев и оптимизации ресурсов. Причем эти функции уже встраиваются в интерфейсы: Azure Data Factory и Vertex AI предоставляют Copilot-режимы.
Все чаще пайплайны проектируются не кодом, а в диалоге с моделью. Это позволяет быстрее адаптироваться под задачи агентных LLM-систем, которые автономно управляют инструментами и API.
Наблюдаемость выходит на новый уровень зрелости
Решения вроде WhyLabs и Monte Carlo работают как единая система контроля качества и мониторинга модели. Это становится необходимым, поскольку рост генеративных систем требует непрерывной оценки достоверности, дрейфа и качества входных данных. Более того, с развитием агентного ИИ и автогенерации кода, проверка становится обязательной частью CI/CD.
Векторные базы данных и синтетические данные превращаются в зрелые инструменты
Pinecone демонстрирует 48% прирост точности благодаря каскадным retrieval-алгоритмам. Одновременно, инструменты генерации синтетических данных (Gretel AI, YData) компенсируют дефицит приватных или сбалансированных выборок.
Это особенно актуально, учитывая доминирование MoE-архитектур, где модели работают с малыми активными подсетями параметров — снижая стоимость, но требуя качества от обучающих данных.
Вывод
Рынок уходит от универсальных решений и движется к адаптивным, масштабируемым и агентно-ориентированным структурам. Побеждают те, кто совмещает зрелость инженерии, свободу архитектурных решений и готовность к новым классам нагрузки: ризонинг, агенты и так далее. Для специалистов по данным это означает одно — инфраструктура становится стратегическим активом.
#ии #аналитика #исследования
Инфраструктура становится умнее, инструменты гибче, а данные — центром принятия решений. Отчеты State of Data and AI Engineering и Artificial Analysis State of AI за 2025 год показывают: индустрия стремительно переходит от универсальности к эффективности.
Разбираем ключевые тренды.
Индустрия данных и ИИ в 2025 году переживает фундаментальную перестройку
На первый план выходят не столько новые платформы, сколько архитектурные сдвиги. Самый заметный — отказ от универсальных MLOps-решений в пользу легких, встроенных компонентов. Компании, как CoreWeave и ClearML, трансформируют свои продукты под конкретные задачи — оптимизацию GPU, наблюдение за LLM, CI/CD для моделей.
Это совпадает с переходом к ризонинг-моделям: по данным Artificial Analysis, они теперь доминируют в рейтингах интеллекта и требуют новых подходов к мониторингу и оценке.
В инфраструктуре фокус смещается в сторону гибкости и отказа от вендорской зависимости
AWS Glue становится фактически единственным инструментом, способным обеспечить read/write-федерацию Apache Iceberg с разными движками. Это важно, учитывая, что форматы Iceberg и Delta теперь — стандарт в построении масштабируемых lakehouse-архитектур. Такой подход снижает риски блокировки на одном вендоре и облегчает мультиоблачную миграцию.
Параллельно облачные провайдеры ведут гонку за низкой латентностью
GCS Fast Tier от Google и S3 Express от AWS ориентированы на real-time приложения, особенно на inference для LLM. Это особенно актуально в контексте новых моделей: ризонинг-системы генерируют в 10 раз больше токенов, а агентные фреймворки делают десятки запросов на одну задачу.
По сути, эффективность хранения и скорости доступа становится новым полем конкуренции в ИИ.
BigQuery закрепляет лидерство, став фундаментом аналитической стратегии Google
Количество клиентов BigQuery в 5 раз превышает суммарную аудиторию Snowflake и Databricks. Это подкрепляется тем, что Google — один из немногих игроков, обладающих полной вертикальной интеграцией — от TPU до собственных ризонинг-моделей Gemini. Такая связка данных и вычислений становится ключевым преимуществом в эпоху генеративных ИИ.
Оркестрация данных становится умной и реактивной
Dagster, Flyte, Prefect используют ИИ для построения DAG-ов, предсказания сбоев и оптимизации ресурсов. Причем эти функции уже встраиваются в интерфейсы: Azure Data Factory и Vertex AI предоставляют Copilot-режимы.
Все чаще пайплайны проектируются не кодом, а в диалоге с моделью. Это позволяет быстрее адаптироваться под задачи агентных LLM-систем, которые автономно управляют инструментами и API.
Наблюдаемость выходит на новый уровень зрелости
Решения вроде WhyLabs и Monte Carlo работают как единая система контроля качества и мониторинга модели. Это становится необходимым, поскольку рост генеративных систем требует непрерывной оценки достоверности, дрейфа и качества входных данных. Более того, с развитием агентного ИИ и автогенерации кода, проверка становится обязательной частью CI/CD.
Векторные базы данных и синтетические данные превращаются в зрелые инструменты
Pinecone демонстрирует 48% прирост точности благодаря каскадным retrieval-алгоритмам. Одновременно, инструменты генерации синтетических данных (Gretel AI, YData) компенсируют дефицит приватных или сбалансированных выборок.
Это особенно актуально, учитывая доминирование MoE-архитектур, где модели работают с малыми активными подсетями параметров — снижая стоимость, но требуя качества от обучающих данных.
Вывод
Рынок уходит от универсальных решений и движется к адаптивным, масштабируемым и агентно-ориентированным структурам. Побеждают те, кто совмещает зрелость инженерии, свободу архитектурных решений и готовность к новым классам нагрузки: ризонинг, агенты и так далее. Для специалистов по данным это означает одно — инфраструктура становится стратегическим активом.
#ии #аналитика #исследования
👍3🔥3❤🔥2