Как выиграть Премьер-лигу с помощью искусственного интеллекта и больших данных
За Ливерпуль. Не на приставке, в реальности.
В преддверии завтрашнего финала Лиги Чемпионов делимся интересностями про большие данные в футболе и книгой Иана Грэма «Как выиграть Премьер-лигу».
С 2012 по 2023 год Грэм работал директором по исследованиям футбольного клуба Ливерпуль. Его пребывание на посту совпало с периодом наибольшего успеха клуба с 1980-х годов, включая победу в Премьер-лиге в 2020 году — первый чемпионский титул Ливерпуля после мучительных 29 лет.
Кстати, месяц назад Ливерпуль снова досрочно стал чемпионом Англии.
Почитать книгу на русском можно бесплатно. Любителям футбола горячо рекомендуем.
Кратко о том, к чему привела цифровая трансформация футбольной команды:
- Сотрудничество DeepMind с футбольным клубом Ливерпуль привело к созданию TacticAI, предлагающего тактические решения, которые в 90% случаев эксперты предпочитают традиционным методам.
- TacticAI представляет собой значительный шаг вперед в использовании алгоритмов машинного обучения для понимания стратегических игр, особенно с упором на угловые удары. Благодаря тщательному анализу данных более чем 7000 угловых ударов, выполненных в сезоне Премьер-лиги, система была обучена предсказывать траекторию мяча с впечатляющей точностью 78%.
Но это результаты, а вот путь к ним изложен в книге, сохраняйте и делитесь с друзьями перед походом в спорт-бар.
Ну и не относите деньги букмекерам, лучше делайте ставку на данные. Оле-оле!
#ии
За Ливерпуль. Не на приставке, в реальности.
В преддверии завтрашнего финала Лиги Чемпионов делимся интересностями про большие данные в футболе и книгой Иана Грэма «Как выиграть Премьер-лигу».
С 2012 по 2023 год Грэм работал директором по исследованиям футбольного клуба Ливерпуль. Его пребывание на посту совпало с периодом наибольшего успеха клуба с 1980-х годов, включая победу в Премьер-лиге в 2020 году — первый чемпионский титул Ливерпуля после мучительных 29 лет.
Кстати, месяц назад Ливерпуль снова досрочно стал чемпионом Англии.
Почитать книгу на русском можно бесплатно. Любителям футбола горячо рекомендуем.
Кратко о том, к чему привела цифровая трансформация футбольной команды:
- Сотрудничество DeepMind с футбольным клубом Ливерпуль привело к созданию TacticAI, предлагающего тактические решения, которые в 90% случаев эксперты предпочитают традиционным методам.
- TacticAI представляет собой значительный шаг вперед в использовании алгоритмов машинного обучения для понимания стратегических игр, особенно с упором на угловые удары. Благодаря тщательному анализу данных более чем 7000 угловых ударов, выполненных в сезоне Премьер-лиги, система была обучена предсказывать траекторию мяча с впечатляющей точностью 78%.
Но это результаты, а вот путь к ним изложен в книге, сохраняйте и делитесь с друзьями перед походом в спорт-бар.
Ну и не относите деньги букмекерам, лучше делайте ставку на данные. Оле-оле!
#ии
🏆6👏3❤1❤🔥1
Российский рынок СХД в 2025 году
В CNews опубликовали карту и обзор российского рынка СХД, а в Аквариусе — исследование практики использования СХД в российских компаниях.
Разбираемся, что да как.
По оценке CNews, объем всего российского рынка СХД в 2024 составил ₽50 млрд, а в 2025 вырастет на 8% до ₽54 млрд.
При этом спрос смещается в пользу отечественных решений. Если в 2024 только 34% крупных компаний использовали российские СХД, то в планы закупок на 2025 российские СХД включили уже в 41% таких компаний. Доля иностранных решений, наоборот, снизилась с 55% до 31%.
В опросе 75% респондентов назвали приоритетной задачей виртуализацию, 73% — файловые хранилища, а 63% — резервное копирование, что подчеркивает многообразие сценариев использования.
По данным IDC, ключевым драйвером мирового рынка СХД остается экспоненциальный рост объемов данных. Может и так. Но куда важнее понимать качественные, а не количественные изменения на рынке:
Главным трендом первой половины 2025 стало резкое смещение к объектным хранилищам, которые из дополнительного решения превратились в самый востребованный сегмент. Они позволяют консолидировать горячие и холодные данные в рамках единого пула, снижая TCO и обеспечивая высокие показатели IOPS за счет параллельной архитектуры.
С одной стороны, по данным опроса Аквариуса, уже сейчас 89% компаний, использующих российские СХД, довольны качеством решений. С другой стороны, в CNews говорят, что хотя российские СХД активно догоняют западные аналоги, у них все еще существуют узкие места:
- Ограниченная горизонтальная и вертикальная масштабируемость.
- Более узкий функционал управления.
- Отсутствие полноценного GUI.
Это все еще вынуждает некоторых заказчиков обращаться к импортным решениям в самых критичных сценариях.
Однако господдержка работает и создает благоприятные условия для развития отечественных продуктов. По прогнозам, в 2025–2026 спрос на российские СХД в сегменте начального и среднего уровня вырастет ещё на 30–40%.
#деньги #исследования
В CNews опубликовали карту и обзор российского рынка СХД, а в Аквариусе — исследование практики использования СХД в российских компаниях.
Разбираемся, что да как.
По оценке CNews, объем всего российского рынка СХД в 2024 составил ₽50 млрд, а в 2025 вырастет на 8% до ₽54 млрд.
При этом спрос смещается в пользу отечественных решений. Если в 2024 только 34% крупных компаний использовали российские СХД, то в планы закупок на 2025 российские СХД включили уже в 41% таких компаний. Доля иностранных решений, наоборот, снизилась с 55% до 31%.
В опросе 75% респондентов назвали приоритетной задачей виртуализацию, 73% — файловые хранилища, а 63% — резервное копирование, что подчеркивает многообразие сценариев использования.
По данным IDC, ключевым драйвером мирового рынка СХД остается экспоненциальный рост объемов данных. Может и так. Но куда важнее понимать качественные, а не количественные изменения на рынке:
Главным трендом первой половины 2025 стало резкое смещение к объектным хранилищам, которые из дополнительного решения превратились в самый востребованный сегмент. Они позволяют консолидировать горячие и холодные данные в рамках единого пула, снижая TCO и обеспечивая высокие показатели IOPS за счет параллельной архитектуры.
С одной стороны, по данным опроса Аквариуса, уже сейчас 89% компаний, использующих российские СХД, довольны качеством решений. С другой стороны, в CNews говорят, что хотя российские СХД активно догоняют западные аналоги, у них все еще существуют узкие места:
- Ограниченная горизонтальная и вертикальная масштабируемость.
- Более узкий функционал управления.
- Отсутствие полноценного GUI.
Это все еще вынуждает некоторых заказчиков обращаться к импортным решениям в самых критичных сценариях.
Однако господдержка работает и создает благоприятные условия для развития отечественных продуктов. По прогнозам, в 2025–2026 спрос на российские СХД в сегменте начального и среднего уровня вырастет ещё на 30–40%.
#деньги #исследования
❤🔥4👍3🔥3
В чем отличия и зачем вообще отличать Data Management от Data Governance
Data Governance — это про стратегию. Принципы, стандарты и правила работы с данными на всем жизненном цикле. Data Governance определяет роли и ответственность сотрудников, устанавливает требования к качеству, доступу и безопасности.
Data Management — это про тактику. Техническое исполнение политик и процедур, заданных в рамках Data Governance. Data Management включает создание и поддержку ETL/ELT-пайплайнов, администрирование каталога данных, контроль доступа, управление хранилищами и озерами данных.
Как объясняют в Tableau:
Почему нельзя смешивать одно с другим
1. Разные уровни ответственности и задач. Data Governance задает «что и зачем»: какие данные нужны, кому их можно давать и при каких условиях, какие метрики качества обязательны. Data Management решает «как именно»: разрабатывает техническую архитектуру, внедряет процессы, следит за исполнением политик и оперативно исправляет ошибки.
2. Прозрачность и контроль. Разделение ролей позволяет избежать конфликта интересов. Когда стратегические решения принимает одна группа, а техническую работу выполняет другая, проще отследить, что политика действительно соблюдается, и вовремя заметить риски
3. Соответствие нормативным требованиям. В крупных организациях (особенно в регулируемых отраслях) часто требуется формально разграничивать тех, кто разрабатывает правила, от тех, кто их выполняет. Это критично для внешнего аудита и для уменьшения юридических рисков.
4. Гибкость и масштабируемость. Разделение дает возможность масштабировать обе функции независимо: регламентирование может сосредоточиться на новых бизнес-инициативах и изменениях законодательства, а управление — на оптимизации технических процессов и внедрении новых инструментов.
5. Повышение эффективности. Когда сотрудники точно знают свои зоны ответственности, снижается дублирование усилий. Регламентирование фокусируется на долгосрочных целях и стандартах, а управление оперативно реагирует на технические задачи без перекрытия по стратегическим вопросам.
Это всегда отдельные, но всегда тесно взаимодействующие дисциплины.
Data Governance — это про стратегию. Принципы, стандарты и правила работы с данными на всем жизненном цикле. Data Governance определяет роли и ответственность сотрудников, устанавливает требования к качеству, доступу и безопасности.
Data Management — это про тактику. Техническое исполнение политик и процедур, заданных в рамках Data Governance. Data Management включает создание и поддержку ETL/ELT-пайплайнов, администрирование каталога данных, контроль доступа, управление хранилищами и озерами данных.
Как объясняют в Tableau:
Между Data Management и Data Governance есть сходства. Оба направления влияют на то, как данные используются в компании Однако все волшебство в том, как их различия дополняют друг друга.
Data Governance разрабатывает чертеж здания, а Data Management отвечает за его возведение. Конечно, здание можно построить и без плана, но это будет гораздо менее эффективно и надежно.
Почему нельзя смешивать одно с другим
1. Разные уровни ответственности и задач. Data Governance задает «что и зачем»: какие данные нужны, кому их можно давать и при каких условиях, какие метрики качества обязательны. Data Management решает «как именно»: разрабатывает техническую архитектуру, внедряет процессы, следит за исполнением политик и оперативно исправляет ошибки.
2. Прозрачность и контроль. Разделение ролей позволяет избежать конфликта интересов. Когда стратегические решения принимает одна группа, а техническую работу выполняет другая, проще отследить, что политика действительно соблюдается, и вовремя заметить риски
3. Соответствие нормативным требованиям. В крупных организациях (особенно в регулируемых отраслях) часто требуется формально разграничивать тех, кто разрабатывает правила, от тех, кто их выполняет. Это критично для внешнего аудита и для уменьшения юридических рисков.
4. Гибкость и масштабируемость. Разделение дает возможность масштабировать обе функции независимо: регламентирование может сосредоточиться на новых бизнес-инициативах и изменениях законодательства, а управление — на оптимизации технических процессов и внедрении новых инструментов.
5. Повышение эффективности. Когда сотрудники точно знают свои зоны ответственности, снижается дублирование усилий. Регламентирование фокусируется на долгосрочных целях и стандартах, а управление оперативно реагирует на технические задачи без перекрытия по стратегическим вопросам.
Это всегда отдельные, но всегда тесно взаимодействующие дисциплины.
❤🔥6👍4🔥3🙏2
Почему фактический бюджет на внедрение BI в 2-4 раза выше запланированного
Ребята из GlowByte в статье на Хабре разобрали причины.
Помимо очевидных расходов на лицензии и оборудование, существуют затраты на интеграцию, доработку отчетов, миграцию данных, тестирование, обучение и поддержку. В 80% проектов фактический бюджет оказывается в 2-4 раза выше запланированного, а до 40% расходов и вовсе изначально не были предусмотрены сметой.
Если собрать в кучу разрозненные подсчеты авторов статьи, получится примерно следующее:
1. Интеграция с существующими системами (ERP, CRM): 20-40% от базового бюджета
Компании часто полагают, что штатные коннекторы из коробки справятся с задачей, и не закладывают дополнительные ресурсы на анализ форматов, разработку адаптивных API и обработку ошибок при нестабильности источников.
2. Подготовка и перенос исторических данных: 10-15% от базового бюджета
Руководство склонно считать, что данные просто выгрузятся из старых систем, не учитывая потребности в очистке, нормализации и многократных тестовых прогонах, что приводит к недооценке трудозатрат на валидацию и исправление дырявых записей.
3. Настройка ETL-процессов: 30-35% от базового бюджета
Часто исходят из предположения, что стандартные схемы загрузки подходят под любые сценарии, и не предусматривают времени на адаптацию бизнес-правил, переработку справочников и доработку конвейеров под уникальную структуру данных.
4. Кастомизация отчетов и дашбордов: 20-25% от базового бюджета
Компаниям кажется, что типовых шаблонов достаточно, поэтому они до последнего откладывают обсуждение специфических KPI и интерактивных элементов, из-за чего потом приходится перерабатывать функциональные решения на коленке.
5. Многоступенчатое тестирование (unit-, интеграционные и UAT-сценарии): 10-15% от базового бюджета
Полагают, что можно сэкономить время за счет сокращения тестовых итераций, не учитывая, что обнаружение ошибок на продакшене оборачивается простоем и откатом, который в разы дороже любого планового QA.
6. Ежегодная поддержка и развитие BI: 15-20% от первоначального бюджета
Менеджеры иногда считают, что после запуска, когда проект сдан в эксплуатацию, деньги больше не нужны, и не закладывают в смету расходы на мониторинг, апдейты, обучение новых сотрудников и расширение инфраструктуры, хотя без этого BI быстро теряет актуальность.
Мораль:
Если недосчитать бюджет до начала работ, то после вы недосчитаетесь ROI.
#деньги #аналитика #статьи
Ребята из GlowByte в статье на Хабре разобрали причины.
Помимо очевидных расходов на лицензии и оборудование, существуют затраты на интеграцию, доработку отчетов, миграцию данных, тестирование, обучение и поддержку. В 80% проектов фактический бюджет оказывается в 2-4 раза выше запланированного, а до 40% расходов и вовсе изначально не были предусмотрены сметой.
Если собрать в кучу разрозненные подсчеты авторов статьи, получится примерно следующее:
1. Интеграция с существующими системами (ERP, CRM): 20-40% от базового бюджета
Компании часто полагают, что штатные коннекторы из коробки справятся с задачей, и не закладывают дополнительные ресурсы на анализ форматов, разработку адаптивных API и обработку ошибок при нестабильности источников.
2. Подготовка и перенос исторических данных: 10-15% от базового бюджета
Руководство склонно считать, что данные просто выгрузятся из старых систем, не учитывая потребности в очистке, нормализации и многократных тестовых прогонах, что приводит к недооценке трудозатрат на валидацию и исправление дырявых записей.
3. Настройка ETL-процессов: 30-35% от базового бюджета
Часто исходят из предположения, что стандартные схемы загрузки подходят под любые сценарии, и не предусматривают времени на адаптацию бизнес-правил, переработку справочников и доработку конвейеров под уникальную структуру данных.
4. Кастомизация отчетов и дашбордов: 20-25% от базового бюджета
Компаниям кажется, что типовых шаблонов достаточно, поэтому они до последнего откладывают обсуждение специфических KPI и интерактивных элементов, из-за чего потом приходится перерабатывать функциональные решения на коленке.
5. Многоступенчатое тестирование (unit-, интеграционные и UAT-сценарии): 10-15% от базового бюджета
Полагают, что можно сэкономить время за счет сокращения тестовых итераций, не учитывая, что обнаружение ошибок на продакшене оборачивается простоем и откатом, который в разы дороже любого планового QA.
6. Ежегодная поддержка и развитие BI: 15-20% от первоначального бюджета
Менеджеры иногда считают, что после запуска, когда проект сдан в эксплуатацию, деньги больше не нужны, и не закладывают в смету расходы на мониторинг, апдейты, обучение новых сотрудников и расширение инфраструктуры, хотя без этого BI быстро теряет актуальность.
Мораль:
Если недосчитать бюджет до начала работ, то после вы недосчитаетесь ROI.
#деньги #аналитика #статьи
❤🔥4👍4🔥3
Барометр открытых данных все еще глобальный, не переживайте
Если вы интересуетесь открытыми данными в разных странах, то знаете про Global Data Barometer. Если нет, рассказываем: это международный проект, оценивающий, как страны управляют данными, обеспечивают к ним доступ и используют их во благо общества.
На сайте публикуются отчеты и интерактивные инструменты для сравнения показателей управления данными, инфраструктуры и прозрачности между странами и регионами.
В новом отчете Global Data Barometer опубликованы данные только по 43 развивающимся странам Южной Америки и Африки. Многие начали сетовать на то, что отчет перестал быть глобальным. Это не так — просто теперь он будет выпускаться частями. Данные по 120 странам Европы, Азии и других регионов подвезут к концу 2025 или началу 2026 года.
Основные выводы отчета
В Африке отмечен прогресс в создании нормативных актов, однако на практике реализация этих норм затруднена из-за ограниченных ресурсов, слабой инфраструктуры и отсутствия единой системы идентификаторов.
В Латинской Америке и Карибском регионе сильны институциональные структуры, но слабая координация между ведомствами мешает эффективному обмену данными.
Наше скромное мнение
Думаем, что настоящих причин у проблем с данными в этих регионах две:
1. Бюджеты на развитие цифровой инфраструктуры часто уступают другим приоритетам, а квалифицированных специалистов по анализу данных и ИИ катастрофически не хватает.
2. Исторически эти регионы сталкиваются с высокой политической нестабильностью и частой сменой властей, что не позволяет доводить начатые инициативы до конца и создает препятствия для долгосрочного планирования.
Ну не едут в Африку крутые спецы по работе с данными. Там крокодилы, львы и гориллы.
#аналитика #исследования
Если вы интересуетесь открытыми данными в разных странах, то знаете про Global Data Barometer. Если нет, рассказываем: это международный проект, оценивающий, как страны управляют данными, обеспечивают к ним доступ и используют их во благо общества.
На сайте публикуются отчеты и интерактивные инструменты для сравнения показателей управления данными, инфраструктуры и прозрачности между странами и регионами.
В новом отчете Global Data Barometer опубликованы данные только по 43 развивающимся странам Южной Америки и Африки. Многие начали сетовать на то, что отчет перестал быть глобальным. Это не так — просто теперь он будет выпускаться частями. Данные по 120 странам Европы, Азии и других регионов подвезут к концу 2025 или началу 2026 года.
Основные выводы отчета
В Африке отмечен прогресс в создании нормативных актов, однако на практике реализация этих норм затруднена из-за ограниченных ресурсов, слабой инфраструктуры и отсутствия единой системы идентификаторов.
В Латинской Америке и Карибском регионе сильны институциональные структуры, но слабая координация между ведомствами мешает эффективному обмену данными.
Наше скромное мнение
Думаем, что настоящих причин у проблем с данными в этих регионах две:
1. Бюджеты на развитие цифровой инфраструктуры часто уступают другим приоритетам, а квалифицированных специалистов по анализу данных и ИИ катастрофически не хватает.
2. Исторически эти регионы сталкиваются с высокой политической нестабильностью и частой сменой властей, что не позволяет доводить начатые инициативы до конца и создает препятствия для долгосрочного планирования.
Ну не едут в Африку крутые спецы по работе с данными. Там крокодилы, львы и гориллы.
#аналитика #исследования
👍5❤🔥3👏2🔥1
Ротшильд, поражение Наполеона при Ватерлоо, коронавирус и работа с данными
Сегодня пост не про большие данные, а скорее про малые, но под большим контролем.
На Форбсе вышла статья про гейткипинг: термин описывает контроль доступа к данным, осуществляемый определенными людьми в своих интересах.
Разбираемся на примерах, что это такое и как работает.
Гейткипинг еще называют теорией привратника. Важнейшими объектами, подпадающими под определение гейткипинга, выступают СМИ, где привратники — это главные редакторы, пиарщики, продюсеры и журналисты. О влиянии на мир моды главного редактора Vogue Анны Винтур даже снимают фильмы.
Гейткипинг может быть как положительным, так и отрицательным механизмом.
Все зависит от контекста и мотива:
Ограничение доступа к порносайтам для несовершеннолетних или рецензирование научных статей — очевидно положительные механизмы.
Когда журналист освещает какой-то конфликт и дает возможность высказаться только одной из сторон — это, напротив, отрицательный гейткипинг.
Похоже на цензуру, но есть разница. Цензура всегда подразумевает насильственное или властное ограничение свободы слова, тогда как гейткипинг — более широкий понятийный инструментарий отбора, который не всегда преследует криминальные или антиобщественные цели.
Теперь к интересным историческим примерам.
По легенде, в июне 1815 года Натан Ротшильд, имея разветвленную сеть агентов и курьеров по всей Европе, первым получил сообщение о поражении Наполеона у Ватерлоо — якобы с помощью голубиной почты или особого гонца, прибывшего в Лондон раньше официальных депеш.
Узнав о поражении, он поспешно распродал британские гособлигации, спровоцировав панику на рынке и падение цен, а затем выкупил их по значительно сниженной стоимости: когда же новость об успехе англо-голландских войск была официально подтверждена, стоимость облигаций резко выросла, и Ротшильд заработал на этой операции целое состояние.
Есть и более свежий пример.
В июле 2021 года редакцию одного из самых авторитетных медицинских журналов The Lance обвинили в сокрытии важной информации о COVID-19: редакторы не сразу опубликовали данные о том, что коронавирус передается от человека к человеку.
С одной стороны, возможности привратников, которые решают, какие данные попадут к общественности, а какие нет, становятся скромнее. Из-за всепроникающих соцсетей и мессенджеров.
С другой стороны, мы вверяем полномочия другим привратникам — нейросетям, возможности которых, вероятно, превосходят возможности Ротшильда в начале 19 века.
#статьи
Сегодня пост не про большие данные, а скорее про малые, но под большим контролем.
На Форбсе вышла статья про гейткипинг: термин описывает контроль доступа к данным, осуществляемый определенными людьми в своих интересах.
Разбираемся на примерах, что это такое и как работает.
Гейткипинг еще называют теорией привратника. Важнейшими объектами, подпадающими под определение гейткипинга, выступают СМИ, где привратники — это главные редакторы, пиарщики, продюсеры и журналисты. О влиянии на мир моды главного редактора Vogue Анны Винтур даже снимают фильмы.
Гейткипинг может быть как положительным, так и отрицательным механизмом.
Все зависит от контекста и мотива:
Ограничение доступа к порносайтам для несовершеннолетних или рецензирование научных статей — очевидно положительные механизмы.
Когда журналист освещает какой-то конфликт и дает возможность высказаться только одной из сторон — это, напротив, отрицательный гейткипинг.
Похоже на цензуру, но есть разница. Цензура всегда подразумевает насильственное или властное ограничение свободы слова, тогда как гейткипинг — более широкий понятийный инструментарий отбора, который не всегда преследует криминальные или антиобщественные цели.
Теперь к интересным историческим примерам.
По легенде, в июне 1815 года Натан Ротшильд, имея разветвленную сеть агентов и курьеров по всей Европе, первым получил сообщение о поражении Наполеона у Ватерлоо — якобы с помощью голубиной почты или особого гонца, прибывшего в Лондон раньше официальных депеш.
Узнав о поражении, он поспешно распродал британские гособлигации, спровоцировав панику на рынке и падение цен, а затем выкупил их по значительно сниженной стоимости: когда же новость об успехе англо-голландских войск была официально подтверждена, стоимость облигаций резко выросла, и Ротшильд заработал на этой операции целое состояние.
Есть и более свежий пример.
В июле 2021 года редакцию одного из самых авторитетных медицинских журналов The Lance обвинили в сокрытии важной информации о COVID-19: редакторы не сразу опубликовали данные о том, что коронавирус передается от человека к человеку.
С одной стороны, возможности привратников, которые решают, какие данные попадут к общественности, а какие нет, становятся скромнее. Из-за всепроникающих соцсетей и мессенджеров.
С другой стороны, мы вверяем полномочия другим привратникам — нейросетям, возможности которых, вероятно, превосходят возможности Ротшильда в начале 19 века.
#статьи
👍4🔥4❤🔥3
Иногда персональные данные нужно раскрывать в упрощенном порядке
МТС и «Лиза Алерт» запускают сервис для поиска пропавших людей. С поисково-спасательным отрядом уже несколько лет сотрудничает Вымпелком, но даже при пропаже человека передавать геоданные по текущему законодательству довольно сложно.
Сервис будет бесплатно доступен абонентам МТС. Подключить его можно в приложении МТС в разделе «Защитник» или в «Семейной группе», при этом пользователю необходимо дать согласие на передачу данных о его местоположении и заряде мобильного устройства в поисково-спасательный отряд «Лиза Алерт» в случае возникновения чрезвычайной ситуации.
Данные будут передаваться автоматически сразу после поступления запроса от отряда «Лиза Алерт». Как пояснила глава МТС, сервис не будет нарушать существующее законодательство: данные будут передаваться через зашифрованный канал и интерфейс, которые были разработаны специально для работы с «Лиза Алерт».
#безопасность
МТС и «Лиза Алерт» запускают сервис для поиска пропавших людей. С поисково-спасательным отрядом уже несколько лет сотрудничает Вымпелком, но даже при пропаже человека передавать геоданные по текущему законодательству довольно сложно.
Сервис будет бесплатно доступен абонентам МТС. Подключить его можно в приложении МТС в разделе «Защитник» или в «Семейной группе», при этом пользователю необходимо дать согласие на передачу данных о его местоположении и заряде мобильного устройства в поисково-спасательный отряд «Лиза Алерт» в случае возникновения чрезвычайной ситуации.
Данные будут передаваться автоматически сразу после поступления запроса от отряда «Лиза Алерт». Как пояснила глава МТС, сервис не будет нарушать существующее законодательство: данные будут передаваться через зашифрованный канал и интерфейс, которые были разработаны специально для работы с «Лиза Алерт».
#безопасность
🔥5👍3 3🤗2❤🔥1
«Размер значения не имеет», — учил мастер Йода
Не нужны миллионы и орды аналитиков, чтобы стать data-driven. Маленький стартап с парой простых инструментов и вовлеченными сотрудниками моментально принимает решения на основе данных, тогда как в корпорации десятки хранилищ, несколько Data Lake и семь BI-систем лишь создают хаос, и инсайты тонут в бюрократии.
Разбираемся, почему так.
1. Гибкость против избыточности инструментов
В небольших командах хватит простой эксельки и одной BI-системы, чтобы быстро видеть метрики и проверять гипотезы. В крупных организациях же десяток хранилищ, несколько Data Lake и BI-платформ приводят к разрозненности данных и затягивают получение инсайтов.
2. Скорость принятия решений против бюрократии
Стартап может менять метрики на ходу и сразу внедрять выводы, тогда как в корпорации любое нововведение проходит длинный цикл согласований, и бизнес-пользователь теряет мотивацию ждать.
3. Прямая мотивация против формальных ролей
В маленькой компании аналитик тесно общается с командой и видит прямой эффект своего анализа. В большой — аналитики часто сидят в одном офисе, инженеры в другом, а бизнес-отдел вообще отдельно, из-за чего качество данных и фокус на нужных KPI размываются.
4. Простые процессы против формализация
В стартапе достаточно договориться о нескольких ключевых показателях и пройти цикл «гипотеза→сбор данных→проверка→действие». В корпорации же для каждого дашборда нужен регламент, аудит качества данных и долгие согласования, из-за чего процессы превращаются в тяжеловесную машину.
Разбираемся, как быть.
Попробовать 3P-Framework.
В компании любого размера зрелая data-driven культура стоит на трехслонах столпах:
1. People
Важно, чтобы сотрудники понимали ценность данных и могли сами формулировать бизнес-вопросы, задавать гипотезы и проверять их.
2. Platform
Инструменты должны быть удобными и доступными: одна BI-система, понятные дашборды, минимальное количество промежуточных слоев и четко выстроенное хранилище.
3. Process
Легкая, гибкая методология превращает данные в инсайты: регулярные ретроспективы, хакатоны, интеграция аналитиков в поля, временная посадка внутри бизнес-команд, открытые каналы коммуникации.
Да пребудет с вами сила.
#аналитика
Не нужны миллионы и орды аналитиков, чтобы стать data-driven. Маленький стартап с парой простых инструментов и вовлеченными сотрудниками моментально принимает решения на основе данных, тогда как в корпорации десятки хранилищ, несколько Data Lake и семь BI-систем лишь создают хаос, и инсайты тонут в бюрократии.
Разбираемся, почему так.
1. Гибкость против избыточности инструментов
В небольших командах хватит простой эксельки и одной BI-системы, чтобы быстро видеть метрики и проверять гипотезы. В крупных организациях же десяток хранилищ, несколько Data Lake и BI-платформ приводят к разрозненности данных и затягивают получение инсайтов.
2. Скорость принятия решений против бюрократии
Стартап может менять метрики на ходу и сразу внедрять выводы, тогда как в корпорации любое нововведение проходит длинный цикл согласований, и бизнес-пользователь теряет мотивацию ждать.
3. Прямая мотивация против формальных ролей
В маленькой компании аналитик тесно общается с командой и видит прямой эффект своего анализа. В большой — аналитики часто сидят в одном офисе, инженеры в другом, а бизнес-отдел вообще отдельно, из-за чего качество данных и фокус на нужных KPI размываются.
4. Простые процессы против формализация
В стартапе достаточно договориться о нескольких ключевых показателях и пройти цикл «гипотеза→сбор данных→проверка→действие». В корпорации же для каждого дашборда нужен регламент, аудит качества данных и долгие согласования, из-за чего процессы превращаются в тяжеловесную машину.
Разбираемся, как быть.
Попробовать 3P-Framework.
В компании любого размера зрелая data-driven культура стоит на трех
1. People
Важно, чтобы сотрудники понимали ценность данных и могли сами формулировать бизнес-вопросы, задавать гипотезы и проверять их.
2. Platform
Инструменты должны быть удобными и доступными: одна BI-система, понятные дашборды, минимальное количество промежуточных слоев и четко выстроенное хранилище.
3. Process
Легкая, гибкая методология превращает данные в инсайты: регулярные ретроспективы, хакатоны, интеграция аналитиков в поля, временная посадка внутри бизнес-команд, открытые каналы коммуникации.
Да пребудет с вами сила.
#аналитика
👍4 3❤🔥2🔥2
Кто и зачем запускает ЦОД к Луне
В феврале Lonestar Data Holdings вместе с Phison и Intuitive Machines отправила на Луну устройство Freedom на посадочном модуле IM-2 Athena, запущенном ракетой Falcon 9 SpaceX.
Freedom — петабайтный ЦОД на SSD, защищенный 3D-печатным корпусом, способный работать в условиях космоса: корпус обеспечивает естественное охлаждение, а солнечные панели — питание. Внутри — SSD Phison и FPGA Microchip PolarFire для базовых задач шифрования и передачи данных.
Цель миссии — проверить надежность SSD и вычислительной платформы в транслунном пространстве.
В течение пятидневного полета Lonestar тестировала прием, отправку и шифрование файлов для клиентов (госструктур, ИИ-стартапов, развлекательных компаний), доказав работоспособность RISC-V процессора и кастомной Linux-сборки. Отсутствие атмосферы и стабильный доступ к солнечной энергии показали эффективность радиационного охлаждения без сложных систем термоменеджмента.
Коммерческая цель — создать премиальное решение для аварийного восстановления.
Хранение критичных данных на Луне исключает риски земных катастроф (ураганы, землетрясения), а edge-вычисления на узле снижают задержки и повышают безопасность для финансовых и оборонных систем. Инвесторы (Scout Ventures, 2 Future Holdings, Seldor Capital) вложили около $10 млн, рассчитывая на спрос крупных корпоративных и правительственных клиентов.
Хотя старты и тесты в CisLunar Space прошли успешно, при мягкой посадке 6 марта 2025 года Athena перевернулась из-за тонкой конструкции шасси и сильного похолодания, что вывело Freedom из строя.
Тем не менее миссия доказала, что SSD Phison с RISC-V и FPGA способны работать в космосе. Lonestar планирует запустить первую серию лунных орбитальных ЦОДов в 2027 году, продолжая развивать технологии хранения и обработки данных вне Земли.
#безопасность
В феврале Lonestar Data Holdings вместе с Phison и Intuitive Machines отправила на Луну устройство Freedom на посадочном модуле IM-2 Athena, запущенном ракетой Falcon 9 SpaceX.
Freedom — петабайтный ЦОД на SSD, защищенный 3D-печатным корпусом, способный работать в условиях космоса: корпус обеспечивает естественное охлаждение, а солнечные панели — питание. Внутри — SSD Phison и FPGA Microchip PolarFire для базовых задач шифрования и передачи данных.
Цель миссии — проверить надежность SSD и вычислительной платформы в транслунном пространстве.
В течение пятидневного полета Lonestar тестировала прием, отправку и шифрование файлов для клиентов (госструктур, ИИ-стартапов, развлекательных компаний), доказав работоспособность RISC-V процессора и кастомной Linux-сборки. Отсутствие атмосферы и стабильный доступ к солнечной энергии показали эффективность радиационного охлаждения без сложных систем термоменеджмента.
Коммерческая цель — создать премиальное решение для аварийного восстановления.
Хранение критичных данных на Луне исключает риски земных катастроф (ураганы, землетрясения), а edge-вычисления на узле снижают задержки и повышают безопасность для финансовых и оборонных систем. Инвесторы (Scout Ventures, 2 Future Holdings, Seldor Capital) вложили около $10 млн, рассчитывая на спрос крупных корпоративных и правительственных клиентов.
Хотя старты и тесты в CisLunar Space прошли успешно, при мягкой посадке 6 марта 2025 года Athena перевернулась из-за тонкой конструкции шасси и сильного похолодания, что вывело Freedom из строя.
Тем не менее миссия доказала, что SSD Phison с RISC-V и FPGA способны работать в космосе. Lonestar планирует запустить первую серию лунных орбитальных ЦОДов в 2027 году, продолжая развивать технологии хранения и обработки данных вне Земли.
#безопасность
2🔥4 3❤🔥2👌2
Большие данные умирают
Вот и мы тоже не смогли пройти мимо заголовка статьи Is Big Data Dying?
Разумеется, большие данные переживают не гибель самого понятия, а устаревание традиционных технологий и подходов.
В статье авторы разбирают историю эволюции больших данных и делают прогнозы.
История делится на три этапа:
Этап 1 (классический Hadoop + Lambda)
- Архитектуру составляли более 30 компонентов, требовавших команды из 50+ специалистов.
- Постоянные конфликты данных: единственный способ исправить ошибку — удаление и полная перезапись раздела.
- Хранение дублировавшихся данных приводило к росту расходов.
- Любой слепой SQL-запрос без фильтрации по партиции мог потопить всю систему.
- При объемах в несколько миллиардов записей в день производительность падала, а платформа оказывалась крайне ненадежной.
Этап 2 (Data Lake и Lakehouse)
- С новыми форматами Iceberg и Delta Lake число компонентов и количество людей в командах сократилось до 10.
- Появилась транзакционная поддержка, единые метаданные и единое хранилище, что упростило процессы компактирования версий и Z-order оптимизации.
- SQL-запросы стали маршрутизироваться по разным движкам в зависимости от задач.
- Максимальный размер таблицы ~10 млрд строк, число таблиц — до 10 000.
- Даже с этими улучшениями для триллионной шкалы данных все еще требовались большие инженерные ресурсы, а архитектура оставалась сложной.
Этап 3 (облачные платформы pay-as-you-go)
- Решения вроде Snowflake и Databend позволяют выполнять SQL-запросы напрямую к файлам в S3 (CSV, Parquet, ORC) без подготовки Spark-файлов.
- ETL-инженеры, ранее тратившие дни на загрузку и трансформацию, теперь справляются за полчаса.
- Потоковая и пакетная обработки полностью интегрированы, возможность запускать UDF-задачи на Python заменяет десятки кластеров Flink.
Последствия перехода
В результате перехода на облачные платформы классическая роль Data Mover фактически исчезает: задачи, ранее занимавшие дни у крупных команд инженеров, теперь выполняются автоматически в рамках облачного сервиса.
Вместо специалистов по DWH, чья основная функция заключалась в настройке и поддержке сложных пайплайнов, появляются новые профессии:
- Инженеры, работающие с лоукод-инструментами для подготовки данных.
- Специалисты по интеграции и визуализации.
- Бизнес-аналитики, использующие Text2SQL.
- Разработчики умных систем, фокусирующиеся на генерации ценности, а не на сложных пайплайнах.
Вместо инженеров широкого профиля становятся востребованы узкие специалисты с глубокими знаниями лоукод-платформ, UDF-функций и внутренних принципов новых хранилищ.
#аналитика #статьи
Вот и мы тоже не смогли пройти мимо заголовка статьи Is Big Data Dying?
Разумеется, большие данные переживают не гибель самого понятия, а устаревание традиционных технологий и подходов.
В статье авторы разбирают историю эволюции больших данных и делают прогнозы.
История делится на три этапа:
Этап 1 (классический Hadoop + Lambda)
- Архитектуру составляли более 30 компонентов, требовавших команды из 50+ специалистов.
- Постоянные конфликты данных: единственный способ исправить ошибку — удаление и полная перезапись раздела.
- Хранение дублировавшихся данных приводило к росту расходов.
- Любой слепой SQL-запрос без фильтрации по партиции мог потопить всю систему.
- При объемах в несколько миллиардов записей в день производительность падала, а платформа оказывалась крайне ненадежной.
Этап 2 (Data Lake и Lakehouse)
- С новыми форматами Iceberg и Delta Lake число компонентов и количество людей в командах сократилось до 10.
- Появилась транзакционная поддержка, единые метаданные и единое хранилище, что упростило процессы компактирования версий и Z-order оптимизации.
- SQL-запросы стали маршрутизироваться по разным движкам в зависимости от задач.
- Максимальный размер таблицы ~10 млрд строк, число таблиц — до 10 000.
- Даже с этими улучшениями для триллионной шкалы данных все еще требовались большие инженерные ресурсы, а архитектура оставалась сложной.
Этап 3 (облачные платформы pay-as-you-go)
- Решения вроде Snowflake и Databend позволяют выполнять SQL-запросы напрямую к файлам в S3 (CSV, Parquet, ORC) без подготовки Spark-файлов.
- ETL-инженеры, ранее тратившие дни на загрузку и трансформацию, теперь справляются за полчаса.
- Потоковая и пакетная обработки полностью интегрированы, возможность запускать UDF-задачи на Python заменяет десятки кластеров Flink.
Последствия перехода
В результате перехода на облачные платформы классическая роль Data Mover фактически исчезает: задачи, ранее занимавшие дни у крупных команд инженеров, теперь выполняются автоматически в рамках облачного сервиса.
Вместо специалистов по DWH, чья основная функция заключалась в настройке и поддержке сложных пайплайнов, появляются новые профессии:
- Инженеры, работающие с лоукод-инструментами для подготовки данных.
- Специалисты по интеграции и визуализации.
- Бизнес-аналитики, использующие Text2SQL.
- Разработчики умных систем, фокусирующиеся на генерации ценности, а не на сложных пайплайнах.
Вместо инженеров широкого профиля становятся востребованы узкие специалисты с глубокими знаниями лоукод-платформ, UDF-функций и внутренних принципов новых хранилищ.
#аналитика #статьи
👍7❤🔥3🔥3
Data Platform Fundamentals.pdf
4 MB
В Dagster опубликовали пошаговое руководство по созданию и эксплуатации современных дата-платформ
Рассказываем, кому будет полезно и зачем читать.
Владельцы и менеджеры дата-платформ
- Понять, зачем нужна контрольная плоскость для централизованной оркестрации и наблюдаемости, позволяющая собирать метаданные и метрики со всех пайплайнов и быстро реагировать на инциденты.
- Освоить принципы модульности и расширяемости, чтобы строить платформу, которая масштабируется вместе с бизнесом без дорогостоящих переработок.
- Сравнить основные подходы: классический ETL, ELT, Lakehouse, event-driven и понять, когда эволюционировать от MVP-решения (например, S3 + MySQL + Stitch/Sling + Dagster + dbt + Snowflake) к полноценной архитектуре на базе BigQuery, Redshift, Spark/EMR, AWS Lambda.
Инженеры и архитекторы данных
- Узнать три паттерна пайплайнов: push, pull и poll, и обеспечить идемпотентность задач, чтобы при повторных запусках не возникало дублирования или рассинхронов.
- Разобраться в медальонной архитектуре с уровнями Bronze (raw), Silver (cleaned) и Gold (consumer-ready), выбрать подходящий формат хранения (Parquet, Delta, Iceberg, Hudi) и понять, как разделять слой чтения и записи для устойчивости к изменениям в источниках.
- Изучить шесть измерений качества данных: своевременность, полнота, точность, валидность, уникальность и согласованность, а также настроить автоматические проверки с помощью Great Expectations, Soda, Deequ, встроенных проверок в Dagster или тестов в dbt, чтобы грязные данные никогда не попали в аналитику.
Аналитики данных и BI-разработчики
- Понять, зачем разделять слои Bronze, Silver и Gold и как это влияет на SLA и качество витрин: Silver-слой дает вычищенные данные для быстрой аналитики, Gold-слой — готовые отчеты для потребителей.
- Освоить базовый словарь: контрольная плоскость, наблюдаемость, каталог, чтобы эффективнее взаимодействовать с инженерами данных, задавать конкретные требования по скорости, надежности и доступности данных.
Дата-сайентисты и ML-инженеры
- Узнать, как строить экспериментальные пайплайны воспроизводимыми, чтобы гарантировать стабильность обучающих выборок и повторяемость экспериментов.
- Понять, зачем нужна медальонная архитектура для организации feature-store и обеспечения качества данных в ML, а также как интегрировать свои пайплайны в общую платформу с помощью Dagster, dbt и контроля версий.
DevOps и SRE
- Ознакомиться с подходами к мониторингу, логированию и самовосстановлению в рамках оркестраторов Dagster и Airflow, чтобы обеспечить бесперебойную работу пайплайнов.
- Понять, как контрольная плоскость помогает централизованно управлять инцидентами и метриками платформы (латентность, пропускная способность, процент успешных запусков), что важно для поддержания SLA и своевременного реагирования.
Делитесь с друзьями и коллегами, подходящими под описание.
Рассказываем, кому будет полезно и зачем читать.
Владельцы и менеджеры дата-платформ
- Понять, зачем нужна контрольная плоскость для централизованной оркестрации и наблюдаемости, позволяющая собирать метаданные и метрики со всех пайплайнов и быстро реагировать на инциденты.
- Освоить принципы модульности и расширяемости, чтобы строить платформу, которая масштабируется вместе с бизнесом без дорогостоящих переработок.
- Сравнить основные подходы: классический ETL, ELT, Lakehouse, event-driven и понять, когда эволюционировать от MVP-решения (например, S3 + MySQL + Stitch/Sling + Dagster + dbt + Snowflake) к полноценной архитектуре на базе BigQuery, Redshift, Spark/EMR, AWS Lambda.
Инженеры и архитекторы данных
- Узнать три паттерна пайплайнов: push, pull и poll, и обеспечить идемпотентность задач, чтобы при повторных запусках не возникало дублирования или рассинхронов.
- Разобраться в медальонной архитектуре с уровнями Bronze (raw), Silver (cleaned) и Gold (consumer-ready), выбрать подходящий формат хранения (Parquet, Delta, Iceberg, Hudi) и понять, как разделять слой чтения и записи для устойчивости к изменениям в источниках.
- Изучить шесть измерений качества данных: своевременность, полнота, точность, валидность, уникальность и согласованность, а также настроить автоматические проверки с помощью Great Expectations, Soda, Deequ, встроенных проверок в Dagster или тестов в dbt, чтобы грязные данные никогда не попали в аналитику.
Аналитики данных и BI-разработчики
- Понять, зачем разделять слои Bronze, Silver и Gold и как это влияет на SLA и качество витрин: Silver-слой дает вычищенные данные для быстрой аналитики, Gold-слой — готовые отчеты для потребителей.
- Освоить базовый словарь: контрольная плоскость, наблюдаемость, каталог, чтобы эффективнее взаимодействовать с инженерами данных, задавать конкретные требования по скорости, надежности и доступности данных.
Дата-сайентисты и ML-инженеры
- Узнать, как строить экспериментальные пайплайны воспроизводимыми, чтобы гарантировать стабильность обучающих выборок и повторяемость экспериментов.
- Понять, зачем нужна медальонная архитектура для организации feature-store и обеспечения качества данных в ML, а также как интегрировать свои пайплайны в общую платформу с помощью Dagster, dbt и контроля версий.
DevOps и SRE
- Ознакомиться с подходами к мониторингу, логированию и самовосстановлению в рамках оркестраторов Dagster и Airflow, чтобы обеспечить бесперебойную работу пайплайнов.
- Понять, как контрольная плоскость помогает централизованно управлять инцидентами и метриками платформы (латентность, пропускная способность, процент успешных запусков), что важно для поддержания SLA и своевременного реагирования.
Делитесь с друзьями и коллегами, подходящими под описание.
❤🔥3🙏3👍2🔥2
Сколько зарабатывают на больших данных в крупной промышленности
В Ведомостях пишут, что в 2023 году крупные промышленные компании увеличили инвестиции в большие данные и аналитику до 23% от операционного бюджета, а в 2024 году — до 30%.
Потому что увидели эффект:
При работе с большими данными расходы на производство и логистику сокращаются на 15-30%, еще на 30% сокращаются простои техники.
В нефтянке от внедрения технологии маржа увеличивается на 1-2%: в России это дало бы ₽100 млрд для Роснефти и ₽320 млрд для всей отрасли в год.
Где клад зарыт
Недавно компания De Beers, которая добывает алмазы в Ботсване уже 54 года, сократила время на разведку месторождений на 40% за счет анализа спутниковых данных.
Предположим, что затраты на разведку пропорциональны их продолжительности. Тогда в De Beers экономят $20 млн в год. Почти столько же могли бы экономить и в Алросе — $19 млн, то есть ₽1,5 млрд.
Кто не работает, тот ест
В грузовом парке горнодобывающей компании Anglo American внедрили прогнозное техническое обслуживание на основе анализа данных и искусственного интеллекта. Это сократило внеплановые простои на 30%.
Если до внедрения компания теряла до 1200 часов на простоях в год, то после обкатки технологии начала экономить до $45 млн ежегодно.
А у нас в квартире газ
По данным IDC и РАЭК, рынок больших данных в России растет на 15-25% в год, а в промышленности — аж на 30%.
Так что с внедрением больших данных и аналитики, включая цифровых двойников, у нас все хорошо.
Самые популярные кейсы в промышленности связаны с прогнозом ремонта оборудования. Это потенциально снижает затраты на ремонт от 15 до 30%.
Пофантазируем немного.
Если завтра на всех российских предприятиях внедрят системы предикативного обслуживания станков и техники, то суммарно сэкономят более ₽7 трлн за год.
#деньги #статьи
В Ведомостях пишут, что в 2023 году крупные промышленные компании увеличили инвестиции в большие данные и аналитику до 23% от операционного бюджета, а в 2024 году — до 30%.
Потому что увидели эффект:
При работе с большими данными расходы на производство и логистику сокращаются на 15-30%, еще на 30% сокращаются простои техники.
В нефтянке от внедрения технологии маржа увеличивается на 1-2%: в России это дало бы ₽100 млрд для Роснефти и ₽320 млрд для всей отрасли в год.
Где клад зарыт
Недавно компания De Beers, которая добывает алмазы в Ботсване уже 54 года, сократила время на разведку месторождений на 40% за счет анализа спутниковых данных.
Предположим, что затраты на разведку пропорциональны их продолжительности. Тогда в De Beers экономят $20 млн в год. Почти столько же могли бы экономить и в Алросе — $19 млн, то есть ₽1,5 млрд.
Кто не работает, тот ест
В грузовом парке горнодобывающей компании Anglo American внедрили прогнозное техническое обслуживание на основе анализа данных и искусственного интеллекта. Это сократило внеплановые простои на 30%.
Если до внедрения компания теряла до 1200 часов на простоях в год, то после обкатки технологии начала экономить до $45 млн ежегодно.
А у нас в квартире газ
По данным IDC и РАЭК, рынок больших данных в России растет на 15-25% в год, а в промышленности — аж на 30%.
Так что с внедрением больших данных и аналитики, включая цифровых двойников, у нас все хорошо.
Самые популярные кейсы в промышленности связаны с прогнозом ремонта оборудования. Это потенциально снижает затраты на ремонт от 15 до 30%.
Пофантазируем немного.
Если завтра на всех российских предприятиях внедрят системы предикативного обслуживания станков и техники, то суммарно сэкономят более ₽7 трлн за год.
#деньги #статьи
👍6❤3🔥3
Разработчики ИИ тратят миллионы на лоббирование своих интересов в США
OpenAI и Anthropic, традиционно позиционировавшиеся как осторожные исследовательские центры, в последние месяцы стали активно расширять присутствие в Вашингтоне, нанимая новых сотрудников и наращивая расходы на лоббизм.
Федеральный бюджет США на айти-сектор составляет около $75 млрд, значительная часть которого теперь направлена на проекты, связанные с ИИ.
Главный инструмент лоббистов — страшилка о том, что если правительство США сейчас же не направит миллиарды долларов на развитие ИИ-отрасли, то китайцы начнут доминировать в этой сфере.
Это резонно. И это работает: администрация Трампа и Конгресс рассматривают ИИ прежде всего как стратегический инструмент в гонке технологий с Китаем. Палата представителей уже приняла положение о десятилетнем моратории на ужесточение законов об ИИ на уровне штатов и местных органов власти.
В некоторых источниках пишут, что уже сегодня ИИ-компании лоббируют больше, чем нефтяные и табачные корпорации.
Нам думается, что именно и только благодаря лоббистам на американском рынке искусственного интеллекта все еще не так плотно закручены гайки регулирования. При этом госзаказы уже стали многомиллиардными.
Пока лоббисты выбивают настолько большие подряды, защита пользовательских данных и сомнительные социальные эффекты от распространения ИИ не так сильно беспокоят законотворцев.
#аналитика #ии #статьи
OpenAI и Anthropic, традиционно позиционировавшиеся как осторожные исследовательские центры, в последние месяцы стали активно расширять присутствие в Вашингтоне, нанимая новых сотрудников и наращивая расходы на лоббизм.
Федеральный бюджет США на айти-сектор составляет около $75 млрд, значительная часть которого теперь направлена на проекты, связанные с ИИ.
Главный инструмент лоббистов — страшилка о том, что если правительство США сейчас же не направит миллиарды долларов на развитие ИИ-отрасли, то китайцы начнут доминировать в этой сфере.
Это резонно. И это работает: администрация Трампа и Конгресс рассматривают ИИ прежде всего как стратегический инструмент в гонке технологий с Китаем. Палата представителей уже приняла положение о десятилетнем моратории на ужесточение законов об ИИ на уровне штатов и местных органов власти.
В некоторых источниках пишут, что уже сегодня ИИ-компании лоббируют больше, чем нефтяные и табачные корпорации.
Нам думается, что именно и только благодаря лоббистам на американском рынке искусственного интеллекта все еще не так плотно закручены гайки регулирования. При этом госзаказы уже стали многомиллиардными.
Пока лоббисты выбивают настолько большие подряды, защита пользовательских данных и сомнительные социальные эффекты от распространения ИИ не так сильно беспокоят законотворцев.
#аналитика #ии #статьи
👍4❤3❤🔥2🔥2
13% спартанцев
По данным Суперджоб, 13% учителей постоянно сталкиваются с заданиями, выполненными с помощью ИИ, и пытаются бороться с этим.
Проникновение ИИ в школы неотвратимо. Вряди ли с этим стоит бороться в прямом смысле слова. Скорее нужно адаптироваться самой школьной программе и методикам. Потому что запретить ИИ не получится.
23% родителей учеников 5-6 классов точно знают, что их ребенок обращается за решениями к ИИ. Среди родителей обучающихся 7-9 классов каждый третий знает, что ребенок выполняет домашнюю работу с помощью нейросетей, а среди родителей старшеклассников — почти каждый второй.
29% учителей пока не знают, как предотвратить бездумное использование учащимися генеративных моделей при выполнении домашних работ. Наверное, это самая адекватная когорта, ибо признание проблемы — уже половина решения.
Еще 30% заявили, что еще не сталкивались с такими ситуациями. Им либо жутко повезло, либо их компетенций недостаточно, чтобы распознать домашку, написанную искусственным интеллектом.
Поддерживаем депутата Госдумы Екатерину Харченко, которая выступает за то, чтобы разрешить школьникам пользоваться нейросетями:
#ии #исследования
По данным Суперджоб, 13% учителей постоянно сталкиваются с заданиями, выполненными с помощью ИИ, и пытаются бороться с этим.
Проникновение ИИ в школы неотвратимо. Вряди ли с этим стоит бороться в прямом смысле слова. Скорее нужно адаптироваться самой школьной программе и методикам. Потому что запретить ИИ не получится.
23% родителей учеников 5-6 классов точно знают, что их ребенок обращается за решениями к ИИ. Среди родителей обучающихся 7-9 классов каждый третий знает, что ребенок выполняет домашнюю работу с помощью нейросетей, а среди родителей старшеклассников — почти каждый второй.
29% учителей пока не знают, как предотвратить бездумное использование учащимися генеративных моделей при выполнении домашних работ. Наверное, это самая адекватная когорта, ибо признание проблемы — уже половина решения.
Еще 30% заявили, что еще не сталкивались с такими ситуациями. Им либо жутко повезло, либо их компетенций недостаточно, чтобы распознать домашку, написанную искусственным интеллектом.
Поддерживаем депутата Госдумы Екатерину Харченко, которая выступает за то, чтобы разрешить школьникам пользоваться нейросетями:
Мы должны научиться жить в новых условиях 21 века и прежде всего надо научить взрослых, в том числе педагогов и родителей, использовать искусственный интеллект как инструмент во благо — для поиска информации, для систематизации. И уже после этого научить детей. Если ты не можешь что-то отменить, то надо это возглавить.
Наши дети будут жить в эру искусственного интеллекта, поэтому нам, взрослым, в том числе учителям и педагогам, необходимо его научиться использовать как инструмент во благо. Как инновационный метод, как раньше учили на счетах, а потом появились калькуляторы и компьютеры. Также и сейчас — это просто новый инструмент, который не будет работать без человека.
#ии #исследования
❤3❤🔥2🥰2👌2🔥1 1
Если вы все еще путаете ИИ-агентов и агентный ИИ, тогда мы идем к вам
В обзоре AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges авторы предлагают четкое разделение двух парадигм автономных систем:
ИИ-агент — одиночный модуль, основанный на LLM/LIM, выполняющий четко заданную задачу (автоответы, планирование, сбор и суммирование данных).
Интегрируется с внешними инструментами (API, базы, поиск) через цепочки запросов–действий–обновлений (ReAct, tool-calling). Подходит для узконаправленной автоматизации: чат-боты, фильтрация писем, отчеты, планирование встреч.
Агентный ИИ — система из нескольких специализированных агентов, которые кооперируются для достижения общей цели.
Использует динамическое разбиение задач, координацию (через шины сообщений или shared memory), персистентную память и агента-оркестратора. Способен на сложные, многоэтапные и непрерывные рабочие процессы: исследовательские ассистенты, логистика, медицинская поддержка
Зачем понимать разницу?
1. Правильный выбор архитектуры
Если задача простая и одношаговая (например, автоответы на входящие запросы или генерация кратких отчетов), достаточно ИИ-агента — это быстро, дешево, легко внедряется.
Для сложных, многоэтапных процессов (например, полная автоматизация обработки заявок с анализом, уточнением и передачей между отделами) нужен агентный ИИ, чтобы избежать узких горлышек и обеспечить надежную координацию всех шагов.
2. Экономия ресурсов и времени
Неправильное применение агентного ИИ для простой задачи приведет к избыточным вычислениям и затратам.
Применение ИИ-агента с узкой специализацией в слишком сложном сценарии обречет проект на частые подвисания и ошибки.
3. Управление рисками и безопасностью
В многоагентных системах сложнее контролировать, какие данные и как передаются между компонентами, что требует дополнительных мер защиты и аудита.
Простые агенты легче просканировать на уязвимости и обеспечить соответствие корпоративным политикам.
4. Гибкость и масштабируемость
ИИ-агент хорошо масштабируется горизонтально (добавляем больше однотипных экземпляров), но с ростом числа задач коммуникация остается минимальной.
Агентный ИИ масштабируется вертикально (увеличивается число и разнообразие агентов), что позволяет адаптироваться к растущей сложности процессов.
Помимо сравнительной таксономии, в статье обсуждаются ключевые проблемы обеих парадигм: недостаточная причинная обусловленность и поверхностное рассуждение в ИИ-агентах, а также усиленные риски сбоев координации и непредсказуемого поведения в агентном ИИ.
#ии #статьи
В обзоре AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges авторы предлагают четкое разделение двух парадигм автономных систем:
ИИ-агент — одиночный модуль, основанный на LLM/LIM, выполняющий четко заданную задачу (автоответы, планирование, сбор и суммирование данных).
Интегрируется с внешними инструментами (API, базы, поиск) через цепочки запросов–действий–обновлений (ReAct, tool-calling). Подходит для узконаправленной автоматизации: чат-боты, фильтрация писем, отчеты, планирование встреч.
Агентный ИИ — система из нескольких специализированных агентов, которые кооперируются для достижения общей цели.
Использует динамическое разбиение задач, координацию (через шины сообщений или shared memory), персистентную память и агента-оркестратора. Способен на сложные, многоэтапные и непрерывные рабочие процессы: исследовательские ассистенты, логистика, медицинская поддержка
Зачем понимать разницу?
1. Правильный выбор архитектуры
Если задача простая и одношаговая (например, автоответы на входящие запросы или генерация кратких отчетов), достаточно ИИ-агента — это быстро, дешево, легко внедряется.
Для сложных, многоэтапных процессов (например, полная автоматизация обработки заявок с анализом, уточнением и передачей между отделами) нужен агентный ИИ, чтобы избежать узких горлышек и обеспечить надежную координацию всех шагов.
2. Экономия ресурсов и времени
Неправильное применение агентного ИИ для простой задачи приведет к избыточным вычислениям и затратам.
Применение ИИ-агента с узкой специализацией в слишком сложном сценарии обречет проект на частые подвисания и ошибки.
3. Управление рисками и безопасностью
В многоагентных системах сложнее контролировать, какие данные и как передаются между компонентами, что требует дополнительных мер защиты и аудита.
Простые агенты легче просканировать на уязвимости и обеспечить соответствие корпоративным политикам.
4. Гибкость и масштабируемость
ИИ-агент хорошо масштабируется горизонтально (добавляем больше однотипных экземпляров), но с ростом числа задач коммуникация остается минимальной.
Агентный ИИ масштабируется вертикально (увеличивается число и разнообразие агентов), что позволяет адаптироваться к растущей сложности процессов.
Помимо сравнительной таксономии, в статье обсуждаются ключевые проблемы обеих парадигм: недостаточная причинная обусловленность и поверхностное рассуждение в ИИ-агентах, а также усиленные риски сбоев координации и непредсказуемого поведения в агентном ИИ.
#ии #статьи
👍3🔥3❤🔥2❤2
Как изменилась работа с ИИ и данными в 2025 году
Инфраструктура становится умнее, инструменты гибче, а данные — центром принятия решений. Отчеты State of Data and AI Engineering и Artificial Analysis State of AI за 2025 год показывают: индустрия стремительно переходит от универсальности к эффективности.
Разбираем ключевые тренды.
Индустрия данных и ИИ в 2025 году переживает фундаментальную перестройку
На первый план выходят не столько новые платформы, сколько архитектурные сдвиги. Самый заметный — отказ от универсальных MLOps-решений в пользу легких, встроенных компонентов. Компании, как CoreWeave и ClearML, трансформируют свои продукты под конкретные задачи — оптимизацию GPU, наблюдение за LLM, CI/CD для моделей.
Это совпадает с переходом к ризонинг-моделям: по данным Artificial Analysis, они теперь доминируют в рейтингах интеллекта и требуют новых подходов к мониторингу и оценке.
В инфраструктуре фокус смещается в сторону гибкости и отказа от вендорской зависимости
AWS Glue становится фактически единственным инструментом, способным обеспечить read/write-федерацию Apache Iceberg с разными движками. Это важно, учитывая, что форматы Iceberg и Delta теперь — стандарт в построении масштабируемых lakehouse-архитектур. Такой подход снижает риски блокировки на одном вендоре и облегчает мультиоблачную миграцию.
Параллельно облачные провайдеры ведут гонку за низкой латентностью
GCS Fast Tier от Google и S3 Express от AWS ориентированы на real-time приложения, особенно на inference для LLM. Это особенно актуально в контексте новых моделей: ризонинг-системы генерируют в 10 раз больше токенов, а агентные фреймворки делают десятки запросов на одну задачу.
По сути, эффективность хранения и скорости доступа становится новым полем конкуренции в ИИ.
BigQuery закрепляет лидерство, став фундаментом аналитической стратегии Google
Количество клиентов BigQuery в 5 раз превышает суммарную аудиторию Snowflake и Databricks. Это подкрепляется тем, что Google — один из немногих игроков, обладающих полной вертикальной интеграцией — от TPU до собственных ризонинг-моделей Gemini. Такая связка данных и вычислений становится ключевым преимуществом в эпоху генеративных ИИ.
Оркестрация данных становится умной и реактивной
Dagster, Flyte, Prefect используют ИИ для построения DAG-ов, предсказания сбоев и оптимизации ресурсов. Причем эти функции уже встраиваются в интерфейсы: Azure Data Factory и Vertex AI предоставляют Copilot-режимы.
Все чаще пайплайны проектируются не кодом, а в диалоге с моделью. Это позволяет быстрее адаптироваться под задачи агентных LLM-систем, которые автономно управляют инструментами и API.
Наблюдаемость выходит на новый уровень зрелости
Решения вроде WhyLabs и Monte Carlo работают как единая система контроля качества и мониторинга модели. Это становится необходимым, поскольку рост генеративных систем требует непрерывной оценки достоверности, дрейфа и качества входных данных. Более того, с развитием агентного ИИ и автогенерации кода, проверка становится обязательной частью CI/CD.
Векторные базы данных и синтетические данные превращаются в зрелые инструменты
Pinecone демонстрирует 48% прирост точности благодаря каскадным retrieval-алгоритмам. Одновременно, инструменты генерации синтетических данных (Gretel AI, YData) компенсируют дефицит приватных или сбалансированных выборок.
Это особенно актуально, учитывая доминирование MoE-архитектур, где модели работают с малыми активными подсетями параметров — снижая стоимость, но требуя качества от обучающих данных.
Вывод
Рынок уходит от универсальных решений и движется к адаптивным, масштабируемым и агентно-ориентированным структурам. Побеждают те, кто совмещает зрелость инженерии, свободу архитектурных решений и готовность к новым классам нагрузки: ризонинг, агенты и так далее. Для специалистов по данным это означает одно — инфраструктура становится стратегическим активом.
#ии #аналитика #исследования
Инфраструктура становится умнее, инструменты гибче, а данные — центром принятия решений. Отчеты State of Data and AI Engineering и Artificial Analysis State of AI за 2025 год показывают: индустрия стремительно переходит от универсальности к эффективности.
Разбираем ключевые тренды.
Индустрия данных и ИИ в 2025 году переживает фундаментальную перестройку
На первый план выходят не столько новые платформы, сколько архитектурные сдвиги. Самый заметный — отказ от универсальных MLOps-решений в пользу легких, встроенных компонентов. Компании, как CoreWeave и ClearML, трансформируют свои продукты под конкретные задачи — оптимизацию GPU, наблюдение за LLM, CI/CD для моделей.
Это совпадает с переходом к ризонинг-моделям: по данным Artificial Analysis, они теперь доминируют в рейтингах интеллекта и требуют новых подходов к мониторингу и оценке.
В инфраструктуре фокус смещается в сторону гибкости и отказа от вендорской зависимости
AWS Glue становится фактически единственным инструментом, способным обеспечить read/write-федерацию Apache Iceberg с разными движками. Это важно, учитывая, что форматы Iceberg и Delta теперь — стандарт в построении масштабируемых lakehouse-архитектур. Такой подход снижает риски блокировки на одном вендоре и облегчает мультиоблачную миграцию.
Параллельно облачные провайдеры ведут гонку за низкой латентностью
GCS Fast Tier от Google и S3 Express от AWS ориентированы на real-time приложения, особенно на inference для LLM. Это особенно актуально в контексте новых моделей: ризонинг-системы генерируют в 10 раз больше токенов, а агентные фреймворки делают десятки запросов на одну задачу.
По сути, эффективность хранения и скорости доступа становится новым полем конкуренции в ИИ.
BigQuery закрепляет лидерство, став фундаментом аналитической стратегии Google
Количество клиентов BigQuery в 5 раз превышает суммарную аудиторию Snowflake и Databricks. Это подкрепляется тем, что Google — один из немногих игроков, обладающих полной вертикальной интеграцией — от TPU до собственных ризонинг-моделей Gemini. Такая связка данных и вычислений становится ключевым преимуществом в эпоху генеративных ИИ.
Оркестрация данных становится умной и реактивной
Dagster, Flyte, Prefect используют ИИ для построения DAG-ов, предсказания сбоев и оптимизации ресурсов. Причем эти функции уже встраиваются в интерфейсы: Azure Data Factory и Vertex AI предоставляют Copilot-режимы.
Все чаще пайплайны проектируются не кодом, а в диалоге с моделью. Это позволяет быстрее адаптироваться под задачи агентных LLM-систем, которые автономно управляют инструментами и API.
Наблюдаемость выходит на новый уровень зрелости
Решения вроде WhyLabs и Monte Carlo работают как единая система контроля качества и мониторинга модели. Это становится необходимым, поскольку рост генеративных систем требует непрерывной оценки достоверности, дрейфа и качества входных данных. Более того, с развитием агентного ИИ и автогенерации кода, проверка становится обязательной частью CI/CD.
Векторные базы данных и синтетические данные превращаются в зрелые инструменты
Pinecone демонстрирует 48% прирост точности благодаря каскадным retrieval-алгоритмам. Одновременно, инструменты генерации синтетических данных (Gretel AI, YData) компенсируют дефицит приватных или сбалансированных выборок.
Это особенно актуально, учитывая доминирование MoE-архитектур, где модели работают с малыми активными подсетями параметров — снижая стоимость, но требуя качества от обучающих данных.
Вывод
Рынок уходит от универсальных решений и движется к адаптивным, масштабируемым и агентно-ориентированным структурам. Побеждают те, кто совмещает зрелость инженерии, свободу архитектурных решений и готовность к новым классам нагрузки: ризонинг, агенты и так далее. Для специалистов по данным это означает одно — инфраструктура становится стратегическим активом.
#ии #аналитика #исследования
👍3🔥3❤🔥2
Опыт ЕС: как превратить данные из источника риска в экономический актив
Европейская комиссия прогнозирует, что экономика данных ЕС достигнет €829 млрд в этом году, а число специалистов в сфере данных превысит 10,9 миллиона человек.
Однако только около 30% компаний в ЕС активно используют внешние данные в своих бизнес-процессах, и еще меньше — извлекают из них прямую прибыль.
Главные барьеры — это юридическая неясность, риски утечек, отсутствие прозрачных механизмов оценки и доверия.
В статье Data Trading and Monetization: Challenges and Open Research Directions авторы рассматривают инициативы IDS-RAM и Gaia-X как то, что поможет преодолеть эти барьеры.
IDS-RAM обеспечивает архитектуру, где владельцы данных сохраняют полный контроль над условиями доступа и использования — вплоть до автоматической проверки соблюдения лицензионных ограничений.
Gaia-X, в свою очередь, объединяет более 350 компаний и институтов в рамках единой федеративной инфраструктуры, позволяя обмениваться данными между странами и отраслями по единым стандартам, включая соблюдение GDPR. Это делает возможным безопасный трансграничный рынок данных, а не просто разовые сделки.
В Fraunhofer Institute прикинули, что использование IDS-архитектуры позволит снизить время подготовки соглашений на 30–50%, а юридические издержки — до 70%.
Кроме того, переход от модели продажи датасета к модели data-as-a-service (например, подписка на потоковые данные или доступ к аналитике без раскрытия сырых данных) обеспечивает устойчивый доход и повторное использование активов.
Без описанных инициатив это практически невозможно.
Нам кажется, что инициативы вроде IDS-RAM и Gaia-X делают нечто большее, чем просто создание правовой базы для торговли данными. Подобные инициативы в умах директоров превращают данные из источника риска в полноценный экономический актив.
Если в компании данные воспринимаются не как актив, а как источник потенциальных убытков, это и становится главным барьером для монетизации.
Опять выходит, что все дело не в технических деталях, а в ментальности.
#деньги #статьи #исследования
Европейская комиссия прогнозирует, что экономика данных ЕС достигнет €829 млрд в этом году, а число специалистов в сфере данных превысит 10,9 миллиона человек.
Однако только около 30% компаний в ЕС активно используют внешние данные в своих бизнес-процессах, и еще меньше — извлекают из них прямую прибыль.
Главные барьеры — это юридическая неясность, риски утечек, отсутствие прозрачных механизмов оценки и доверия.
В статье Data Trading and Monetization: Challenges and Open Research Directions авторы рассматривают инициативы IDS-RAM и Gaia-X как то, что поможет преодолеть эти барьеры.
IDS-RAM обеспечивает архитектуру, где владельцы данных сохраняют полный контроль над условиями доступа и использования — вплоть до автоматической проверки соблюдения лицензионных ограничений.
Gaia-X, в свою очередь, объединяет более 350 компаний и институтов в рамках единой федеративной инфраструктуры, позволяя обмениваться данными между странами и отраслями по единым стандартам, включая соблюдение GDPR. Это делает возможным безопасный трансграничный рынок данных, а не просто разовые сделки.
В Fraunhofer Institute прикинули, что использование IDS-архитектуры позволит снизить время подготовки соглашений на 30–50%, а юридические издержки — до 70%.
Кроме того, переход от модели продажи датасета к модели data-as-a-service (например, подписка на потоковые данные или доступ к аналитике без раскрытия сырых данных) обеспечивает устойчивый доход и повторное использование активов.
Без описанных инициатив это практически невозможно.
Нам кажется, что инициативы вроде IDS-RAM и Gaia-X делают нечто большее, чем просто создание правовой базы для торговли данными. Подобные инициативы в умах директоров превращают данные из источника риска в полноценный экономический актив.
Если в компании данные воспринимаются не как актив, а как источник потенциальных убытков, это и становится главным барьером для монетизации.
Опять выходит, что все дело не в технических деталях, а в ментальности.
#деньги #статьи #исследования
🔥4👍3❤2❤🔥1
Вы не представляете, сколько стоит доступ к персональным данным пассажиров американских авиакомпаний
Американская ARC (Airlines Reporting Corporation), принадлежащая крупнейшим авиакомпаниям вроде Delta и United, продала данные о внутренних авиаперелетах пассажиров федеральной службе CBP (Служба таможни и охраны границ США).
Данные включают имена, маршруты, информацию об оплате и передаются в рамках многолетнего контракта, подписанного в 2024 году. При этом CBP обязана не раскрывать, что именно ARC является источником информации. Это подтверждают опубликованные в статье документы, полученные журналистами 404Media через запрос FOIA.
Правозащитники бьют тревогу: вместо получения данных через суд или по ордеру, власти США просто покупают их у частных брокеров, обходя законодательные ограничения. Этот случай — пример того, как госструктуры США используют лазейку брокеров данных, чтобы вернуться к модели массового сбора информации.
Сама ARC позиционирует передачу данных как часть борьбы с преступностью и террористическими угрозами, но фактически это масштабный и скрытный рынок чувствительных данных.
С точки зрения монетизации — перед нами зрелая экономика данных. Есть поставщик, продукт и стабильный покупатель — государство. Именно оно здесь играет роль маркетмейкера: формирует спрос, платит за доступ, а не изымает данные напрямую.
Вот тут и хочется сказать:
Однако подождите. Знаете, сколько федеральная служба заплатила за доступ к миллиардам строк данных?
В июне 2024 года ARC получила $11025. И в мае 2025 года еще $6847.
Утверждать ничего не будем, но либо оставшиеся суммы где-то спрятаны так, что журналисты до них не докопались, либо эти платежи — просто формальность, а передать данные авиакомпании банально обязали.
Как ни крути, на практике для граждан разницы немного: и там и там государство получает доступ к личной информации.
Но в США хотя бы существует экономическая оболочка процесса — рынок, где данные, пусть и формально, становятся товаром. В России же данные чаще всего изымаются как ресурс, без возможности влиять на их оборот или использовать их экономически.
#безопасность #деньги #статьи
Американская ARC (Airlines Reporting Corporation), принадлежащая крупнейшим авиакомпаниям вроде Delta и United, продала данные о внутренних авиаперелетах пассажиров федеральной службе CBP (Служба таможни и охраны границ США).
Данные включают имена, маршруты, информацию об оплате и передаются в рамках многолетнего контракта, подписанного в 2024 году. При этом CBP обязана не раскрывать, что именно ARC является источником информации. Это подтверждают опубликованные в статье документы, полученные журналистами 404Media через запрос FOIA.
Правозащитники бьют тревогу: вместо получения данных через суд или по ордеру, власти США просто покупают их у частных брокеров, обходя законодательные ограничения. Этот случай — пример того, как госструктуры США используют лазейку брокеров данных, чтобы вернуться к модели массового сбора информации.
Сама ARC позиционирует передачу данных как часть борьбы с преступностью и террористическими угрозами, но фактически это масштабный и скрытный рынок чувствительных данных.
С точки зрения монетизации — перед нами зрелая экономика данных. Есть поставщик, продукт и стабильный покупатель — государство. Именно оно здесь играет роль маркетмейкера: формирует спрос, платит за доступ, а не изымает данные напрямую.
Вот тут и хочется сказать:
Это резкий контраст с Россией, где данные чаще всего передаются властям в обязательном порядке, а попытки построить рынок ограничиваются административным регулированием.
Однако подождите. Знаете, сколько федеральная служба заплатила за доступ к миллиардам строк данных?
В июне 2024 года ARC получила $11025. И в мае 2025 года еще $6847.
Утверждать ничего не будем, но либо оставшиеся суммы где-то спрятаны так, что журналисты до них не докопались, либо эти платежи — просто формальность, а передать данные авиакомпании банально обязали.
Как ни крути, на практике для граждан разницы немного: и там и там государство получает доступ к личной информации.
Но в США хотя бы существует экономическая оболочка процесса — рынок, где данные, пусть и формально, становятся товаром. В России же данные чаще всего изымаются как ресурс, без возможности влиять на их оборот или использовать их экономически.
#безопасность #деньги #статьи
👍3🔥3😁2 1
Как тебе такое, Бенджамин Франклин?
Во-первых, Бенджамин Франклин, изображенный на $100, никогда не был президентом США. Это просто на всякий случай.
Во-вторых, ему принадлежит любимая редактором цитата:
В-третьих, он бы сильно удивился, что в 2025 году люди куда охотнее жертвуют не свободой, а именно что безопасностью. Особенно компании, внедряющие решения на базе искусственного интеллекта.
По данным Gigamon, 91% компаний идут на компромиссы в вопросах безопасности, масштабируя айти-инфраструктуру гибридных облаков ради ускоренного внедрения ИИ. Это при том, что 70% считают публичные облачные сервисы самым рискованным компонентом гибридной облачной среды.
В Gigamon опросили 1000 руководителей айти-отделов и директоров по информационной безопасности из разных стран и выяснили:
- 58% компаний столкнулись с ростом атак, в которых используется ИИ — это на 17% больше, чем годом ранее.
- 46% указали на нехватку качественных данных для безопасного развертывания ИИ.
- 47% респондентов отметили, что не могут получать полное, точное и своевременное представление о всех своих данных на протяжении всего их жизненного цикла. При этом только 64% ставят целью достижение полной видимости всех данных в реальном времени.
Кажется, многие опрометчиво перекладывают вопросы безопасности с интеллекта собственного на интеллект искусственный. Никакие умные алгоритмы не спасут, если вы не знаете, что происходит с вашими данными.
#ии #исследования
Во-первых, Бенджамин Франклин, изображенный на $100, никогда не был президентом США. Это просто на всякий случай.
Во-вторых, ему принадлежит любимая редактором цитата:
Те, кто готов пожертвовать насущной свободой ради малой толики временной безопасности, не достойны ни свободы, ни безопасности.
В-третьих, он бы сильно удивился, что в 2025 году люди куда охотнее жертвуют не свободой, а именно что безопасностью. Особенно компании, внедряющие решения на базе искусственного интеллекта.
По данным Gigamon, 91% компаний идут на компромиссы в вопросах безопасности, масштабируя айти-инфраструктуру гибридных облаков ради ускоренного внедрения ИИ. Это при том, что 70% считают публичные облачные сервисы самым рискованным компонентом гибридной облачной среды.
В Gigamon опросили 1000 руководителей айти-отделов и директоров по информационной безопасности из разных стран и выяснили:
- 58% компаний столкнулись с ростом атак, в которых используется ИИ — это на 17% больше, чем годом ранее.
- 46% указали на нехватку качественных данных для безопасного развертывания ИИ.
- 47% респондентов отметили, что не могут получать полное, точное и своевременное представление о всех своих данных на протяжении всего их жизненного цикла. При этом только 64% ставят целью достижение полной видимости всех данных в реальном времени.
Кажется, многие опрометчиво перекладывают вопросы безопасности с интеллекта собственного на интеллект искусственный. Никакие умные алгоритмы не спасут, если вы не знаете, что происходит с вашими данными.
#ии #исследования
👍3🔥3❤2❤🔥2
OpenAI рискует потерять $20 млрд из-за конфликта с Microsoft
С 2019 года Microsoft вложила в OpenAI $13 млрд. Однако сегодня OpenAI хочет ослабить контроль Microsoft над своими продуктами и вычислительными ресурсами, но при этом заручиться поддержкой техногиганта в вопросе преобразования в коммерческую компанию.
Одним из предметов конфликта стала покупка OpenAI стартапа Windsurf, который занимается вайб-кодингом, за $3 млрд. Microsoft по контракту имеет доступ ко всей интеллектуальной собственности OpenAI, но последняя хочет закрыть доступ к технологиям Windsurf. Также идет спор о доле Microsoft в новой структуре OpenAI после преобразования: техногигант требует больше, чем OpenAI готова отдать.
Кроме того, компании теперь конкурируют и на рынке потребительских чат-ботов, и в корпоративных решениях. Год назад CEO Microsoft Сатья Наделла нанял конкурента Сэма Альтмана, чтобы создать конкурирующие модели внутри компании.
Без одобрения преобразования от Microsoft OpenAI не сможет привлечь новые инвестиции, выйти на биржу и потеряет порядка $20 млрд.
Нам думается, что все закончится тихо-мирно. Однако инсайдеры WSJ утверждают, что руководство OpenAI обсуждало подачу антимонопольной жалобы на Microsoft.
Будем посмотреть, чем закончится.
#ии #статьи
С 2019 года Microsoft вложила в OpenAI $13 млрд. Однако сегодня OpenAI хочет ослабить контроль Microsoft над своими продуктами и вычислительными ресурсами, но при этом заручиться поддержкой техногиганта в вопросе преобразования в коммерческую компанию.
Одним из предметов конфликта стала покупка OpenAI стартапа Windsurf, который занимается вайб-кодингом, за $3 млрд. Microsoft по контракту имеет доступ ко всей интеллектуальной собственности OpenAI, но последняя хочет закрыть доступ к технологиям Windsurf. Также идет спор о доле Microsoft в новой структуре OpenAI после преобразования: техногигант требует больше, чем OpenAI готова отдать.
Кроме того, компании теперь конкурируют и на рынке потребительских чат-ботов, и в корпоративных решениях. Год назад CEO Microsoft Сатья Наделла нанял конкурента Сэма Альтмана, чтобы создать конкурирующие модели внутри компании.
Без одобрения преобразования от Microsoft OpenAI не сможет привлечь новые инвестиции, выйти на биржу и потеряет порядка $20 млрд.
Нам думается, что все закончится тихо-мирно. Однако инсайдеры WSJ утверждают, что руководство OpenAI обсуждало подачу антимонопольной жалобы на Microsoft.
Будем посмотреть, чем закончится.
#ии #статьи
🤔4👍3🤝2❤1
Бизнесу могут запретить создавать профайлы клиентов на базе персональных данных
Как пишут Ведомости, в России готовится законопроект, запрещающий автоматизированный профайлинг пользователей без отдельного согласия. Банки, маркетплейсы и телеком-компании больше не смогут собирать и анализировать данные из разных источников для персонализированного маркетинга, скоринга и таргетинга.
Все согласия на обработку должны будут проходить через ЕСИА или напрямую оператору. Изменения вносятся в статью 5 Федерального закона №152-ФЗ «О персональных данных».
Законопроект мотивирован борьбой с айти-мошенничеством: по данным МВД, в 2024 году зарегистрировано 380 300 преступлений, предусмотренных статьями 159, 159.3 и 159.6 УК РФ, что на 6,8% больше, чем в 2023 году. Ущерб составил ₽188 млрд — рост на 38%.
Минцифры утверждает, что цель инициативы — защита прав граждан и минимизация сбора данных.
Бизнес предупреждает: новые правила парализуют развитие технологий на основе данных. Компании уже вложили миллиарды в системы персонализации, и теперь они рискуют оказаться вне закона. Особенно сильно пострадают малые компании и стартапы, которым будет сложно соблюдать новые требования к администрированию и отчетности в ЕСИА.
Эксперты также отмечают, что в действующем законе уже запрещено объединять базы данных, обрабатываемые с несовместимыми целями. Новый запрет дублирует это положение, вводя дополнительные формулировки — «разные источники», «прогнозирование характеристик» — не определенные юридически, что создает риск правовой неясности.
Все это усложнит архитектуру сервисов, использующих машинное обучение, скоринг и таргетинг. Операторам придется пересматривать алгоритмы, наращивать юридическую и техническую нагрузку, а также отказываться от привычных моделей персонализации.
Предсказываем:
Сперва это выльется в дополнительные издержки для операторов данных и поставщиков услуг, а затем они переложат этот груз на плечи пользователей, повысив стоимость своих продуктов.
Если подумать, то пользователи из своего кармана заплатят за свою же безопасность. Это в лучшем случае.
#безопасность #статьи
Как пишут Ведомости, в России готовится законопроект, запрещающий автоматизированный профайлинг пользователей без отдельного согласия. Банки, маркетплейсы и телеком-компании больше не смогут собирать и анализировать данные из разных источников для персонализированного маркетинга, скоринга и таргетинга.
Все согласия на обработку должны будут проходить через ЕСИА или напрямую оператору. Изменения вносятся в статью 5 Федерального закона №152-ФЗ «О персональных данных».
Законопроект мотивирован борьбой с айти-мошенничеством: по данным МВД, в 2024 году зарегистрировано 380 300 преступлений, предусмотренных статьями 159, 159.3 и 159.6 УК РФ, что на 6,8% больше, чем в 2023 году. Ущерб составил ₽188 млрд — рост на 38%.
Минцифры утверждает, что цель инициативы — защита прав граждан и минимизация сбора данных.
Бизнес предупреждает: новые правила парализуют развитие технологий на основе данных. Компании уже вложили миллиарды в системы персонализации, и теперь они рискуют оказаться вне закона. Особенно сильно пострадают малые компании и стартапы, которым будет сложно соблюдать новые требования к администрированию и отчетности в ЕСИА.
Эксперты также отмечают, что в действующем законе уже запрещено объединять базы данных, обрабатываемые с несовместимыми целями. Новый запрет дублирует это положение, вводя дополнительные формулировки — «разные источники», «прогнозирование характеристик» — не определенные юридически, что создает риск правовой неясности.
Все это усложнит архитектуру сервисов, использующих машинное обучение, скоринг и таргетинг. Операторам придется пересматривать алгоритмы, наращивать юридическую и техническую нагрузку, а также отказываться от привычных моделей персонализации.
Предсказываем:
Сперва это выльется в дополнительные издержки для операторов данных и поставщиков услуг, а затем они переложат этот груз на плечи пользователей, повысив стоимость своих продуктов.
Если подумать, то пользователи из своего кармана заплатят за свою же безопасность. Это в лучшем случае.
#безопасность #статьи
👍3🔥3🤯2❤1