Считаете, что ваши данные при передаче третьей стороне защищены? Ну и зря
Скандалы, интриги, расследования.
В федеральном законодательстве США есть лазейка. Регуляторы могут получить доступ к вашим личным данным без ордера — если эти данные хранятся у третьей стороны.
Сейчас Верховный суд США рассматривает резонансное дело Джеймса Харпера против главы Налоговой службы США Дугласа О’Доннелла. В деле фигурирует Third-Party Doctrine. На русский это можно перевести как «Доктрина отказа от конфиденциальности при передаче данных третьим лицам».
В 2016 году налоговая провела масштабный сбор данных, потребовав от криптобиржи Coinbase записи транзакций более чем 14 000 клиентов платформы. После клиент Coinbase Джеймс Харпер получил письмо от налоговой с обвинением в занижении доходов от криптовалют.
Харпер обвинение отрицает. Он узнал, что налоговая без ордера получила доступ к его журналам транзакций, адресам кошельков и публичным ключам.
Юристы Харпера заявили, что налоговая нарушила его конституционные права, в частности четвертую поправку, которая защищает от необоснованных обысков и изъятий.
Суды низших инстанций несколько раз отклоняли иск Харпера, ссылаясь на ту самую Third-Party Doctrine, основанную на двух решениях Верховного суда США 1970-х годов. Тогда суд постановил, что «человек не может рассчитывать на неприкосновенность данных, которые он добровольно передал третьим сторонам».
После апелляции суд постановил, что записи Харпера принадлежат Coinbase, и потому подпадают под исключение из действия четвертой поправки.
Это вообще законно?
Формально все законно. С точки зрения гражданских прав — спорно.
Ордер обязателен только при физическом обыске или прямом вмешательстве в частную жизнь. Если же информация хранится у сторонней компании, ее можно запросить административно, без суда. Так что это не халатность налоговой, а особенности правовой системы.
На чем настаивают юристы Харпера:
Эта доктрина имела смысл в 1970-х, когда никаких персональных данных в сети не водилось. Но в 2025 году почти у каждого гражданина США есть обширный цифровой след.
Юристы утверждают, что Харпер имеет право на «разумное ожидание конфиденциальности своих финансовых данных».
Почему?
Ибо Верховный суд более 7 лет назад в деле Карпентера против США решил, что данные геолокации телефона частично защищены, а уж детализированные финансовые записи заслуживают не меньшей защиты от обысков без ордера.
Выходит, что не все данные подлежат автоматической передаче — вопрос в том, какие именно. Именно это и должен прояснить новый судебный прецедент.
Институт Катона подал в Верховный суд amicus curiae в поддержку Харпера, заявив, что Third-Party Doctrine угрожает праву американцев на неприкосновенность частной жизни.
Если Верховный суд поддержит налоговиков, это создаст прецедент, при котором любые данные, хранящиеся у сторонних компаний, окажутся вне зоны защиты четвертой поправки. Теоретически это может коснуться всего: от банковских счетов до истории чатов.
Если же суд встанет на сторону Харпера, это ограничит действия государственных органов и ужесточит требования к доступу к цифровым данным, даже если они формально не находятся у пользователя.
В России же уже на этапе законодательного оформления банковской тайны, закона о персональных данных и налогового кодекса изначально закладывается идея, что определенные государственные органы (прежде всего ФНС) вправе получать данные без судебного решения.
То есть никакого сюрприза в том, что ФНС может обратиться в банк за выпиской, в российском законодательстве нет — напротив, все открыто и закреплено.
#безопасность
Скандалы, интриги, расследования.
В федеральном законодательстве США есть лазейка. Регуляторы могут получить доступ к вашим личным данным без ордера — если эти данные хранятся у третьей стороны.
Сейчас Верховный суд США рассматривает резонансное дело Джеймса Харпера против главы Налоговой службы США Дугласа О’Доннелла. В деле фигурирует Third-Party Doctrine. На русский это можно перевести как «Доктрина отказа от конфиденциальности при передаче данных третьим лицам».
В 2016 году налоговая провела масштабный сбор данных, потребовав от криптобиржи Coinbase записи транзакций более чем 14 000 клиентов платформы. После клиент Coinbase Джеймс Харпер получил письмо от налоговой с обвинением в занижении доходов от криптовалют.
Харпер обвинение отрицает. Он узнал, что налоговая без ордера получила доступ к его журналам транзакций, адресам кошельков и публичным ключам.
Юристы Харпера заявили, что налоговая нарушила его конституционные права, в частности четвертую поправку, которая защищает от необоснованных обысков и изъятий.
Суды низших инстанций несколько раз отклоняли иск Харпера, ссылаясь на ту самую Third-Party Doctrine, основанную на двух решениях Верховного суда США 1970-х годов. Тогда суд постановил, что «человек не может рассчитывать на неприкосновенность данных, которые он добровольно передал третьим сторонам».
После апелляции суд постановил, что записи Харпера принадлежат Coinbase, и потому подпадают под исключение из действия четвертой поправки.
Это вообще законно?
Формально все законно. С точки зрения гражданских прав — спорно.
Ордер обязателен только при физическом обыске или прямом вмешательстве в частную жизнь. Если же информация хранится у сторонней компании, ее можно запросить административно, без суда. Так что это не халатность налоговой, а особенности правовой системы.
На чем настаивают юристы Харпера:
Эта доктрина имела смысл в 1970-х, когда никаких персональных данных в сети не водилось. Но в 2025 году почти у каждого гражданина США есть обширный цифровой след.
Юристы утверждают, что Харпер имеет право на «разумное ожидание конфиденциальности своих финансовых данных».
Почему?
Ибо Верховный суд более 7 лет назад в деле Карпентера против США решил, что данные геолокации телефона частично защищены, а уж детализированные финансовые записи заслуживают не меньшей защиты от обысков без ордера.
Выходит, что не все данные подлежат автоматической передаче — вопрос в том, какие именно. Именно это и должен прояснить новый судебный прецедент.
Институт Катона подал в Верховный суд amicus curiae в поддержку Харпера, заявив, что Third-Party Doctrine угрожает праву американцев на неприкосновенность частной жизни.
Если Верховный суд поддержит налоговиков, это создаст прецедент, при котором любые данные, хранящиеся у сторонних компаний, окажутся вне зоны защиты четвертой поправки. Теоретически это может коснуться всего: от банковских счетов до истории чатов.
Если же суд встанет на сторону Харпера, это ограничит действия государственных органов и ужесточит требования к доступу к цифровым данным, даже если они формально не находятся у пользователя.
В России же уже на этапе законодательного оформления банковской тайны, закона о персональных данных и налогового кодекса изначально закладывается идея, что определенные государственные органы (прежде всего ФНС) вправе получать данные без судебного решения.
То есть никакого сюрприза в том, что ФНС может обратиться в банк за выпиской, в российском законодательстве нет — напротив, все открыто и закреплено.
#безопасность
👍6❤🔥4🔥4
Одними айтишниками цифровую трансформацию не провести
Инвестиции в цифровые инициативы и платформы для управления данными растут. Однако по данным Gartner, меньше половины таких проектов достигают бизнес-целей.
Главная причина — цифровую трансформацию замыкают внутри айти, оставляя по ту сторону всех остальных: бизнес-руководителей, аналитиков, маркетинг, финансы, продуктовые команды.
Успешные компании действуют иначе: вовлекают в работу с данными всех, кто влияет на бизнес, и получают в 2 раза больше эффекта. Их называют Digital Vanguards — и у них стоит поучиться.
Только 48% цифровых инициатив в мире достигают бизнес-целей. У Digital Vanguards этот показатель — 71%. Они делают два принципиально важных шага:
1. Разделяют ответственность за проекты между CIO и другими топ-менеджерами.
2. Создают условия, чтобы бизнес-команды работали с данными и технологиями напрямую, а не через заявки в айти-отделы.
Зачем подключать кого-то, кроме айтишников
1. Только бизнес может точно сформулировать, какие данные нужны для принятия решений, где искать инсайты, что измерять. Без этого айтишники работают вслепую.
2. Если каждый дашборд, отчет или модель надо заказывать через айти-отдел, процесс тормозится. Подключая бизнес, компании дают ему инструменты прямо в руки.
3. Визуализация происхождения данных, доступность диаграмм и отслеживаемость истории данных повышают доверие к ним — особенно если это доступно не только инженерам, но и бизнесу.
4. Когда топ-менеджеры участвуют в создании цифровых решений — они не просто клиенты, они соавторы. Это повышает вовлеченность, инициативность и фокус на результате.
Если хотите, чтобы инвестиции в данные приносили результат — дайте бизнесу инструменты, знания и право действовать, а не возможность оставить заявку для айтишников на получение отчета или создание очередного дашборда.
#аналитика #исследования
Инвестиции в цифровые инициативы и платформы для управления данными растут. Однако по данным Gartner, меньше половины таких проектов достигают бизнес-целей.
Главная причина — цифровую трансформацию замыкают внутри айти, оставляя по ту сторону всех остальных: бизнес-руководителей, аналитиков, маркетинг, финансы, продуктовые команды.
Успешные компании действуют иначе: вовлекают в работу с данными всех, кто влияет на бизнес, и получают в 2 раза больше эффекта. Их называют Digital Vanguards — и у них стоит поучиться.
Только 48% цифровых инициатив в мире достигают бизнес-целей. У Digital Vanguards этот показатель — 71%. Они делают два принципиально важных шага:
1. Разделяют ответственность за проекты между CIO и другими топ-менеджерами.
2. Создают условия, чтобы бизнес-команды работали с данными и технологиями напрямую, а не через заявки в айти-отделы.
Зачем подключать кого-то, кроме айтишников
1. Только бизнес может точно сформулировать, какие данные нужны для принятия решений, где искать инсайты, что измерять. Без этого айтишники работают вслепую.
2. Если каждый дашборд, отчет или модель надо заказывать через айти-отдел, процесс тормозится. Подключая бизнес, компании дают ему инструменты прямо в руки.
3. Визуализация происхождения данных, доступность диаграмм и отслеживаемость истории данных повышают доверие к ним — особенно если это доступно не только инженерам, но и бизнесу.
4. Когда топ-менеджеры участвуют в создании цифровых решений — они не просто клиенты, они соавторы. Это повышает вовлеченность, инициативность и фокус на результате.
Если хотите, чтобы инвестиции в данные приносили результат — дайте бизнесу инструменты, знания и право действовать, а не возможность оставить заявку для айтишников на получение отчета или создание очередного дашборда.
#аналитика #исследования
🔥4❤3👌3👍2
В словосочетании Data Driven нет слова Big
Почему?
Потому, что данные не обязательно должны быть большими, чтобы принимать решения на их основе.
Это самое интересное, что сказал в своем интервью Михаил Нетук, руководитель аналитики в Литресе.
В остальном там мало интересных деталей. Но эту мысль стоит взять на вооружение всем, кто откладывает переход к принятию решений на основе данных из-за того, у них нет больших данных.
Не откладывайте. Работайте с тем, что есть.
#статьи
Почему?
Потому, что данные не обязательно должны быть большими, чтобы принимать решения на их основе.
Это самое интересное, что сказал в своем интервью Михаил Нетук, руководитель аналитики в Литресе.
В остальном там мало интересных деталей. Но эту мысль стоит взять на вооружение всем, кто откладывает переход к принятию решений на основе данных из-за того, у них нет больших данных.
Не откладывайте. Работайте с тем, что есть.
#статьи
❤🔥5👍5🔥3
Яндекс выложил в открытый доступ Yambda
Это один из крупнейших в мире открытых датасетов для разработки и тестирования рекомендательных систем.
Какие данные внутри?
В датасете 5 млрд действий, собранных с 1 млн пользователей на 9 млн треков в Яндекс-музыке:
- Прослушивания
- Лайки и отмены лайков
- Дизлайки и отмены дизлайков
- Аудио-эмбеддинги треков, связи трек-артист-альбом
Все действия разделены метками на органические и те, что вызваны рекомендациями.
Все это в формате Apache Parquet, что удобно для Pandas/Polars.
Есть урезанные версии на 500 и 50 млн действий для разных вычислительных мощностей.
Кому пригодится?
- Исследователям и разработчикам рекомендательных систем для тестирования новых моделей в условиях, близких к продакшену.
- Студентам и энтузиастам для изучения принципов работы рекомендаций на реальных больших данных.
- Инженерам для бенчмаркинга своих алгоритмов против предоставленных Яндексом бейслайнов.
Подробности читайте на Хабре.
Сам датасет забирайте на Hugging Face.
#ии #статьи
Это один из крупнейших в мире открытых датасетов для разработки и тестирования рекомендательных систем.
Какие данные внутри?
В датасете 5 млрд действий, собранных с 1 млн пользователей на 9 млн треков в Яндекс-музыке:
- Прослушивания
- Лайки и отмены лайков
- Дизлайки и отмены дизлайков
- Аудио-эмбеддинги треков, связи трек-артист-альбом
Все действия разделены метками на органические и те, что вызваны рекомендациями.
Все это в формате Apache Parquet, что удобно для Pandas/Polars.
Есть урезанные версии на 500 и 50 млн действий для разных вычислительных мощностей.
Кому пригодится?
- Исследователям и разработчикам рекомендательных систем для тестирования новых моделей в условиях, близких к продакшену.
- Студентам и энтузиастам для изучения принципов работы рекомендаций на реальных больших данных.
- Инженерам для бенчмаркинга своих алгоритмов против предоставленных Яндексом бейслайнов.
Подробности читайте на Хабре.
Сам датасет забирайте на Hugging Face.
#ии #статьи
❤🔥4👍3🙏2
Мы искали и нашли: мастрид для тех, кто интересуется ИИ-агентами
В IBM Consulting опубликовали мощный и фундаментальный аналитический отчет по агентному ИИ в финансовом секторе. Если планируете внедрять ИИ в корпоративные бизнес-процессы, обязательно прочитайте.
Вот, про что узнаете:
- Текущий суперцикл ИИ, ключевые возможности агентных систем в финансах и основные вызовы, требующие новых подходов к управлению рисками и комплаенсу.
- Эволюция от RPA и чат-ботов до современных LLM-агентов: из каких компонентов состоят агенты (модель, инструменты, слой рассуждений и памяти) и какие сценарии оркестрации нескольких агентов возможны.
- Уникальные риски агентных систем (несоответствие целей, автономные действия, неправильное использование API, ползучие полномочия, обманчивость, предвзятость, дрейф памяти и моделей, проблемы объяснимости, уязвимости безопасности, каскадные эффекты, операционная устойчивость, конфликт между агентами и коллюзия) и ключевые контролы для каждой категории.
- Как встроить оценку рисков и требования комплаенса уже на этапе проектирования (shift-left), какие корпоративные контролы и guardrails нужны, как выстроить централизованный мониторинг, систему управления данными и повысить ИИ-грамотность сотрудников.
- Примеры system cards (OpenAI Operator, Microsoft 365 Copilot), чтобы понять, какие метрики и сведения должны предоставлять вендоры, а также какие роли и обязанности несут поставщики, разработчики и эксплуатационные команды.
- Краткий чек-лист для формирования требований при выборе агентных решений: безопасность, соответствие стандартам, прозрачность моделей, SLA, вопросы приватности и то, как оценивать поставщиков с точки зрения рисков.
- Примерный набор внутриорганизационных ролей (Data Steward, Risk Manager, Security Analyst, AI Ethicist, Product Owner и так далее) с их зонами ответственности при разработке, внедрении и поддержке агентных систем.
Очень круто, что кто-то не просто объяснил, что такое агентный ИИ, чем он отличается от генеративного ИИ, но и погрузился в тему рисков и механизмов их минимизации.
Делитесь со всеми причастными.
#ии #аналитика
В IBM Consulting опубликовали мощный и фундаментальный аналитический отчет по агентному ИИ в финансовом секторе. Если планируете внедрять ИИ в корпоративные бизнес-процессы, обязательно прочитайте.
Вот, про что узнаете:
- Текущий суперцикл ИИ, ключевые возможности агентных систем в финансах и основные вызовы, требующие новых подходов к управлению рисками и комплаенсу.
- Эволюция от RPA и чат-ботов до современных LLM-агентов: из каких компонентов состоят агенты (модель, инструменты, слой рассуждений и памяти) и какие сценарии оркестрации нескольких агентов возможны.
- Уникальные риски агентных систем (несоответствие целей, автономные действия, неправильное использование API, ползучие полномочия, обманчивость, предвзятость, дрейф памяти и моделей, проблемы объяснимости, уязвимости безопасности, каскадные эффекты, операционная устойчивость, конфликт между агентами и коллюзия) и ключевые контролы для каждой категории.
- Как встроить оценку рисков и требования комплаенса уже на этапе проектирования (shift-left), какие корпоративные контролы и guardrails нужны, как выстроить централизованный мониторинг, систему управления данными и повысить ИИ-грамотность сотрудников.
- Примеры system cards (OpenAI Operator, Microsoft 365 Copilot), чтобы понять, какие метрики и сведения должны предоставлять вендоры, а также какие роли и обязанности несут поставщики, разработчики и эксплуатационные команды.
- Краткий чек-лист для формирования требований при выборе агентных решений: безопасность, соответствие стандартам, прозрачность моделей, SLA, вопросы приватности и то, как оценивать поставщиков с точки зрения рисков.
- Примерный набор внутриорганизационных ролей (Data Steward, Risk Manager, Security Analyst, AI Ethicist, Product Owner и так далее) с их зонами ответственности при разработке, внедрении и поддержке агентных систем.
Очень круто, что кто-то не просто объяснил, что такое агентный ИИ, чем он отличается от генеративного ИИ, но и погрузился в тему рисков и механизмов их минимизации.
Делитесь со всеми причастными.
#ии #аналитика
⚡4👍4❤🔥3❤1
Кажется, мало кто переживает по поводу безопасности при внедрении ИИ
В Коммерсанте пишут, что из 43% компаний, которые уже внедрили нейросети в свои процессы, только 36% обеспечили их защиту.
Может, это халатность, а может, все ждут, пока в Минцифры опубликует «Концепцию развития регулирования ИИ до 2030 года»:
При этом в AppSec Solutions предупреждают:
Кажется, что всем стоит поторопиться: регуляторам с требованиями, а бизнесу с внедрением протоколов безопасности, ибо в России растет количество исков из-за ИИ:
В 2021 году таких исков было 112, а в 2024 году их было уже 292. Совокупная сумма исковых требований по уже рассмотренным делам превышает ₽1,7 млрд.
В большинстве случаев — это споры, касающиеся авторского права. На втором месте иски, связанные с защитой прав потребителей.
#ии #безопасность
В Коммерсанте пишут, что из 43% компаний, которые уже внедрили нейросети в свои процессы, только 36% обеспечили их защиту.
Может, это халатность, а может, все ждут, пока в Минцифры опубликует «Концепцию развития регулирования ИИ до 2030 года»:
Сейчас доработка документа почти завершена, в ближайшее время мы согласуем ее с другими ведомствами.
При этом в AppSec Solutions предупреждают:
Особенно уязвимыми становятся ИИ-ассистенты, встроенные в корпоративную инфраструктуру. Они получают доступ к клиентским базам, внутренним документам и системам управления и могут стать источником утечек
Кажется, что всем стоит поторопиться: регуляторам с требованиями, а бизнесу с внедрением протоколов безопасности, ибо в России растет количество исков из-за ИИ:
В 2021 году таких исков было 112, а в 2024 году их было уже 292. Совокупная сумма исковых требований по уже рассмотренным делам превышает ₽1,7 млрд.
В большинстве случаев — это споры, касающиеся авторского права. На втором месте иски, связанные с защитой прав потребителей.
#ии #безопасность
👍4 3❤🔥2🔥2
Как выиграть Премьер-лигу с помощью искусственного интеллекта и больших данных
За Ливерпуль. Не на приставке, в реальности.
В преддверии завтрашнего финала Лиги Чемпионов делимся интересностями про большие данные в футболе и книгой Иана Грэма «Как выиграть Премьер-лигу».
С 2012 по 2023 год Грэм работал директором по исследованиям футбольного клуба Ливерпуль. Его пребывание на посту совпало с периодом наибольшего успеха клуба с 1980-х годов, включая победу в Премьер-лиге в 2020 году — первый чемпионский титул Ливерпуля после мучительных 29 лет.
Кстати, месяц назад Ливерпуль снова досрочно стал чемпионом Англии.
Почитать книгу на русском можно бесплатно. Любителям футбола горячо рекомендуем.
Кратко о том, к чему привела цифровая трансформация футбольной команды:
- Сотрудничество DeepMind с футбольным клубом Ливерпуль привело к созданию TacticAI, предлагающего тактические решения, которые в 90% случаев эксперты предпочитают традиционным методам.
- TacticAI представляет собой значительный шаг вперед в использовании алгоритмов машинного обучения для понимания стратегических игр, особенно с упором на угловые удары. Благодаря тщательному анализу данных более чем 7000 угловых ударов, выполненных в сезоне Премьер-лиги, система была обучена предсказывать траекторию мяча с впечатляющей точностью 78%.
Но это результаты, а вот путь к ним изложен в книге, сохраняйте и делитесь с друзьями перед походом в спорт-бар.
Ну и не относите деньги букмекерам, лучше делайте ставку на данные. Оле-оле!
#ии
За Ливерпуль. Не на приставке, в реальности.
В преддверии завтрашнего финала Лиги Чемпионов делимся интересностями про большие данные в футболе и книгой Иана Грэма «Как выиграть Премьер-лигу».
С 2012 по 2023 год Грэм работал директором по исследованиям футбольного клуба Ливерпуль. Его пребывание на посту совпало с периодом наибольшего успеха клуба с 1980-х годов, включая победу в Премьер-лиге в 2020 году — первый чемпионский титул Ливерпуля после мучительных 29 лет.
Кстати, месяц назад Ливерпуль снова досрочно стал чемпионом Англии.
Почитать книгу на русском можно бесплатно. Любителям футбола горячо рекомендуем.
Кратко о том, к чему привела цифровая трансформация футбольной команды:
- Сотрудничество DeepMind с футбольным клубом Ливерпуль привело к созданию TacticAI, предлагающего тактические решения, которые в 90% случаев эксперты предпочитают традиционным методам.
- TacticAI представляет собой значительный шаг вперед в использовании алгоритмов машинного обучения для понимания стратегических игр, особенно с упором на угловые удары. Благодаря тщательному анализу данных более чем 7000 угловых ударов, выполненных в сезоне Премьер-лиги, система была обучена предсказывать траекторию мяча с впечатляющей точностью 78%.
Но это результаты, а вот путь к ним изложен в книге, сохраняйте и делитесь с друзьями перед походом в спорт-бар.
Ну и не относите деньги букмекерам, лучше делайте ставку на данные. Оле-оле!
#ии
🏆6👏3❤1❤🔥1
Российский рынок СХД в 2025 году
В CNews опубликовали карту и обзор российского рынка СХД, а в Аквариусе — исследование практики использования СХД в российских компаниях.
Разбираемся, что да как.
По оценке CNews, объем всего российского рынка СХД в 2024 составил ₽50 млрд, а в 2025 вырастет на 8% до ₽54 млрд.
При этом спрос смещается в пользу отечественных решений. Если в 2024 только 34% крупных компаний использовали российские СХД, то в планы закупок на 2025 российские СХД включили уже в 41% таких компаний. Доля иностранных решений, наоборот, снизилась с 55% до 31%.
В опросе 75% респондентов назвали приоритетной задачей виртуализацию, 73% — файловые хранилища, а 63% — резервное копирование, что подчеркивает многообразие сценариев использования.
По данным IDC, ключевым драйвером мирового рынка СХД остается экспоненциальный рост объемов данных. Может и так. Но куда важнее понимать качественные, а не количественные изменения на рынке:
Главным трендом первой половины 2025 стало резкое смещение к объектным хранилищам, которые из дополнительного решения превратились в самый востребованный сегмент. Они позволяют консолидировать горячие и холодные данные в рамках единого пула, снижая TCO и обеспечивая высокие показатели IOPS за счет параллельной архитектуры.
С одной стороны, по данным опроса Аквариуса, уже сейчас 89% компаний, использующих российские СХД, довольны качеством решений. С другой стороны, в CNews говорят, что хотя российские СХД активно догоняют западные аналоги, у них все еще существуют узкие места:
- Ограниченная горизонтальная и вертикальная масштабируемость.
- Более узкий функционал управления.
- Отсутствие полноценного GUI.
Это все еще вынуждает некоторых заказчиков обращаться к импортным решениям в самых критичных сценариях.
Однако господдержка работает и создает благоприятные условия для развития отечественных продуктов. По прогнозам, в 2025–2026 спрос на российские СХД в сегменте начального и среднего уровня вырастет ещё на 30–40%.
#деньги #исследования
В CNews опубликовали карту и обзор российского рынка СХД, а в Аквариусе — исследование практики использования СХД в российских компаниях.
Разбираемся, что да как.
По оценке CNews, объем всего российского рынка СХД в 2024 составил ₽50 млрд, а в 2025 вырастет на 8% до ₽54 млрд.
При этом спрос смещается в пользу отечественных решений. Если в 2024 только 34% крупных компаний использовали российские СХД, то в планы закупок на 2025 российские СХД включили уже в 41% таких компаний. Доля иностранных решений, наоборот, снизилась с 55% до 31%.
В опросе 75% респондентов назвали приоритетной задачей виртуализацию, 73% — файловые хранилища, а 63% — резервное копирование, что подчеркивает многообразие сценариев использования.
По данным IDC, ключевым драйвером мирового рынка СХД остается экспоненциальный рост объемов данных. Может и так. Но куда важнее понимать качественные, а не количественные изменения на рынке:
Главным трендом первой половины 2025 стало резкое смещение к объектным хранилищам, которые из дополнительного решения превратились в самый востребованный сегмент. Они позволяют консолидировать горячие и холодные данные в рамках единого пула, снижая TCO и обеспечивая высокие показатели IOPS за счет параллельной архитектуры.
С одной стороны, по данным опроса Аквариуса, уже сейчас 89% компаний, использующих российские СХД, довольны качеством решений. С другой стороны, в CNews говорят, что хотя российские СХД активно догоняют западные аналоги, у них все еще существуют узкие места:
- Ограниченная горизонтальная и вертикальная масштабируемость.
- Более узкий функционал управления.
- Отсутствие полноценного GUI.
Это все еще вынуждает некоторых заказчиков обращаться к импортным решениям в самых критичных сценариях.
Однако господдержка работает и создает благоприятные условия для развития отечественных продуктов. По прогнозам, в 2025–2026 спрос на российские СХД в сегменте начального и среднего уровня вырастет ещё на 30–40%.
#деньги #исследования
❤🔥4👍3🔥3
В чем отличия и зачем вообще отличать Data Management от Data Governance
Data Governance — это про стратегию. Принципы, стандарты и правила работы с данными на всем жизненном цикле. Data Governance определяет роли и ответственность сотрудников, устанавливает требования к качеству, доступу и безопасности.
Data Management — это про тактику. Техническое исполнение политик и процедур, заданных в рамках Data Governance. Data Management включает создание и поддержку ETL/ELT-пайплайнов, администрирование каталога данных, контроль доступа, управление хранилищами и озерами данных.
Как объясняют в Tableau:
Почему нельзя смешивать одно с другим
1. Разные уровни ответственности и задач. Data Governance задает «что и зачем»: какие данные нужны, кому их можно давать и при каких условиях, какие метрики качества обязательны. Data Management решает «как именно»: разрабатывает техническую архитектуру, внедряет процессы, следит за исполнением политик и оперативно исправляет ошибки.
2. Прозрачность и контроль. Разделение ролей позволяет избежать конфликта интересов. Когда стратегические решения принимает одна группа, а техническую работу выполняет другая, проще отследить, что политика действительно соблюдается, и вовремя заметить риски
3. Соответствие нормативным требованиям. В крупных организациях (особенно в регулируемых отраслях) часто требуется формально разграничивать тех, кто разрабатывает правила, от тех, кто их выполняет. Это критично для внешнего аудита и для уменьшения юридических рисков.
4. Гибкость и масштабируемость. Разделение дает возможность масштабировать обе функции независимо: регламентирование может сосредоточиться на новых бизнес-инициативах и изменениях законодательства, а управление — на оптимизации технических процессов и внедрении новых инструментов.
5. Повышение эффективности. Когда сотрудники точно знают свои зоны ответственности, снижается дублирование усилий. Регламентирование фокусируется на долгосрочных целях и стандартах, а управление оперативно реагирует на технические задачи без перекрытия по стратегическим вопросам.
Это всегда отдельные, но всегда тесно взаимодействующие дисциплины.
Data Governance — это про стратегию. Принципы, стандарты и правила работы с данными на всем жизненном цикле. Data Governance определяет роли и ответственность сотрудников, устанавливает требования к качеству, доступу и безопасности.
Data Management — это про тактику. Техническое исполнение политик и процедур, заданных в рамках Data Governance. Data Management включает создание и поддержку ETL/ELT-пайплайнов, администрирование каталога данных, контроль доступа, управление хранилищами и озерами данных.
Как объясняют в Tableau:
Между Data Management и Data Governance есть сходства. Оба направления влияют на то, как данные используются в компании Однако все волшебство в том, как их различия дополняют друг друга.
Data Governance разрабатывает чертеж здания, а Data Management отвечает за его возведение. Конечно, здание можно построить и без плана, но это будет гораздо менее эффективно и надежно.
Почему нельзя смешивать одно с другим
1. Разные уровни ответственности и задач. Data Governance задает «что и зачем»: какие данные нужны, кому их можно давать и при каких условиях, какие метрики качества обязательны. Data Management решает «как именно»: разрабатывает техническую архитектуру, внедряет процессы, следит за исполнением политик и оперативно исправляет ошибки.
2. Прозрачность и контроль. Разделение ролей позволяет избежать конфликта интересов. Когда стратегические решения принимает одна группа, а техническую работу выполняет другая, проще отследить, что политика действительно соблюдается, и вовремя заметить риски
3. Соответствие нормативным требованиям. В крупных организациях (особенно в регулируемых отраслях) часто требуется формально разграничивать тех, кто разрабатывает правила, от тех, кто их выполняет. Это критично для внешнего аудита и для уменьшения юридических рисков.
4. Гибкость и масштабируемость. Разделение дает возможность масштабировать обе функции независимо: регламентирование может сосредоточиться на новых бизнес-инициативах и изменениях законодательства, а управление — на оптимизации технических процессов и внедрении новых инструментов.
5. Повышение эффективности. Когда сотрудники точно знают свои зоны ответственности, снижается дублирование усилий. Регламентирование фокусируется на долгосрочных целях и стандартах, а управление оперативно реагирует на технические задачи без перекрытия по стратегическим вопросам.
Это всегда отдельные, но всегда тесно взаимодействующие дисциплины.
❤🔥6👍4🔥3🙏2
Почему фактический бюджет на внедрение BI в 2-4 раза выше запланированного
Ребята из GlowByte в статье на Хабре разобрали причины.
Помимо очевидных расходов на лицензии и оборудование, существуют затраты на интеграцию, доработку отчетов, миграцию данных, тестирование, обучение и поддержку. В 80% проектов фактический бюджет оказывается в 2-4 раза выше запланированного, а до 40% расходов и вовсе изначально не были предусмотрены сметой.
Если собрать в кучу разрозненные подсчеты авторов статьи, получится примерно следующее:
1. Интеграция с существующими системами (ERP, CRM): 20-40% от базового бюджета
Компании часто полагают, что штатные коннекторы из коробки справятся с задачей, и не закладывают дополнительные ресурсы на анализ форматов, разработку адаптивных API и обработку ошибок при нестабильности источников.
2. Подготовка и перенос исторических данных: 10-15% от базового бюджета
Руководство склонно считать, что данные просто выгрузятся из старых систем, не учитывая потребности в очистке, нормализации и многократных тестовых прогонах, что приводит к недооценке трудозатрат на валидацию и исправление дырявых записей.
3. Настройка ETL-процессов: 30-35% от базового бюджета
Часто исходят из предположения, что стандартные схемы загрузки подходят под любые сценарии, и не предусматривают времени на адаптацию бизнес-правил, переработку справочников и доработку конвейеров под уникальную структуру данных.
4. Кастомизация отчетов и дашбордов: 20-25% от базового бюджета
Компаниям кажется, что типовых шаблонов достаточно, поэтому они до последнего откладывают обсуждение специфических KPI и интерактивных элементов, из-за чего потом приходится перерабатывать функциональные решения на коленке.
5. Многоступенчатое тестирование (unit-, интеграционные и UAT-сценарии): 10-15% от базового бюджета
Полагают, что можно сэкономить время за счет сокращения тестовых итераций, не учитывая, что обнаружение ошибок на продакшене оборачивается простоем и откатом, который в разы дороже любого планового QA.
6. Ежегодная поддержка и развитие BI: 15-20% от первоначального бюджета
Менеджеры иногда считают, что после запуска, когда проект сдан в эксплуатацию, деньги больше не нужны, и не закладывают в смету расходы на мониторинг, апдейты, обучение новых сотрудников и расширение инфраструктуры, хотя без этого BI быстро теряет актуальность.
Мораль:
Если недосчитать бюджет до начала работ, то после вы недосчитаетесь ROI.
#деньги #аналитика #статьи
Ребята из GlowByte в статье на Хабре разобрали причины.
Помимо очевидных расходов на лицензии и оборудование, существуют затраты на интеграцию, доработку отчетов, миграцию данных, тестирование, обучение и поддержку. В 80% проектов фактический бюджет оказывается в 2-4 раза выше запланированного, а до 40% расходов и вовсе изначально не были предусмотрены сметой.
Если собрать в кучу разрозненные подсчеты авторов статьи, получится примерно следующее:
1. Интеграция с существующими системами (ERP, CRM): 20-40% от базового бюджета
Компании часто полагают, что штатные коннекторы из коробки справятся с задачей, и не закладывают дополнительные ресурсы на анализ форматов, разработку адаптивных API и обработку ошибок при нестабильности источников.
2. Подготовка и перенос исторических данных: 10-15% от базового бюджета
Руководство склонно считать, что данные просто выгрузятся из старых систем, не учитывая потребности в очистке, нормализации и многократных тестовых прогонах, что приводит к недооценке трудозатрат на валидацию и исправление дырявых записей.
3. Настройка ETL-процессов: 30-35% от базового бюджета
Часто исходят из предположения, что стандартные схемы загрузки подходят под любые сценарии, и не предусматривают времени на адаптацию бизнес-правил, переработку справочников и доработку конвейеров под уникальную структуру данных.
4. Кастомизация отчетов и дашбордов: 20-25% от базового бюджета
Компаниям кажется, что типовых шаблонов достаточно, поэтому они до последнего откладывают обсуждение специфических KPI и интерактивных элементов, из-за чего потом приходится перерабатывать функциональные решения на коленке.
5. Многоступенчатое тестирование (unit-, интеграционные и UAT-сценарии): 10-15% от базового бюджета
Полагают, что можно сэкономить время за счет сокращения тестовых итераций, не учитывая, что обнаружение ошибок на продакшене оборачивается простоем и откатом, который в разы дороже любого планового QA.
6. Ежегодная поддержка и развитие BI: 15-20% от первоначального бюджета
Менеджеры иногда считают, что после запуска, когда проект сдан в эксплуатацию, деньги больше не нужны, и не закладывают в смету расходы на мониторинг, апдейты, обучение новых сотрудников и расширение инфраструктуры, хотя без этого BI быстро теряет актуальность.
Мораль:
Если недосчитать бюджет до начала работ, то после вы недосчитаетесь ROI.
#деньги #аналитика #статьи
❤🔥4👍4🔥3
Барометр открытых данных все еще глобальный, не переживайте
Если вы интересуетесь открытыми данными в разных странах, то знаете про Global Data Barometer. Если нет, рассказываем: это международный проект, оценивающий, как страны управляют данными, обеспечивают к ним доступ и используют их во благо общества.
На сайте публикуются отчеты и интерактивные инструменты для сравнения показателей управления данными, инфраструктуры и прозрачности между странами и регионами.
В новом отчете Global Data Barometer опубликованы данные только по 43 развивающимся странам Южной Америки и Африки. Многие начали сетовать на то, что отчет перестал быть глобальным. Это не так — просто теперь он будет выпускаться частями. Данные по 120 странам Европы, Азии и других регионов подвезут к концу 2025 или началу 2026 года.
Основные выводы отчета
В Африке отмечен прогресс в создании нормативных актов, однако на практике реализация этих норм затруднена из-за ограниченных ресурсов, слабой инфраструктуры и отсутствия единой системы идентификаторов.
В Латинской Америке и Карибском регионе сильны институциональные структуры, но слабая координация между ведомствами мешает эффективному обмену данными.
Наше скромное мнение
Думаем, что настоящих причин у проблем с данными в этих регионах две:
1. Бюджеты на развитие цифровой инфраструктуры часто уступают другим приоритетам, а квалифицированных специалистов по анализу данных и ИИ катастрофически не хватает.
2. Исторически эти регионы сталкиваются с высокой политической нестабильностью и частой сменой властей, что не позволяет доводить начатые инициативы до конца и создает препятствия для долгосрочного планирования.
Ну не едут в Африку крутые спецы по работе с данными. Там крокодилы, львы и гориллы.
#аналитика #исследования
Если вы интересуетесь открытыми данными в разных странах, то знаете про Global Data Barometer. Если нет, рассказываем: это международный проект, оценивающий, как страны управляют данными, обеспечивают к ним доступ и используют их во благо общества.
На сайте публикуются отчеты и интерактивные инструменты для сравнения показателей управления данными, инфраструктуры и прозрачности между странами и регионами.
В новом отчете Global Data Barometer опубликованы данные только по 43 развивающимся странам Южной Америки и Африки. Многие начали сетовать на то, что отчет перестал быть глобальным. Это не так — просто теперь он будет выпускаться частями. Данные по 120 странам Европы, Азии и других регионов подвезут к концу 2025 или началу 2026 года.
Основные выводы отчета
В Африке отмечен прогресс в создании нормативных актов, однако на практике реализация этих норм затруднена из-за ограниченных ресурсов, слабой инфраструктуры и отсутствия единой системы идентификаторов.
В Латинской Америке и Карибском регионе сильны институциональные структуры, но слабая координация между ведомствами мешает эффективному обмену данными.
Наше скромное мнение
Думаем, что настоящих причин у проблем с данными в этих регионах две:
1. Бюджеты на развитие цифровой инфраструктуры часто уступают другим приоритетам, а квалифицированных специалистов по анализу данных и ИИ катастрофически не хватает.
2. Исторически эти регионы сталкиваются с высокой политической нестабильностью и частой сменой властей, что не позволяет доводить начатые инициативы до конца и создает препятствия для долгосрочного планирования.
Ну не едут в Африку крутые спецы по работе с данными. Там крокодилы, львы и гориллы.
#аналитика #исследования
👍5❤🔥3👏2🔥1
Ротшильд, поражение Наполеона при Ватерлоо, коронавирус и работа с данными
Сегодня пост не про большие данные, а скорее про малые, но под большим контролем.
На Форбсе вышла статья про гейткипинг: термин описывает контроль доступа к данным, осуществляемый определенными людьми в своих интересах.
Разбираемся на примерах, что это такое и как работает.
Гейткипинг еще называют теорией привратника. Важнейшими объектами, подпадающими под определение гейткипинга, выступают СМИ, где привратники — это главные редакторы, пиарщики, продюсеры и журналисты. О влиянии на мир моды главного редактора Vogue Анны Винтур даже снимают фильмы.
Гейткипинг может быть как положительным, так и отрицательным механизмом.
Все зависит от контекста и мотива:
Ограничение доступа к порносайтам для несовершеннолетних или рецензирование научных статей — очевидно положительные механизмы.
Когда журналист освещает какой-то конфликт и дает возможность высказаться только одной из сторон — это, напротив, отрицательный гейткипинг.
Похоже на цензуру, но есть разница. Цензура всегда подразумевает насильственное или властное ограничение свободы слова, тогда как гейткипинг — более широкий понятийный инструментарий отбора, который не всегда преследует криминальные или антиобщественные цели.
Теперь к интересным историческим примерам.
По легенде, в июне 1815 года Натан Ротшильд, имея разветвленную сеть агентов и курьеров по всей Европе, первым получил сообщение о поражении Наполеона у Ватерлоо — якобы с помощью голубиной почты или особого гонца, прибывшего в Лондон раньше официальных депеш.
Узнав о поражении, он поспешно распродал британские гособлигации, спровоцировав панику на рынке и падение цен, а затем выкупил их по значительно сниженной стоимости: когда же новость об успехе англо-голландских войск была официально подтверждена, стоимость облигаций резко выросла, и Ротшильд заработал на этой операции целое состояние.
Есть и более свежий пример.
В июле 2021 года редакцию одного из самых авторитетных медицинских журналов The Lance обвинили в сокрытии важной информации о COVID-19: редакторы не сразу опубликовали данные о том, что коронавирус передается от человека к человеку.
С одной стороны, возможности привратников, которые решают, какие данные попадут к общественности, а какие нет, становятся скромнее. Из-за всепроникающих соцсетей и мессенджеров.
С другой стороны, мы вверяем полномочия другим привратникам — нейросетям, возможности которых, вероятно, превосходят возможности Ротшильда в начале 19 века.
#статьи
Сегодня пост не про большие данные, а скорее про малые, но под большим контролем.
На Форбсе вышла статья про гейткипинг: термин описывает контроль доступа к данным, осуществляемый определенными людьми в своих интересах.
Разбираемся на примерах, что это такое и как работает.
Гейткипинг еще называют теорией привратника. Важнейшими объектами, подпадающими под определение гейткипинга, выступают СМИ, где привратники — это главные редакторы, пиарщики, продюсеры и журналисты. О влиянии на мир моды главного редактора Vogue Анны Винтур даже снимают фильмы.
Гейткипинг может быть как положительным, так и отрицательным механизмом.
Все зависит от контекста и мотива:
Ограничение доступа к порносайтам для несовершеннолетних или рецензирование научных статей — очевидно положительные механизмы.
Когда журналист освещает какой-то конфликт и дает возможность высказаться только одной из сторон — это, напротив, отрицательный гейткипинг.
Похоже на цензуру, но есть разница. Цензура всегда подразумевает насильственное или властное ограничение свободы слова, тогда как гейткипинг — более широкий понятийный инструментарий отбора, который не всегда преследует криминальные или антиобщественные цели.
Теперь к интересным историческим примерам.
По легенде, в июне 1815 года Натан Ротшильд, имея разветвленную сеть агентов и курьеров по всей Европе, первым получил сообщение о поражении Наполеона у Ватерлоо — якобы с помощью голубиной почты или особого гонца, прибывшего в Лондон раньше официальных депеш.
Узнав о поражении, он поспешно распродал британские гособлигации, спровоцировав панику на рынке и падение цен, а затем выкупил их по значительно сниженной стоимости: когда же новость об успехе англо-голландских войск была официально подтверждена, стоимость облигаций резко выросла, и Ротшильд заработал на этой операции целое состояние.
Есть и более свежий пример.
В июле 2021 года редакцию одного из самых авторитетных медицинских журналов The Lance обвинили в сокрытии важной информации о COVID-19: редакторы не сразу опубликовали данные о том, что коронавирус передается от человека к человеку.
С одной стороны, возможности привратников, которые решают, какие данные попадут к общественности, а какие нет, становятся скромнее. Из-за всепроникающих соцсетей и мессенджеров.
С другой стороны, мы вверяем полномочия другим привратникам — нейросетям, возможности которых, вероятно, превосходят возможности Ротшильда в начале 19 века.
#статьи
👍4🔥4❤🔥3
Иногда персональные данные нужно раскрывать в упрощенном порядке
МТС и «Лиза Алерт» запускают сервис для поиска пропавших людей. С поисково-спасательным отрядом уже несколько лет сотрудничает Вымпелком, но даже при пропаже человека передавать геоданные по текущему законодательству довольно сложно.
Сервис будет бесплатно доступен абонентам МТС. Подключить его можно в приложении МТС в разделе «Защитник» или в «Семейной группе», при этом пользователю необходимо дать согласие на передачу данных о его местоположении и заряде мобильного устройства в поисково-спасательный отряд «Лиза Алерт» в случае возникновения чрезвычайной ситуации.
Данные будут передаваться автоматически сразу после поступления запроса от отряда «Лиза Алерт». Как пояснила глава МТС, сервис не будет нарушать существующее законодательство: данные будут передаваться через зашифрованный канал и интерфейс, которые были разработаны специально для работы с «Лиза Алерт».
#безопасность
МТС и «Лиза Алерт» запускают сервис для поиска пропавших людей. С поисково-спасательным отрядом уже несколько лет сотрудничает Вымпелком, но даже при пропаже человека передавать геоданные по текущему законодательству довольно сложно.
Сервис будет бесплатно доступен абонентам МТС. Подключить его можно в приложении МТС в разделе «Защитник» или в «Семейной группе», при этом пользователю необходимо дать согласие на передачу данных о его местоположении и заряде мобильного устройства в поисково-спасательный отряд «Лиза Алерт» в случае возникновения чрезвычайной ситуации.
Данные будут передаваться автоматически сразу после поступления запроса от отряда «Лиза Алерт». Как пояснила глава МТС, сервис не будет нарушать существующее законодательство: данные будут передаваться через зашифрованный канал и интерфейс, которые были разработаны специально для работы с «Лиза Алерт».
#безопасность
🔥5👍3 3🤗2❤🔥1
«Размер значения не имеет», — учил мастер Йода
Не нужны миллионы и орды аналитиков, чтобы стать data-driven. Маленький стартап с парой простых инструментов и вовлеченными сотрудниками моментально принимает решения на основе данных, тогда как в корпорации десятки хранилищ, несколько Data Lake и семь BI-систем лишь создают хаос, и инсайты тонут в бюрократии.
Разбираемся, почему так.
1. Гибкость против избыточности инструментов
В небольших командах хватит простой эксельки и одной BI-системы, чтобы быстро видеть метрики и проверять гипотезы. В крупных организациях же десяток хранилищ, несколько Data Lake и BI-платформ приводят к разрозненности данных и затягивают получение инсайтов.
2. Скорость принятия решений против бюрократии
Стартап может менять метрики на ходу и сразу внедрять выводы, тогда как в корпорации любое нововведение проходит длинный цикл согласований, и бизнес-пользователь теряет мотивацию ждать.
3. Прямая мотивация против формальных ролей
В маленькой компании аналитик тесно общается с командой и видит прямой эффект своего анализа. В большой — аналитики часто сидят в одном офисе, инженеры в другом, а бизнес-отдел вообще отдельно, из-за чего качество данных и фокус на нужных KPI размываются.
4. Простые процессы против формализация
В стартапе достаточно договориться о нескольких ключевых показателях и пройти цикл «гипотеза→сбор данных→проверка→действие». В корпорации же для каждого дашборда нужен регламент, аудит качества данных и долгие согласования, из-за чего процессы превращаются в тяжеловесную машину.
Разбираемся, как быть.
Попробовать 3P-Framework.
В компании любого размера зрелая data-driven культура стоит на трехслонах столпах:
1. People
Важно, чтобы сотрудники понимали ценность данных и могли сами формулировать бизнес-вопросы, задавать гипотезы и проверять их.
2. Platform
Инструменты должны быть удобными и доступными: одна BI-система, понятные дашборды, минимальное количество промежуточных слоев и четко выстроенное хранилище.
3. Process
Легкая, гибкая методология превращает данные в инсайты: регулярные ретроспективы, хакатоны, интеграция аналитиков в поля, временная посадка внутри бизнес-команд, открытые каналы коммуникации.
Да пребудет с вами сила.
#аналитика
Не нужны миллионы и орды аналитиков, чтобы стать data-driven. Маленький стартап с парой простых инструментов и вовлеченными сотрудниками моментально принимает решения на основе данных, тогда как в корпорации десятки хранилищ, несколько Data Lake и семь BI-систем лишь создают хаос, и инсайты тонут в бюрократии.
Разбираемся, почему так.
1. Гибкость против избыточности инструментов
В небольших командах хватит простой эксельки и одной BI-системы, чтобы быстро видеть метрики и проверять гипотезы. В крупных организациях же десяток хранилищ, несколько Data Lake и BI-платформ приводят к разрозненности данных и затягивают получение инсайтов.
2. Скорость принятия решений против бюрократии
Стартап может менять метрики на ходу и сразу внедрять выводы, тогда как в корпорации любое нововведение проходит длинный цикл согласований, и бизнес-пользователь теряет мотивацию ждать.
3. Прямая мотивация против формальных ролей
В маленькой компании аналитик тесно общается с командой и видит прямой эффект своего анализа. В большой — аналитики часто сидят в одном офисе, инженеры в другом, а бизнес-отдел вообще отдельно, из-за чего качество данных и фокус на нужных KPI размываются.
4. Простые процессы против формализация
В стартапе достаточно договориться о нескольких ключевых показателях и пройти цикл «гипотеза→сбор данных→проверка→действие». В корпорации же для каждого дашборда нужен регламент, аудит качества данных и долгие согласования, из-за чего процессы превращаются в тяжеловесную машину.
Разбираемся, как быть.
Попробовать 3P-Framework.
В компании любого размера зрелая data-driven культура стоит на трех
1. People
Важно, чтобы сотрудники понимали ценность данных и могли сами формулировать бизнес-вопросы, задавать гипотезы и проверять их.
2. Platform
Инструменты должны быть удобными и доступными: одна BI-система, понятные дашборды, минимальное количество промежуточных слоев и четко выстроенное хранилище.
3. Process
Легкая, гибкая методология превращает данные в инсайты: регулярные ретроспективы, хакатоны, интеграция аналитиков в поля, временная посадка внутри бизнес-команд, открытые каналы коммуникации.
Да пребудет с вами сила.
#аналитика
👍4 3❤🔥2🔥2
Кто и зачем запускает ЦОД к Луне
В феврале Lonestar Data Holdings вместе с Phison и Intuitive Machines отправила на Луну устройство Freedom на посадочном модуле IM-2 Athena, запущенном ракетой Falcon 9 SpaceX.
Freedom — петабайтный ЦОД на SSD, защищенный 3D-печатным корпусом, способный работать в условиях космоса: корпус обеспечивает естественное охлаждение, а солнечные панели — питание. Внутри — SSD Phison и FPGA Microchip PolarFire для базовых задач шифрования и передачи данных.
Цель миссии — проверить надежность SSD и вычислительной платформы в транслунном пространстве.
В течение пятидневного полета Lonestar тестировала прием, отправку и шифрование файлов для клиентов (госструктур, ИИ-стартапов, развлекательных компаний), доказав работоспособность RISC-V процессора и кастомной Linux-сборки. Отсутствие атмосферы и стабильный доступ к солнечной энергии показали эффективность радиационного охлаждения без сложных систем термоменеджмента.
Коммерческая цель — создать премиальное решение для аварийного восстановления.
Хранение критичных данных на Луне исключает риски земных катастроф (ураганы, землетрясения), а edge-вычисления на узле снижают задержки и повышают безопасность для финансовых и оборонных систем. Инвесторы (Scout Ventures, 2 Future Holdings, Seldor Capital) вложили около $10 млн, рассчитывая на спрос крупных корпоративных и правительственных клиентов.
Хотя старты и тесты в CisLunar Space прошли успешно, при мягкой посадке 6 марта 2025 года Athena перевернулась из-за тонкой конструкции шасси и сильного похолодания, что вывело Freedom из строя.
Тем не менее миссия доказала, что SSD Phison с RISC-V и FPGA способны работать в космосе. Lonestar планирует запустить первую серию лунных орбитальных ЦОДов в 2027 году, продолжая развивать технологии хранения и обработки данных вне Земли.
#безопасность
В феврале Lonestar Data Holdings вместе с Phison и Intuitive Machines отправила на Луну устройство Freedom на посадочном модуле IM-2 Athena, запущенном ракетой Falcon 9 SpaceX.
Freedom — петабайтный ЦОД на SSD, защищенный 3D-печатным корпусом, способный работать в условиях космоса: корпус обеспечивает естественное охлаждение, а солнечные панели — питание. Внутри — SSD Phison и FPGA Microchip PolarFire для базовых задач шифрования и передачи данных.
Цель миссии — проверить надежность SSD и вычислительной платформы в транслунном пространстве.
В течение пятидневного полета Lonestar тестировала прием, отправку и шифрование файлов для клиентов (госструктур, ИИ-стартапов, развлекательных компаний), доказав работоспособность RISC-V процессора и кастомной Linux-сборки. Отсутствие атмосферы и стабильный доступ к солнечной энергии показали эффективность радиационного охлаждения без сложных систем термоменеджмента.
Коммерческая цель — создать премиальное решение для аварийного восстановления.
Хранение критичных данных на Луне исключает риски земных катастроф (ураганы, землетрясения), а edge-вычисления на узле снижают задержки и повышают безопасность для финансовых и оборонных систем. Инвесторы (Scout Ventures, 2 Future Holdings, Seldor Capital) вложили около $10 млн, рассчитывая на спрос крупных корпоративных и правительственных клиентов.
Хотя старты и тесты в CisLunar Space прошли успешно, при мягкой посадке 6 марта 2025 года Athena перевернулась из-за тонкой конструкции шасси и сильного похолодания, что вывело Freedom из строя.
Тем не менее миссия доказала, что SSD Phison с RISC-V и FPGA способны работать в космосе. Lonestar планирует запустить первую серию лунных орбитальных ЦОДов в 2027 году, продолжая развивать технологии хранения и обработки данных вне Земли.
#безопасность
2🔥4 3❤🔥2👌2
Большие данные умирают
Вот и мы тоже не смогли пройти мимо заголовка статьи Is Big Data Dying?
Разумеется, большие данные переживают не гибель самого понятия, а устаревание традиционных технологий и подходов.
В статье авторы разбирают историю эволюции больших данных и делают прогнозы.
История делится на три этапа:
Этап 1 (классический Hadoop + Lambda)
- Архитектуру составляли более 30 компонентов, требовавших команды из 50+ специалистов.
- Постоянные конфликты данных: единственный способ исправить ошибку — удаление и полная перезапись раздела.
- Хранение дублировавшихся данных приводило к росту расходов.
- Любой слепой SQL-запрос без фильтрации по партиции мог потопить всю систему.
- При объемах в несколько миллиардов записей в день производительность падала, а платформа оказывалась крайне ненадежной.
Этап 2 (Data Lake и Lakehouse)
- С новыми форматами Iceberg и Delta Lake число компонентов и количество людей в командах сократилось до 10.
- Появилась транзакционная поддержка, единые метаданные и единое хранилище, что упростило процессы компактирования версий и Z-order оптимизации.
- SQL-запросы стали маршрутизироваться по разным движкам в зависимости от задач.
- Максимальный размер таблицы ~10 млрд строк, число таблиц — до 10 000.
- Даже с этими улучшениями для триллионной шкалы данных все еще требовались большие инженерные ресурсы, а архитектура оставалась сложной.
Этап 3 (облачные платформы pay-as-you-go)
- Решения вроде Snowflake и Databend позволяют выполнять SQL-запросы напрямую к файлам в S3 (CSV, Parquet, ORC) без подготовки Spark-файлов.
- ETL-инженеры, ранее тратившие дни на загрузку и трансформацию, теперь справляются за полчаса.
- Потоковая и пакетная обработки полностью интегрированы, возможность запускать UDF-задачи на Python заменяет десятки кластеров Flink.
Последствия перехода
В результате перехода на облачные платформы классическая роль Data Mover фактически исчезает: задачи, ранее занимавшие дни у крупных команд инженеров, теперь выполняются автоматически в рамках облачного сервиса.
Вместо специалистов по DWH, чья основная функция заключалась в настройке и поддержке сложных пайплайнов, появляются новые профессии:
- Инженеры, работающие с лоукод-инструментами для подготовки данных.
- Специалисты по интеграции и визуализации.
- Бизнес-аналитики, использующие Text2SQL.
- Разработчики умных систем, фокусирующиеся на генерации ценности, а не на сложных пайплайнах.
Вместо инженеров широкого профиля становятся востребованы узкие специалисты с глубокими знаниями лоукод-платформ, UDF-функций и внутренних принципов новых хранилищ.
#аналитика #статьи
Вот и мы тоже не смогли пройти мимо заголовка статьи Is Big Data Dying?
Разумеется, большие данные переживают не гибель самого понятия, а устаревание традиционных технологий и подходов.
В статье авторы разбирают историю эволюции больших данных и делают прогнозы.
История делится на три этапа:
Этап 1 (классический Hadoop + Lambda)
- Архитектуру составляли более 30 компонентов, требовавших команды из 50+ специалистов.
- Постоянные конфликты данных: единственный способ исправить ошибку — удаление и полная перезапись раздела.
- Хранение дублировавшихся данных приводило к росту расходов.
- Любой слепой SQL-запрос без фильтрации по партиции мог потопить всю систему.
- При объемах в несколько миллиардов записей в день производительность падала, а платформа оказывалась крайне ненадежной.
Этап 2 (Data Lake и Lakehouse)
- С новыми форматами Iceberg и Delta Lake число компонентов и количество людей в командах сократилось до 10.
- Появилась транзакционная поддержка, единые метаданные и единое хранилище, что упростило процессы компактирования версий и Z-order оптимизации.
- SQL-запросы стали маршрутизироваться по разным движкам в зависимости от задач.
- Максимальный размер таблицы ~10 млрд строк, число таблиц — до 10 000.
- Даже с этими улучшениями для триллионной шкалы данных все еще требовались большие инженерные ресурсы, а архитектура оставалась сложной.
Этап 3 (облачные платформы pay-as-you-go)
- Решения вроде Snowflake и Databend позволяют выполнять SQL-запросы напрямую к файлам в S3 (CSV, Parquet, ORC) без подготовки Spark-файлов.
- ETL-инженеры, ранее тратившие дни на загрузку и трансформацию, теперь справляются за полчаса.
- Потоковая и пакетная обработки полностью интегрированы, возможность запускать UDF-задачи на Python заменяет десятки кластеров Flink.
Последствия перехода
В результате перехода на облачные платформы классическая роль Data Mover фактически исчезает: задачи, ранее занимавшие дни у крупных команд инженеров, теперь выполняются автоматически в рамках облачного сервиса.
Вместо специалистов по DWH, чья основная функция заключалась в настройке и поддержке сложных пайплайнов, появляются новые профессии:
- Инженеры, работающие с лоукод-инструментами для подготовки данных.
- Специалисты по интеграции и визуализации.
- Бизнес-аналитики, использующие Text2SQL.
- Разработчики умных систем, фокусирующиеся на генерации ценности, а не на сложных пайплайнах.
Вместо инженеров широкого профиля становятся востребованы узкие специалисты с глубокими знаниями лоукод-платформ, UDF-функций и внутренних принципов новых хранилищ.
#аналитика #статьи
👍7❤🔥3🔥3
Data Platform Fundamentals.pdf
4 MB
В Dagster опубликовали пошаговое руководство по созданию и эксплуатации современных дата-платформ
Рассказываем, кому будет полезно и зачем читать.
Владельцы и менеджеры дата-платформ
- Понять, зачем нужна контрольная плоскость для централизованной оркестрации и наблюдаемости, позволяющая собирать метаданные и метрики со всех пайплайнов и быстро реагировать на инциденты.
- Освоить принципы модульности и расширяемости, чтобы строить платформу, которая масштабируется вместе с бизнесом без дорогостоящих переработок.
- Сравнить основные подходы: классический ETL, ELT, Lakehouse, event-driven и понять, когда эволюционировать от MVP-решения (например, S3 + MySQL + Stitch/Sling + Dagster + dbt + Snowflake) к полноценной архитектуре на базе BigQuery, Redshift, Spark/EMR, AWS Lambda.
Инженеры и архитекторы данных
- Узнать три паттерна пайплайнов: push, pull и poll, и обеспечить идемпотентность задач, чтобы при повторных запусках не возникало дублирования или рассинхронов.
- Разобраться в медальонной архитектуре с уровнями Bronze (raw), Silver (cleaned) и Gold (consumer-ready), выбрать подходящий формат хранения (Parquet, Delta, Iceberg, Hudi) и понять, как разделять слой чтения и записи для устойчивости к изменениям в источниках.
- Изучить шесть измерений качества данных: своевременность, полнота, точность, валидность, уникальность и согласованность, а также настроить автоматические проверки с помощью Great Expectations, Soda, Deequ, встроенных проверок в Dagster или тестов в dbt, чтобы грязные данные никогда не попали в аналитику.
Аналитики данных и BI-разработчики
- Понять, зачем разделять слои Bronze, Silver и Gold и как это влияет на SLA и качество витрин: Silver-слой дает вычищенные данные для быстрой аналитики, Gold-слой — готовые отчеты для потребителей.
- Освоить базовый словарь: контрольная плоскость, наблюдаемость, каталог, чтобы эффективнее взаимодействовать с инженерами данных, задавать конкретные требования по скорости, надежности и доступности данных.
Дата-сайентисты и ML-инженеры
- Узнать, как строить экспериментальные пайплайны воспроизводимыми, чтобы гарантировать стабильность обучающих выборок и повторяемость экспериментов.
- Понять, зачем нужна медальонная архитектура для организации feature-store и обеспечения качества данных в ML, а также как интегрировать свои пайплайны в общую платформу с помощью Dagster, dbt и контроля версий.
DevOps и SRE
- Ознакомиться с подходами к мониторингу, логированию и самовосстановлению в рамках оркестраторов Dagster и Airflow, чтобы обеспечить бесперебойную работу пайплайнов.
- Понять, как контрольная плоскость помогает централизованно управлять инцидентами и метриками платформы (латентность, пропускная способность, процент успешных запусков), что важно для поддержания SLA и своевременного реагирования.
Делитесь с друзьями и коллегами, подходящими под описание.
Рассказываем, кому будет полезно и зачем читать.
Владельцы и менеджеры дата-платформ
- Понять, зачем нужна контрольная плоскость для централизованной оркестрации и наблюдаемости, позволяющая собирать метаданные и метрики со всех пайплайнов и быстро реагировать на инциденты.
- Освоить принципы модульности и расширяемости, чтобы строить платформу, которая масштабируется вместе с бизнесом без дорогостоящих переработок.
- Сравнить основные подходы: классический ETL, ELT, Lakehouse, event-driven и понять, когда эволюционировать от MVP-решения (например, S3 + MySQL + Stitch/Sling + Dagster + dbt + Snowflake) к полноценной архитектуре на базе BigQuery, Redshift, Spark/EMR, AWS Lambda.
Инженеры и архитекторы данных
- Узнать три паттерна пайплайнов: push, pull и poll, и обеспечить идемпотентность задач, чтобы при повторных запусках не возникало дублирования или рассинхронов.
- Разобраться в медальонной архитектуре с уровнями Bronze (raw), Silver (cleaned) и Gold (consumer-ready), выбрать подходящий формат хранения (Parquet, Delta, Iceberg, Hudi) и понять, как разделять слой чтения и записи для устойчивости к изменениям в источниках.
- Изучить шесть измерений качества данных: своевременность, полнота, точность, валидность, уникальность и согласованность, а также настроить автоматические проверки с помощью Great Expectations, Soda, Deequ, встроенных проверок в Dagster или тестов в dbt, чтобы грязные данные никогда не попали в аналитику.
Аналитики данных и BI-разработчики
- Понять, зачем разделять слои Bronze, Silver и Gold и как это влияет на SLA и качество витрин: Silver-слой дает вычищенные данные для быстрой аналитики, Gold-слой — готовые отчеты для потребителей.
- Освоить базовый словарь: контрольная плоскость, наблюдаемость, каталог, чтобы эффективнее взаимодействовать с инженерами данных, задавать конкретные требования по скорости, надежности и доступности данных.
Дата-сайентисты и ML-инженеры
- Узнать, как строить экспериментальные пайплайны воспроизводимыми, чтобы гарантировать стабильность обучающих выборок и повторяемость экспериментов.
- Понять, зачем нужна медальонная архитектура для организации feature-store и обеспечения качества данных в ML, а также как интегрировать свои пайплайны в общую платформу с помощью Dagster, dbt и контроля версий.
DevOps и SRE
- Ознакомиться с подходами к мониторингу, логированию и самовосстановлению в рамках оркестраторов Dagster и Airflow, чтобы обеспечить бесперебойную работу пайплайнов.
- Понять, как контрольная плоскость помогает централизованно управлять инцидентами и метриками платформы (латентность, пропускная способность, процент успешных запусков), что важно для поддержания SLA и своевременного реагирования.
Делитесь с друзьями и коллегами, подходящими под описание.
❤🔥3🙏3👍2🔥2
Сколько зарабатывают на больших данных в крупной промышленности
В Ведомостях пишут, что в 2023 году крупные промышленные компании увеличили инвестиции в большие данные и аналитику до 23% от операционного бюджета, а в 2024 году — до 30%.
Потому что увидели эффект:
При работе с большими данными расходы на производство и логистику сокращаются на 15-30%, еще на 30% сокращаются простои техники.
В нефтянке от внедрения технологии маржа увеличивается на 1-2%: в России это дало бы ₽100 млрд для Роснефти и ₽320 млрд для всей отрасли в год.
Где клад зарыт
Недавно компания De Beers, которая добывает алмазы в Ботсване уже 54 года, сократила время на разведку месторождений на 40% за счет анализа спутниковых данных.
Предположим, что затраты на разведку пропорциональны их продолжительности. Тогда в De Beers экономят $20 млн в год. Почти столько же могли бы экономить и в Алросе — $19 млн, то есть ₽1,5 млрд.
Кто не работает, тот ест
В грузовом парке горнодобывающей компании Anglo American внедрили прогнозное техническое обслуживание на основе анализа данных и искусственного интеллекта. Это сократило внеплановые простои на 30%.
Если до внедрения компания теряла до 1200 часов на простоях в год, то после обкатки технологии начала экономить до $45 млн ежегодно.
А у нас в квартире газ
По данным IDC и РАЭК, рынок больших данных в России растет на 15-25% в год, а в промышленности — аж на 30%.
Так что с внедрением больших данных и аналитики, включая цифровых двойников, у нас все хорошо.
Самые популярные кейсы в промышленности связаны с прогнозом ремонта оборудования. Это потенциально снижает затраты на ремонт от 15 до 30%.
Пофантазируем немного.
Если завтра на всех российских предприятиях внедрят системы предикативного обслуживания станков и техники, то суммарно сэкономят более ₽7 трлн за год.
#деньги #статьи
В Ведомостях пишут, что в 2023 году крупные промышленные компании увеличили инвестиции в большие данные и аналитику до 23% от операционного бюджета, а в 2024 году — до 30%.
Потому что увидели эффект:
При работе с большими данными расходы на производство и логистику сокращаются на 15-30%, еще на 30% сокращаются простои техники.
В нефтянке от внедрения технологии маржа увеличивается на 1-2%: в России это дало бы ₽100 млрд для Роснефти и ₽320 млрд для всей отрасли в год.
Где клад зарыт
Недавно компания De Beers, которая добывает алмазы в Ботсване уже 54 года, сократила время на разведку месторождений на 40% за счет анализа спутниковых данных.
Предположим, что затраты на разведку пропорциональны их продолжительности. Тогда в De Beers экономят $20 млн в год. Почти столько же могли бы экономить и в Алросе — $19 млн, то есть ₽1,5 млрд.
Кто не работает, тот ест
В грузовом парке горнодобывающей компании Anglo American внедрили прогнозное техническое обслуживание на основе анализа данных и искусственного интеллекта. Это сократило внеплановые простои на 30%.
Если до внедрения компания теряла до 1200 часов на простоях в год, то после обкатки технологии начала экономить до $45 млн ежегодно.
А у нас в квартире газ
По данным IDC и РАЭК, рынок больших данных в России растет на 15-25% в год, а в промышленности — аж на 30%.
Так что с внедрением больших данных и аналитики, включая цифровых двойников, у нас все хорошо.
Самые популярные кейсы в промышленности связаны с прогнозом ремонта оборудования. Это потенциально снижает затраты на ремонт от 15 до 30%.
Пофантазируем немного.
Если завтра на всех российских предприятиях внедрят системы предикативного обслуживания станков и техники, то суммарно сэкономят более ₽7 трлн за год.
#деньги #статьи
👍6❤3🔥3
Разработчики ИИ тратят миллионы на лоббирование своих интересов в США
OpenAI и Anthropic, традиционно позиционировавшиеся как осторожные исследовательские центры, в последние месяцы стали активно расширять присутствие в Вашингтоне, нанимая новых сотрудников и наращивая расходы на лоббизм.
Федеральный бюджет США на айти-сектор составляет около $75 млрд, значительная часть которого теперь направлена на проекты, связанные с ИИ.
Главный инструмент лоббистов — страшилка о том, что если правительство США сейчас же не направит миллиарды долларов на развитие ИИ-отрасли, то китайцы начнут доминировать в этой сфере.
Это резонно. И это работает: администрация Трампа и Конгресс рассматривают ИИ прежде всего как стратегический инструмент в гонке технологий с Китаем. Палата представителей уже приняла положение о десятилетнем моратории на ужесточение законов об ИИ на уровне штатов и местных органов власти.
В некоторых источниках пишут, что уже сегодня ИИ-компании лоббируют больше, чем нефтяные и табачные корпорации.
Нам думается, что именно и только благодаря лоббистам на американском рынке искусственного интеллекта все еще не так плотно закручены гайки регулирования. При этом госзаказы уже стали многомиллиардными.
Пока лоббисты выбивают настолько большие подряды, защита пользовательских данных и сомнительные социальные эффекты от распространения ИИ не так сильно беспокоят законотворцев.
#аналитика #ии #статьи
OpenAI и Anthropic, традиционно позиционировавшиеся как осторожные исследовательские центры, в последние месяцы стали активно расширять присутствие в Вашингтоне, нанимая новых сотрудников и наращивая расходы на лоббизм.
Федеральный бюджет США на айти-сектор составляет около $75 млрд, значительная часть которого теперь направлена на проекты, связанные с ИИ.
Главный инструмент лоббистов — страшилка о том, что если правительство США сейчас же не направит миллиарды долларов на развитие ИИ-отрасли, то китайцы начнут доминировать в этой сфере.
Это резонно. И это работает: администрация Трампа и Конгресс рассматривают ИИ прежде всего как стратегический инструмент в гонке технологий с Китаем. Палата представителей уже приняла положение о десятилетнем моратории на ужесточение законов об ИИ на уровне штатов и местных органов власти.
В некоторых источниках пишут, что уже сегодня ИИ-компании лоббируют больше, чем нефтяные и табачные корпорации.
Нам думается, что именно и только благодаря лоббистам на американском рынке искусственного интеллекта все еще не так плотно закручены гайки регулирования. При этом госзаказы уже стали многомиллиардными.
Пока лоббисты выбивают настолько большие подряды, защита пользовательских данных и сомнительные социальные эффекты от распространения ИИ не так сильно беспокоят законотворцев.
#аналитика #ии #статьи
👍4❤3❤🔥2🔥2
13% спартанцев
По данным Суперджоб, 13% учителей постоянно сталкиваются с заданиями, выполненными с помощью ИИ, и пытаются бороться с этим.
Проникновение ИИ в школы неотвратимо. Вряди ли с этим стоит бороться в прямом смысле слова. Скорее нужно адаптироваться самой школьной программе и методикам. Потому что запретить ИИ не получится.
23% родителей учеников 5-6 классов точно знают, что их ребенок обращается за решениями к ИИ. Среди родителей обучающихся 7-9 классов каждый третий знает, что ребенок выполняет домашнюю работу с помощью нейросетей, а среди родителей старшеклассников — почти каждый второй.
29% учителей пока не знают, как предотвратить бездумное использование учащимися генеративных моделей при выполнении домашних работ. Наверное, это самая адекватная когорта, ибо признание проблемы — уже половина решения.
Еще 30% заявили, что еще не сталкивались с такими ситуациями. Им либо жутко повезло, либо их компетенций недостаточно, чтобы распознать домашку, написанную искусственным интеллектом.
Поддерживаем депутата Госдумы Екатерину Харченко, которая выступает за то, чтобы разрешить школьникам пользоваться нейросетями:
#ии #исследования
По данным Суперджоб, 13% учителей постоянно сталкиваются с заданиями, выполненными с помощью ИИ, и пытаются бороться с этим.
Проникновение ИИ в школы неотвратимо. Вряди ли с этим стоит бороться в прямом смысле слова. Скорее нужно адаптироваться самой школьной программе и методикам. Потому что запретить ИИ не получится.
23% родителей учеников 5-6 классов точно знают, что их ребенок обращается за решениями к ИИ. Среди родителей обучающихся 7-9 классов каждый третий знает, что ребенок выполняет домашнюю работу с помощью нейросетей, а среди родителей старшеклассников — почти каждый второй.
29% учителей пока не знают, как предотвратить бездумное использование учащимися генеративных моделей при выполнении домашних работ. Наверное, это самая адекватная когорта, ибо признание проблемы — уже половина решения.
Еще 30% заявили, что еще не сталкивались с такими ситуациями. Им либо жутко повезло, либо их компетенций недостаточно, чтобы распознать домашку, написанную искусственным интеллектом.
Поддерживаем депутата Госдумы Екатерину Харченко, которая выступает за то, чтобы разрешить школьникам пользоваться нейросетями:
Мы должны научиться жить в новых условиях 21 века и прежде всего надо научить взрослых, в том числе педагогов и родителей, использовать искусственный интеллект как инструмент во благо — для поиска информации, для систематизации. И уже после этого научить детей. Если ты не можешь что-то отменить, то надо это возглавить.
Наши дети будут жить в эру искусственного интеллекта, поэтому нам, взрослым, в том числе учителям и педагогам, необходимо его научиться использовать как инструмент во благо. Как инновационный метод, как раньше учили на счетах, а потом появились калькуляторы и компьютеры. Также и сейчас — это просто новый инструмент, который не будет работать без человека.
#ии #исследования
❤3❤🔥2🥰2👌2🔥1 1
Если вы все еще путаете ИИ-агентов и агентный ИИ, тогда мы идем к вам
В обзоре AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges авторы предлагают четкое разделение двух парадигм автономных систем:
ИИ-агент — одиночный модуль, основанный на LLM/LIM, выполняющий четко заданную задачу (автоответы, планирование, сбор и суммирование данных).
Интегрируется с внешними инструментами (API, базы, поиск) через цепочки запросов–действий–обновлений (ReAct, tool-calling). Подходит для узконаправленной автоматизации: чат-боты, фильтрация писем, отчеты, планирование встреч.
Агентный ИИ — система из нескольких специализированных агентов, которые кооперируются для достижения общей цели.
Использует динамическое разбиение задач, координацию (через шины сообщений или shared memory), персистентную память и агента-оркестратора. Способен на сложные, многоэтапные и непрерывные рабочие процессы: исследовательские ассистенты, логистика, медицинская поддержка
Зачем понимать разницу?
1. Правильный выбор архитектуры
Если задача простая и одношаговая (например, автоответы на входящие запросы или генерация кратких отчетов), достаточно ИИ-агента — это быстро, дешево, легко внедряется.
Для сложных, многоэтапных процессов (например, полная автоматизация обработки заявок с анализом, уточнением и передачей между отделами) нужен агентный ИИ, чтобы избежать узких горлышек и обеспечить надежную координацию всех шагов.
2. Экономия ресурсов и времени
Неправильное применение агентного ИИ для простой задачи приведет к избыточным вычислениям и затратам.
Применение ИИ-агента с узкой специализацией в слишком сложном сценарии обречет проект на частые подвисания и ошибки.
3. Управление рисками и безопасностью
В многоагентных системах сложнее контролировать, какие данные и как передаются между компонентами, что требует дополнительных мер защиты и аудита.
Простые агенты легче просканировать на уязвимости и обеспечить соответствие корпоративным политикам.
4. Гибкость и масштабируемость
ИИ-агент хорошо масштабируется горизонтально (добавляем больше однотипных экземпляров), но с ростом числа задач коммуникация остается минимальной.
Агентный ИИ масштабируется вертикально (увеличивается число и разнообразие агентов), что позволяет адаптироваться к растущей сложности процессов.
Помимо сравнительной таксономии, в статье обсуждаются ключевые проблемы обеих парадигм: недостаточная причинная обусловленность и поверхностное рассуждение в ИИ-агентах, а также усиленные риски сбоев координации и непредсказуемого поведения в агентном ИИ.
#ии #статьи
В обзоре AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges авторы предлагают четкое разделение двух парадигм автономных систем:
ИИ-агент — одиночный модуль, основанный на LLM/LIM, выполняющий четко заданную задачу (автоответы, планирование, сбор и суммирование данных).
Интегрируется с внешними инструментами (API, базы, поиск) через цепочки запросов–действий–обновлений (ReAct, tool-calling). Подходит для узконаправленной автоматизации: чат-боты, фильтрация писем, отчеты, планирование встреч.
Агентный ИИ — система из нескольких специализированных агентов, которые кооперируются для достижения общей цели.
Использует динамическое разбиение задач, координацию (через шины сообщений или shared memory), персистентную память и агента-оркестратора. Способен на сложные, многоэтапные и непрерывные рабочие процессы: исследовательские ассистенты, логистика, медицинская поддержка
Зачем понимать разницу?
1. Правильный выбор архитектуры
Если задача простая и одношаговая (например, автоответы на входящие запросы или генерация кратких отчетов), достаточно ИИ-агента — это быстро, дешево, легко внедряется.
Для сложных, многоэтапных процессов (например, полная автоматизация обработки заявок с анализом, уточнением и передачей между отделами) нужен агентный ИИ, чтобы избежать узких горлышек и обеспечить надежную координацию всех шагов.
2. Экономия ресурсов и времени
Неправильное применение агентного ИИ для простой задачи приведет к избыточным вычислениям и затратам.
Применение ИИ-агента с узкой специализацией в слишком сложном сценарии обречет проект на частые подвисания и ошибки.
3. Управление рисками и безопасностью
В многоагентных системах сложнее контролировать, какие данные и как передаются между компонентами, что требует дополнительных мер защиты и аудита.
Простые агенты легче просканировать на уязвимости и обеспечить соответствие корпоративным политикам.
4. Гибкость и масштабируемость
ИИ-агент хорошо масштабируется горизонтально (добавляем больше однотипных экземпляров), но с ростом числа задач коммуникация остается минимальной.
Агентный ИИ масштабируется вертикально (увеличивается число и разнообразие агентов), что позволяет адаптироваться к растущей сложности процессов.
Помимо сравнительной таксономии, в статье обсуждаются ключевые проблемы обеих парадигм: недостаточная причинная обусловленность и поверхностное рассуждение в ИИ-агентах, а также усиленные риски сбоев координации и непредсказуемого поведения в агентном ИИ.
#ии #статьи
👍3🔥3❤🔥2❤2