Как изменилась работа с ИИ и данными в 2025 году
Инфраструктура становится умнее, инструменты гибче, а данные — центром принятия решений. Отчеты State of Data and AI Engineering и Artificial Analysis State of AI за 2025 год показывают: индустрия стремительно переходит от универсальности к эффективности.
Разбираем ключевые тренды.
Индустрия данных и ИИ в 2025 году переживает фундаментальную перестройку
На первый план выходят не столько новые платформы, сколько архитектурные сдвиги. Самый заметный — отказ от универсальных MLOps-решений в пользу легких, встроенных компонентов. Компании, как CoreWeave и ClearML, трансформируют свои продукты под конкретные задачи — оптимизацию GPU, наблюдение за LLM, CI/CD для моделей.
Это совпадает с переходом к ризонинг-моделям: по данным Artificial Analysis, они теперь доминируют в рейтингах интеллекта и требуют новых подходов к мониторингу и оценке.
В инфраструктуре фокус смещается в сторону гибкости и отказа от вендорской зависимости
AWS Glue становится фактически единственным инструментом, способным обеспечить read/write-федерацию Apache Iceberg с разными движками. Это важно, учитывая, что форматы Iceberg и Delta теперь — стандарт в построении масштабируемых lakehouse-архитектур. Такой подход снижает риски блокировки на одном вендоре и облегчает мультиоблачную миграцию.
Параллельно облачные провайдеры ведут гонку за низкой латентностью
GCS Fast Tier от Google и S3 Express от AWS ориентированы на real-time приложения, особенно на inference для LLM. Это особенно актуально в контексте новых моделей: ризонинг-системы генерируют в 10 раз больше токенов, а агентные фреймворки делают десятки запросов на одну задачу.
По сути, эффективность хранения и скорости доступа становится новым полем конкуренции в ИИ.
BigQuery закрепляет лидерство, став фундаментом аналитической стратегии Google
Количество клиентов BigQuery в 5 раз превышает суммарную аудиторию Snowflake и Databricks. Это подкрепляется тем, что Google — один из немногих игроков, обладающих полной вертикальной интеграцией — от TPU до собственных ризонинг-моделей Gemini. Такая связка данных и вычислений становится ключевым преимуществом в эпоху генеративных ИИ.
Оркестрация данных становится умной и реактивной
Dagster, Flyte, Prefect используют ИИ для построения DAG-ов, предсказания сбоев и оптимизации ресурсов. Причем эти функции уже встраиваются в интерфейсы: Azure Data Factory и Vertex AI предоставляют Copilot-режимы.
Все чаще пайплайны проектируются не кодом, а в диалоге с моделью. Это позволяет быстрее адаптироваться под задачи агентных LLM-систем, которые автономно управляют инструментами и API.
Наблюдаемость выходит на новый уровень зрелости
Решения вроде WhyLabs и Monte Carlo работают как единая система контроля качества и мониторинга модели. Это становится необходимым, поскольку рост генеративных систем требует непрерывной оценки достоверности, дрейфа и качества входных данных. Более того, с развитием агентного ИИ и автогенерации кода, проверка становится обязательной частью CI/CD.
Векторные базы данных и синтетические данные превращаются в зрелые инструменты
Pinecone демонстрирует 48% прирост точности благодаря каскадным retrieval-алгоритмам. Одновременно, инструменты генерации синтетических данных (Gretel AI, YData) компенсируют дефицит приватных или сбалансированных выборок.
Это особенно актуально, учитывая доминирование MoE-архитектур, где модели работают с малыми активными подсетями параметров — снижая стоимость, но требуя качества от обучающих данных.
Вывод
Рынок уходит от универсальных решений и движется к адаптивным, масштабируемым и агентно-ориентированным структурам. Побеждают те, кто совмещает зрелость инженерии, свободу архитектурных решений и готовность к новым классам нагрузки: ризонинг, агенты и так далее. Для специалистов по данным это означает одно — инфраструктура становится стратегическим активом.
#ии #аналитика #исследования
Инфраструктура становится умнее, инструменты гибче, а данные — центром принятия решений. Отчеты State of Data and AI Engineering и Artificial Analysis State of AI за 2025 год показывают: индустрия стремительно переходит от универсальности к эффективности.
Разбираем ключевые тренды.
Индустрия данных и ИИ в 2025 году переживает фундаментальную перестройку
На первый план выходят не столько новые платформы, сколько архитектурные сдвиги. Самый заметный — отказ от универсальных MLOps-решений в пользу легких, встроенных компонентов. Компании, как CoreWeave и ClearML, трансформируют свои продукты под конкретные задачи — оптимизацию GPU, наблюдение за LLM, CI/CD для моделей.
Это совпадает с переходом к ризонинг-моделям: по данным Artificial Analysis, они теперь доминируют в рейтингах интеллекта и требуют новых подходов к мониторингу и оценке.
В инфраструктуре фокус смещается в сторону гибкости и отказа от вендорской зависимости
AWS Glue становится фактически единственным инструментом, способным обеспечить read/write-федерацию Apache Iceberg с разными движками. Это важно, учитывая, что форматы Iceberg и Delta теперь — стандарт в построении масштабируемых lakehouse-архитектур. Такой подход снижает риски блокировки на одном вендоре и облегчает мультиоблачную миграцию.
Параллельно облачные провайдеры ведут гонку за низкой латентностью
GCS Fast Tier от Google и S3 Express от AWS ориентированы на real-time приложения, особенно на inference для LLM. Это особенно актуально в контексте новых моделей: ризонинг-системы генерируют в 10 раз больше токенов, а агентные фреймворки делают десятки запросов на одну задачу.
По сути, эффективность хранения и скорости доступа становится новым полем конкуренции в ИИ.
BigQuery закрепляет лидерство, став фундаментом аналитической стратегии Google
Количество клиентов BigQuery в 5 раз превышает суммарную аудиторию Snowflake и Databricks. Это подкрепляется тем, что Google — один из немногих игроков, обладающих полной вертикальной интеграцией — от TPU до собственных ризонинг-моделей Gemini. Такая связка данных и вычислений становится ключевым преимуществом в эпоху генеративных ИИ.
Оркестрация данных становится умной и реактивной
Dagster, Flyte, Prefect используют ИИ для построения DAG-ов, предсказания сбоев и оптимизации ресурсов. Причем эти функции уже встраиваются в интерфейсы: Azure Data Factory и Vertex AI предоставляют Copilot-режимы.
Все чаще пайплайны проектируются не кодом, а в диалоге с моделью. Это позволяет быстрее адаптироваться под задачи агентных LLM-систем, которые автономно управляют инструментами и API.
Наблюдаемость выходит на новый уровень зрелости
Решения вроде WhyLabs и Monte Carlo работают как единая система контроля качества и мониторинга модели. Это становится необходимым, поскольку рост генеративных систем требует непрерывной оценки достоверности, дрейфа и качества входных данных. Более того, с развитием агентного ИИ и автогенерации кода, проверка становится обязательной частью CI/CD.
Векторные базы данных и синтетические данные превращаются в зрелые инструменты
Pinecone демонстрирует 48% прирост точности благодаря каскадным retrieval-алгоритмам. Одновременно, инструменты генерации синтетических данных (Gretel AI, YData) компенсируют дефицит приватных или сбалансированных выборок.
Это особенно актуально, учитывая доминирование MoE-архитектур, где модели работают с малыми активными подсетями параметров — снижая стоимость, но требуя качества от обучающих данных.
Вывод
Рынок уходит от универсальных решений и движется к адаптивным, масштабируемым и агентно-ориентированным структурам. Побеждают те, кто совмещает зрелость инженерии, свободу архитектурных решений и готовность к новым классам нагрузки: ризонинг, агенты и так далее. Для специалистов по данным это означает одно — инфраструктура становится стратегическим активом.
#ии #аналитика #исследования
👍3🔥3❤🔥2
Опыт ЕС: как превратить данные из источника риска в экономический актив
Европейская комиссия прогнозирует, что экономика данных ЕС достигнет €829 млрд в этом году, а число специалистов в сфере данных превысит 10,9 миллиона человек.
Однако только около 30% компаний в ЕС активно используют внешние данные в своих бизнес-процессах, и еще меньше — извлекают из них прямую прибыль.
Главные барьеры — это юридическая неясность, риски утечек, отсутствие прозрачных механизмов оценки и доверия.
В статье Data Trading and Monetization: Challenges and Open Research Directions авторы рассматривают инициативы IDS-RAM и Gaia-X как то, что поможет преодолеть эти барьеры.
IDS-RAM обеспечивает архитектуру, где владельцы данных сохраняют полный контроль над условиями доступа и использования — вплоть до автоматической проверки соблюдения лицензионных ограничений.
Gaia-X, в свою очередь, объединяет более 350 компаний и институтов в рамках единой федеративной инфраструктуры, позволяя обмениваться данными между странами и отраслями по единым стандартам, включая соблюдение GDPR. Это делает возможным безопасный трансграничный рынок данных, а не просто разовые сделки.
В Fraunhofer Institute прикинули, что использование IDS-архитектуры позволит снизить время подготовки соглашений на 30–50%, а юридические издержки — до 70%.
Кроме того, переход от модели продажи датасета к модели data-as-a-service (например, подписка на потоковые данные или доступ к аналитике без раскрытия сырых данных) обеспечивает устойчивый доход и повторное использование активов.
Без описанных инициатив это практически невозможно.
Нам кажется, что инициативы вроде IDS-RAM и Gaia-X делают нечто большее, чем просто создание правовой базы для торговли данными. Подобные инициативы в умах директоров превращают данные из источника риска в полноценный экономический актив.
Если в компании данные воспринимаются не как актив, а как источник потенциальных убытков, это и становится главным барьером для монетизации.
Опять выходит, что все дело не в технических деталях, а в ментальности.
#деньги #статьи #исследования
Европейская комиссия прогнозирует, что экономика данных ЕС достигнет €829 млрд в этом году, а число специалистов в сфере данных превысит 10,9 миллиона человек.
Однако только около 30% компаний в ЕС активно используют внешние данные в своих бизнес-процессах, и еще меньше — извлекают из них прямую прибыль.
Главные барьеры — это юридическая неясность, риски утечек, отсутствие прозрачных механизмов оценки и доверия.
В статье Data Trading and Monetization: Challenges and Open Research Directions авторы рассматривают инициативы IDS-RAM и Gaia-X как то, что поможет преодолеть эти барьеры.
IDS-RAM обеспечивает архитектуру, где владельцы данных сохраняют полный контроль над условиями доступа и использования — вплоть до автоматической проверки соблюдения лицензионных ограничений.
Gaia-X, в свою очередь, объединяет более 350 компаний и институтов в рамках единой федеративной инфраструктуры, позволяя обмениваться данными между странами и отраслями по единым стандартам, включая соблюдение GDPR. Это делает возможным безопасный трансграничный рынок данных, а не просто разовые сделки.
В Fraunhofer Institute прикинули, что использование IDS-архитектуры позволит снизить время подготовки соглашений на 30–50%, а юридические издержки — до 70%.
Кроме того, переход от модели продажи датасета к модели data-as-a-service (например, подписка на потоковые данные или доступ к аналитике без раскрытия сырых данных) обеспечивает устойчивый доход и повторное использование активов.
Без описанных инициатив это практически невозможно.
Нам кажется, что инициативы вроде IDS-RAM и Gaia-X делают нечто большее, чем просто создание правовой базы для торговли данными. Подобные инициативы в умах директоров превращают данные из источника риска в полноценный экономический актив.
Если в компании данные воспринимаются не как актив, а как источник потенциальных убытков, это и становится главным барьером для монетизации.
Опять выходит, что все дело не в технических деталях, а в ментальности.
#деньги #статьи #исследования
🔥4👍3❤2❤🔥1
Вы не представляете, сколько стоит доступ к персональным данным пассажиров американских авиакомпаний
Американская ARC (Airlines Reporting Corporation), принадлежащая крупнейшим авиакомпаниям вроде Delta и United, продала данные о внутренних авиаперелетах пассажиров федеральной службе CBP (Служба таможни и охраны границ США).
Данные включают имена, маршруты, информацию об оплате и передаются в рамках многолетнего контракта, подписанного в 2024 году. При этом CBP обязана не раскрывать, что именно ARC является источником информации. Это подтверждают опубликованные в статье документы, полученные журналистами 404Media через запрос FOIA.
Правозащитники бьют тревогу: вместо получения данных через суд или по ордеру, власти США просто покупают их у частных брокеров, обходя законодательные ограничения. Этот случай — пример того, как госструктуры США используют лазейку брокеров данных, чтобы вернуться к модели массового сбора информации.
Сама ARC позиционирует передачу данных как часть борьбы с преступностью и террористическими угрозами, но фактически это масштабный и скрытный рынок чувствительных данных.
С точки зрения монетизации — перед нами зрелая экономика данных. Есть поставщик, продукт и стабильный покупатель — государство. Именно оно здесь играет роль маркетмейкера: формирует спрос, платит за доступ, а не изымает данные напрямую.
Вот тут и хочется сказать:
Однако подождите. Знаете, сколько федеральная служба заплатила за доступ к миллиардам строк данных?
В июне 2024 года ARC получила $11025. И в мае 2025 года еще $6847.
Утверждать ничего не будем, но либо оставшиеся суммы где-то спрятаны так, что журналисты до них не докопались, либо эти платежи — просто формальность, а передать данные авиакомпании банально обязали.
Как ни крути, на практике для граждан разницы немного: и там и там государство получает доступ к личной информации.
Но в США хотя бы существует экономическая оболочка процесса — рынок, где данные, пусть и формально, становятся товаром. В России же данные чаще всего изымаются как ресурс, без возможности влиять на их оборот или использовать их экономически.
#безопасность #деньги #статьи
Американская ARC (Airlines Reporting Corporation), принадлежащая крупнейшим авиакомпаниям вроде Delta и United, продала данные о внутренних авиаперелетах пассажиров федеральной службе CBP (Служба таможни и охраны границ США).
Данные включают имена, маршруты, информацию об оплате и передаются в рамках многолетнего контракта, подписанного в 2024 году. При этом CBP обязана не раскрывать, что именно ARC является источником информации. Это подтверждают опубликованные в статье документы, полученные журналистами 404Media через запрос FOIA.
Правозащитники бьют тревогу: вместо получения данных через суд или по ордеру, власти США просто покупают их у частных брокеров, обходя законодательные ограничения. Этот случай — пример того, как госструктуры США используют лазейку брокеров данных, чтобы вернуться к модели массового сбора информации.
Сама ARC позиционирует передачу данных как часть борьбы с преступностью и террористическими угрозами, но фактически это масштабный и скрытный рынок чувствительных данных.
С точки зрения монетизации — перед нами зрелая экономика данных. Есть поставщик, продукт и стабильный покупатель — государство. Именно оно здесь играет роль маркетмейкера: формирует спрос, платит за доступ, а не изымает данные напрямую.
Вот тут и хочется сказать:
Это резкий контраст с Россией, где данные чаще всего передаются властям в обязательном порядке, а попытки построить рынок ограничиваются административным регулированием.
Однако подождите. Знаете, сколько федеральная служба заплатила за доступ к миллиардам строк данных?
В июне 2024 года ARC получила $11025. И в мае 2025 года еще $6847.
Утверждать ничего не будем, но либо оставшиеся суммы где-то спрятаны так, что журналисты до них не докопались, либо эти платежи — просто формальность, а передать данные авиакомпании банально обязали.
Как ни крути, на практике для граждан разницы немного: и там и там государство получает доступ к личной информации.
Но в США хотя бы существует экономическая оболочка процесса — рынок, где данные, пусть и формально, становятся товаром. В России же данные чаще всего изымаются как ресурс, без возможности влиять на их оборот или использовать их экономически.
#безопасность #деньги #статьи
👍3🔥3😁2 1
Как тебе такое, Бенджамин Франклин?
Во-первых, Бенджамин Франклин, изображенный на $100, никогда не был президентом США. Это просто на всякий случай.
Во-вторых, ему принадлежит любимая редактором цитата:
В-третьих, он бы сильно удивился, что в 2025 году люди куда охотнее жертвуют не свободой, а именно что безопасностью. Особенно компании, внедряющие решения на базе искусственного интеллекта.
По данным Gigamon, 91% компаний идут на компромиссы в вопросах безопасности, масштабируя айти-инфраструктуру гибридных облаков ради ускоренного внедрения ИИ. Это при том, что 70% считают публичные облачные сервисы самым рискованным компонентом гибридной облачной среды.
В Gigamon опросили 1000 руководителей айти-отделов и директоров по информационной безопасности из разных стран и выяснили:
- 58% компаний столкнулись с ростом атак, в которых используется ИИ — это на 17% больше, чем годом ранее.
- 46% указали на нехватку качественных данных для безопасного развертывания ИИ.
- 47% респондентов отметили, что не могут получать полное, точное и своевременное представление о всех своих данных на протяжении всего их жизненного цикла. При этом только 64% ставят целью достижение полной видимости всех данных в реальном времени.
Кажется, многие опрометчиво перекладывают вопросы безопасности с интеллекта собственного на интеллект искусственный. Никакие умные алгоритмы не спасут, если вы не знаете, что происходит с вашими данными.
#ии #исследования
Во-первых, Бенджамин Франклин, изображенный на $100, никогда не был президентом США. Это просто на всякий случай.
Во-вторых, ему принадлежит любимая редактором цитата:
Те, кто готов пожертвовать насущной свободой ради малой толики временной безопасности, не достойны ни свободы, ни безопасности.
В-третьих, он бы сильно удивился, что в 2025 году люди куда охотнее жертвуют не свободой, а именно что безопасностью. Особенно компании, внедряющие решения на базе искусственного интеллекта.
По данным Gigamon, 91% компаний идут на компромиссы в вопросах безопасности, масштабируя айти-инфраструктуру гибридных облаков ради ускоренного внедрения ИИ. Это при том, что 70% считают публичные облачные сервисы самым рискованным компонентом гибридной облачной среды.
В Gigamon опросили 1000 руководителей айти-отделов и директоров по информационной безопасности из разных стран и выяснили:
- 58% компаний столкнулись с ростом атак, в которых используется ИИ — это на 17% больше, чем годом ранее.
- 46% указали на нехватку качественных данных для безопасного развертывания ИИ.
- 47% респондентов отметили, что не могут получать полное, точное и своевременное представление о всех своих данных на протяжении всего их жизненного цикла. При этом только 64% ставят целью достижение полной видимости всех данных в реальном времени.
Кажется, многие опрометчиво перекладывают вопросы безопасности с интеллекта собственного на интеллект искусственный. Никакие умные алгоритмы не спасут, если вы не знаете, что происходит с вашими данными.
#ии #исследования
👍3🔥3❤2❤🔥2
OpenAI рискует потерять $20 млрд из-за конфликта с Microsoft
С 2019 года Microsoft вложила в OpenAI $13 млрд. Однако сегодня OpenAI хочет ослабить контроль Microsoft над своими продуктами и вычислительными ресурсами, но при этом заручиться поддержкой техногиганта в вопросе преобразования в коммерческую компанию.
Одним из предметов конфликта стала покупка OpenAI стартапа Windsurf, который занимается вайб-кодингом, за $3 млрд. Microsoft по контракту имеет доступ ко всей интеллектуальной собственности OpenAI, но последняя хочет закрыть доступ к технологиям Windsurf. Также идет спор о доле Microsoft в новой структуре OpenAI после преобразования: техногигант требует больше, чем OpenAI готова отдать.
Кроме того, компании теперь конкурируют и на рынке потребительских чат-ботов, и в корпоративных решениях. Год назад CEO Microsoft Сатья Наделла нанял конкурента Сэма Альтмана, чтобы создать конкурирующие модели внутри компании.
Без одобрения преобразования от Microsoft OpenAI не сможет привлечь новые инвестиции, выйти на биржу и потеряет порядка $20 млрд.
Нам думается, что все закончится тихо-мирно. Однако инсайдеры WSJ утверждают, что руководство OpenAI обсуждало подачу антимонопольной жалобы на Microsoft.
Будем посмотреть, чем закончится.
#ии #статьи
С 2019 года Microsoft вложила в OpenAI $13 млрд. Однако сегодня OpenAI хочет ослабить контроль Microsoft над своими продуктами и вычислительными ресурсами, но при этом заручиться поддержкой техногиганта в вопросе преобразования в коммерческую компанию.
Одним из предметов конфликта стала покупка OpenAI стартапа Windsurf, который занимается вайб-кодингом, за $3 млрд. Microsoft по контракту имеет доступ ко всей интеллектуальной собственности OpenAI, но последняя хочет закрыть доступ к технологиям Windsurf. Также идет спор о доле Microsoft в новой структуре OpenAI после преобразования: техногигант требует больше, чем OpenAI готова отдать.
Кроме того, компании теперь конкурируют и на рынке потребительских чат-ботов, и в корпоративных решениях. Год назад CEO Microsoft Сатья Наделла нанял конкурента Сэма Альтмана, чтобы создать конкурирующие модели внутри компании.
Без одобрения преобразования от Microsoft OpenAI не сможет привлечь новые инвестиции, выйти на биржу и потеряет порядка $20 млрд.
Нам думается, что все закончится тихо-мирно. Однако инсайдеры WSJ утверждают, что руководство OpenAI обсуждало подачу антимонопольной жалобы на Microsoft.
Будем посмотреть, чем закончится.
#ии #статьи
🤔4👍3🤝2❤1
Бизнесу могут запретить создавать профайлы клиентов на базе персональных данных
Как пишут Ведомости, в России готовится законопроект, запрещающий автоматизированный профайлинг пользователей без отдельного согласия. Банки, маркетплейсы и телеком-компании больше не смогут собирать и анализировать данные из разных источников для персонализированного маркетинга, скоринга и таргетинга.
Все согласия на обработку должны будут проходить через ЕСИА или напрямую оператору. Изменения вносятся в статью 5 Федерального закона №152-ФЗ «О персональных данных».
Законопроект мотивирован борьбой с айти-мошенничеством: по данным МВД, в 2024 году зарегистрировано 380 300 преступлений, предусмотренных статьями 159, 159.3 и 159.6 УК РФ, что на 6,8% больше, чем в 2023 году. Ущерб составил ₽188 млрд — рост на 38%.
Минцифры утверждает, что цель инициативы — защита прав граждан и минимизация сбора данных.
Бизнес предупреждает: новые правила парализуют развитие технологий на основе данных. Компании уже вложили миллиарды в системы персонализации, и теперь они рискуют оказаться вне закона. Особенно сильно пострадают малые компании и стартапы, которым будет сложно соблюдать новые требования к администрированию и отчетности в ЕСИА.
Эксперты также отмечают, что в действующем законе уже запрещено объединять базы данных, обрабатываемые с несовместимыми целями. Новый запрет дублирует это положение, вводя дополнительные формулировки — «разные источники», «прогнозирование характеристик» — не определенные юридически, что создает риск правовой неясности.
Все это усложнит архитектуру сервисов, использующих машинное обучение, скоринг и таргетинг. Операторам придется пересматривать алгоритмы, наращивать юридическую и техническую нагрузку, а также отказываться от привычных моделей персонализации.
Предсказываем:
Сперва это выльется в дополнительные издержки для операторов данных и поставщиков услуг, а затем они переложат этот груз на плечи пользователей, повысив стоимость своих продуктов.
Если подумать, то пользователи из своего кармана заплатят за свою же безопасность. Это в лучшем случае.
#безопасность #статьи
Как пишут Ведомости, в России готовится законопроект, запрещающий автоматизированный профайлинг пользователей без отдельного согласия. Банки, маркетплейсы и телеком-компании больше не смогут собирать и анализировать данные из разных источников для персонализированного маркетинга, скоринга и таргетинга.
Все согласия на обработку должны будут проходить через ЕСИА или напрямую оператору. Изменения вносятся в статью 5 Федерального закона №152-ФЗ «О персональных данных».
Законопроект мотивирован борьбой с айти-мошенничеством: по данным МВД, в 2024 году зарегистрировано 380 300 преступлений, предусмотренных статьями 159, 159.3 и 159.6 УК РФ, что на 6,8% больше, чем в 2023 году. Ущерб составил ₽188 млрд — рост на 38%.
Минцифры утверждает, что цель инициативы — защита прав граждан и минимизация сбора данных.
Бизнес предупреждает: новые правила парализуют развитие технологий на основе данных. Компании уже вложили миллиарды в системы персонализации, и теперь они рискуют оказаться вне закона. Особенно сильно пострадают малые компании и стартапы, которым будет сложно соблюдать новые требования к администрированию и отчетности в ЕСИА.
Эксперты также отмечают, что в действующем законе уже запрещено объединять базы данных, обрабатываемые с несовместимыми целями. Новый запрет дублирует это положение, вводя дополнительные формулировки — «разные источники», «прогнозирование характеристик» — не определенные юридически, что создает риск правовой неясности.
Все это усложнит архитектуру сервисов, использующих машинное обучение, скоринг и таргетинг. Операторам придется пересматривать алгоритмы, наращивать юридическую и техническую нагрузку, а также отказываться от привычных моделей персонализации.
Предсказываем:
Сперва это выльется в дополнительные издержки для операторов данных и поставщиков услуг, а затем они переложат этот груз на плечи пользователей, повысив стоимость своих продуктов.
Если подумать, то пользователи из своего кармана заплатят за свою же безопасность. Это в лучшем случае.
#безопасность #статьи
👍3🔥3🤯2❤1
Китайцы используют чемоданы для обучения ИИ-моделей
И нет, в чемоданах не ввозят чипы. Как пишет WSJ, все куда интереснее.
В марте четверо китайских инженеров прилетели в Малайзию с чемоданами, в которых хранилось 80 терабайт данных — таблицы, изображения, видео для обучения искусственного интеллекта.
В Малайзии компания арендовала около 300 серверов с мощными чипами Nvidia, недоступными в Китае из-за санкций США. Задача: обучить ИИ-модель за границей и вернуться с результатами.
С 2022 года США все жестче ограничивают экспорт продвинутых ИИ-чипов в Китай. В ответ китайские компании ищут обходные пути.
Одни пытаются использовать местные чипы, другие — закупать американские компоненты через третьи страны. Но все чаще данные просто вывозят туда, где есть нужное оборудование — в Юго-Восточную Азию и на Ближний Восток.
Бывший замглавы Бюро экспортного контроля Томас Кендлер отмечает:
Для маскировки китайские компании создают дочерние структуры в Малайзии, регистрируют их на местных граждан, разбивают данные на несколько жестких дисков и провозят их в разных чемоданах, чтобы не вызвать подозрений на таможне.
Вернувшись в Китай, инженеры привозят обратно сотни гигабайт готовых параметров моделей.
Это становится новой нормой:
Малайзия, Сингапур, Индонезия и Таиланд переживают бум дата-центров. Только в марте и апреле Малайзия импортировала ИИ-чипов и процессоров из Тайваня на $3,4 млрд. Nvidia активно продает десятки тысяч чипов странам Персидского залива, включая Саудовскую Аравию и ОАЭ.
#ии #статьи
И нет, в чемоданах не ввозят чипы. Как пишет WSJ, все куда интереснее.
В марте четверо китайских инженеров прилетели в Малайзию с чемоданами, в которых хранилось 80 терабайт данных — таблицы, изображения, видео для обучения искусственного интеллекта.
В Малайзии компания арендовала около 300 серверов с мощными чипами Nvidia, недоступными в Китае из-за санкций США. Задача: обучить ИИ-модель за границей и вернуться с результатами.
С 2022 года США все жестче ограничивают экспорт продвинутых ИИ-чипов в Китай. В ответ китайские компании ищут обходные пути.
Одни пытаются использовать местные чипы, другие — закупать американские компоненты через третьи страны. Но все чаще данные просто вывозят туда, где есть нужное оборудование — в Юго-Восточную Азию и на Ближний Восток.
Бывший замглавы Бюро экспортного контроля Томас Кендлер отмечает:
Китай получает доступ к технологиям, не нарушая формально запретов, потому что физически не получает сами чипы.
Для маскировки китайские компании создают дочерние структуры в Малайзии, регистрируют их на местных граждан, разбивают данные на несколько жестких дисков и провозят их в разных чемоданах, чтобы не вызвать подозрений на таможне.
Вернувшись в Китай, инженеры привозят обратно сотни гигабайт готовых параметров моделей.
Это становится новой нормой:
Малайзия, Сингапур, Индонезия и Таиланд переживают бум дата-центров. Только в марте и апреле Малайзия импортировала ИИ-чипов и процессоров из Тайваня на $3,4 млрд. Nvidia активно продает десятки тысяч чипов странам Персидского залива, включая Саудовскую Аравию и ОАЭ.
#ии #статьи
👍6😁5❤2🔥2
Предвидим квоты для роботов в советах директоров
В Gartner выкатили прогнозы по развитию индустрии данных и аналитики на 2025–2029 годы. Отчет готовили специально к Gartner Data & Analytics Summit, так что он ориентирован на Chief Data Officers и Chief Data Analytics Officers.
Разберемся, что нам интересного напророчили.
1. ИИ-агенты будут принимать половину бизнес-решений
К 2027 году 50% решений в компаниях будут автоматизированы или поддержаны ИИ. Это ускорит процессы, повысит эффективность и снизит зависимость от интуиции. Но успех таких систем зависит от качества данных и продуманного управления — без этого получится знакомая рубрика с дурными советами.
2. ИИ-грамотные лидеры зарабатывают больше
Организации, где топ-менеджеры понимают возможности и ограничения ИИ, показывают на 20% лучшие финансовые результаты. Причина — в инвестициях и инициативах, а не в гонке за хайпом. Обучение руководства становится конкурентным преимуществом.
И отрыв будет расти.
3. Синтетические данные могут подорвать доверие к ИИ
К 2027 году 60% организаций столкнутся с провалами из-за некачественного управления синтетическими данными. Без понимания происхождения, структуры и метаданных модели будут ошибаться, нарушать нормы и дискредитировать сами себя.
Шишки сами себя не набьют.
4. Компании будут сами разрабатывать решения на базе генеративного ИИ
К 2028 году каждая третья компания выберет строить свои системы, а не использовать готовые. Это даст им больше контроля, экономию на дистанции и защиту от вендор-зависимости. Но потребует зрелых команд и существенных вложений в LLMOps-инфраструктуру.
5. Смысл важнее объема: семантика повышает точность моделей
К 2027 году организации, которые выстроят грамотное управление семантикой данных, получат до 80% роста точности ИИ-моделей и сократят вычислительные расходы на 60%. Четкая семантическая база уменьшает галлюцинации, оптимизирует потребление токенов и ускоряет выполнение задач.
6. Советы директоров начнут сверяться с ИИ
К 2029 году 10% советов директоров будут использовать ИИ-системы для проверки и корректировки стратегически важных решений, получая мнение со стороны в условиях высокой неопределенности.
Интересно, а как потом ответственность делить?
Кажется, наиболее ясно авторы видят будущее, где фокус сместится с «много данных» к «правильным данным»: семантика, структура, контекст — все это становится важнее объема.
Это прямо как у Ленина: лучше меньше, да лучше.
Опа! Мы поймали капиталистов на цитировании вождя мирового пролетариата.
В Gartner выкатили прогнозы по развитию индустрии данных и аналитики на 2025–2029 годы. Отчет готовили специально к Gartner Data & Analytics Summit, так что он ориентирован на Chief Data Officers и Chief Data Analytics Officers.
Разберемся, что нам интересного напророчили.
1. ИИ-агенты будут принимать половину бизнес-решений
К 2027 году 50% решений в компаниях будут автоматизированы или поддержаны ИИ. Это ускорит процессы, повысит эффективность и снизит зависимость от интуиции. Но успех таких систем зависит от качества данных и продуманного управления — без этого получится знакомая рубрика с дурными советами.
2. ИИ-грамотные лидеры зарабатывают больше
Организации, где топ-менеджеры понимают возможности и ограничения ИИ, показывают на 20% лучшие финансовые результаты. Причина — в инвестициях и инициативах, а не в гонке за хайпом. Обучение руководства становится конкурентным преимуществом.
И отрыв будет расти.
3. Синтетические данные могут подорвать доверие к ИИ
К 2027 году 60% организаций столкнутся с провалами из-за некачественного управления синтетическими данными. Без понимания происхождения, структуры и метаданных модели будут ошибаться, нарушать нормы и дискредитировать сами себя.
Шишки сами себя не набьют.
4. Компании будут сами разрабатывать решения на базе генеративного ИИ
К 2028 году каждая третья компания выберет строить свои системы, а не использовать готовые. Это даст им больше контроля, экономию на дистанции и защиту от вендор-зависимости. Но потребует зрелых команд и существенных вложений в LLMOps-инфраструктуру.
5. Смысл важнее объема: семантика повышает точность моделей
К 2027 году организации, которые выстроят грамотное управление семантикой данных, получат до 80% роста точности ИИ-моделей и сократят вычислительные расходы на 60%. Четкая семантическая база уменьшает галлюцинации, оптимизирует потребление токенов и ускоряет выполнение задач.
6. Советы директоров начнут сверяться с ИИ
К 2029 году 10% советов директоров будут использовать ИИ-системы для проверки и корректировки стратегически важных решений, получая мнение со стороны в условиях высокой неопределенности.
Интересно, а как потом ответственность делить?
Кажется, наиболее ясно авторы видят будущее, где фокус сместится с «много данных» к «правильным данным»: семантика, структура, контекст — все это становится важнее объема.
Это прямо как у Ленина: лучше меньше, да лучше.
Опа! Мы поймали капиталистов на цитировании вождя мирового пролетариата.
👍4🔥3❤2❤🔥2
Нейросети вовсе не уравнивают людей, а увеличивают расслоение
GitHub проводил контролируемый эксперимент: группа программистов с Copilot завершала задачи на 55 % быстрее, чем без него.
Но если вы не знаете, зачем именно нужен этот код, как его безопасно внедрить в архитектуру, и где могут быть уязвимости — вы не инженер, а оператор промптов. LLM отлично масштабируют знание. Но и незнание они масштабируют точно так же — только быстрее и дешевле.
В 2023 году сгенерированный код Copilot попал в продакшн и случайно открыл публичный доступ к логам, содержащим персональные данные.
Все из-за одной сгенерированной мелочи, которую никто не проверил.
Инженеры все чаще перестают писать руками. На Reddit многие признаются, что полностью поручили написание кода Claude. Он и баги даже сам правит.
Звучит круто — но это путь к утрате инженерной интуиции. Значит, качество и устойчивость решений снижаются.
Почему тогда растут зарплаты инженеров?
В 2018 году McKinsey прогнозировал, что спрос на технологические навыки вырастет на 55% за 12 лет. К 2030 году на эти навыки придется 17% всех рабочих часов на планете.
В марте стало ясно, что спрос на инженеров данных вырос на 50% только за прошедший год. Ну и зарплаты инженеров за 2018-2023 выросли на 25%.
Стоп. Но разве нейросети не отнимают у людей рабочие места?
Отнимают. Но не у всех.
Стремительно падает доля джунов на рынке. В Amazon и Dropbox, массово сокращая сотрудников в 2023-2024 годах, прямо говорили: «Теперь ту же работу делает меньше людей с помощью ИИ-инструментов».
Сеньоры, используя новые инструменты, становятся круче, а джуны — слабее.
Как теперь стать сеньором?
Бунтовать против ИИ из-за потери рабочих мест — это к луддитам, мы к этому не призываем.
Нейросети, кажется, сломали механизм взращивания кадров.
Беда в том, что оператор ИИ, заменивший джуна-разработчика, не набирается нужного опыта и не становится мидлом-разработчиком.
То, что джуны не получают работу — не так страшно, а вот то, что они не получают опыт — настоящая угроза.
Учиться теперь нельзя просто по дороге. Опыт больше не набирается пассивно. Учиться нужно проактивно, осмысленно, через рефлексию и обратную связь. Потому что ИИ забирает у новичков главный ресурс — время на ошибки.
#ии #статьи #исследования
GitHub проводил контролируемый эксперимент: группа программистов с Copilot завершала задачи на 55 % быстрее, чем без него.
Но если вы не знаете, зачем именно нужен этот код, как его безопасно внедрить в архитектуру, и где могут быть уязвимости — вы не инженер, а оператор промптов. LLM отлично масштабируют знание. Но и незнание они масштабируют точно так же — только быстрее и дешевле.
В 2023 году сгенерированный код Copilot попал в продакшн и случайно открыл публичный доступ к логам, содержащим персональные данные.
Все из-за одной сгенерированной мелочи, которую никто не проверил.
Инженеры все чаще перестают писать руками. На Reddit многие признаются, что полностью поручили написание кода Claude. Он и баги даже сам правит.
Звучит круто — но это путь к утрате инженерной интуиции. Значит, качество и устойчивость решений снижаются.
Почему тогда растут зарплаты инженеров?
В 2018 году McKinsey прогнозировал, что спрос на технологические навыки вырастет на 55% за 12 лет. К 2030 году на эти навыки придется 17% всех рабочих часов на планете.
В марте стало ясно, что спрос на инженеров данных вырос на 50% только за прошедший год. Ну и зарплаты инженеров за 2018-2023 выросли на 25%.
Стоп. Но разве нейросети не отнимают у людей рабочие места?
Отнимают. Но не у всех.
Стремительно падает доля джунов на рынке. В Amazon и Dropbox, массово сокращая сотрудников в 2023-2024 годах, прямо говорили: «Теперь ту же работу делает меньше людей с помощью ИИ-инструментов».
Сеньоры, используя новые инструменты, становятся круче, а джуны — слабее.
Как теперь стать сеньором?
Бунтовать против ИИ из-за потери рабочих мест — это к луддитам, мы к этому не призываем.
Нейросети, кажется, сломали механизм взращивания кадров.
Беда в том, что оператор ИИ, заменивший джуна-разработчика, не набирается нужного опыта и не становится мидлом-разработчиком.
То, что джуны не получают работу — не так страшно, а вот то, что они не получают опыт — настоящая угроза.
Учиться теперь нельзя просто по дороге. Опыт больше не набирается пассивно. Учиться нужно проактивно, осмысленно, через рефлексию и обратную связь. Потому что ИИ забирает у новичков главный ресурс — время на ошибки.
#ии #статьи #исследования
👍4🔥4❤🔥3
Пока они там у себя суетятся, мы тут уже монетизируем
В России работает уже более 130 отечественных ИИ-сервисов в разных сферах: от создания презентаций до оптимизации производственных цепочек.
В «Инке» представили карту российского генеративного ИИ — удобный каталог всех отечественных решений, уже меняющих бизнес-процессы. К карте прилагается детальный обзор.
Пока DeepSeek и OpenAI меряются бенчмарками и дерутся за глобальных пользователей, российские разработчики продуктов на базе искусственного интеллекта может только и рады.
Конкурировать за клиентов с мировыми гигантами не надо, ведь программа перехода на отечественное ПО создает достаточно спроса и на внутреннем рынке.
Парадоксально ярко цветут корпоративные решения: пока западные гиганты борются за создание универсального суперинтеллекта, российские разработчики уже монетизируют узкоспециализированные решения — от анализа звонков до генерации презентаций.
#ии #статьи
В России работает уже более 130 отечественных ИИ-сервисов в разных сферах: от создания презентаций до оптимизации производственных цепочек.
В «Инке» представили карту российского генеративного ИИ — удобный каталог всех отечественных решений, уже меняющих бизнес-процессы. К карте прилагается детальный обзор.
Пока DeepSeek и OpenAI меряются бенчмарками и дерутся за глобальных пользователей, российские разработчики продуктов на базе искусственного интеллекта может только и рады.
Конкурировать за клиентов с мировыми гигантами не надо, ведь программа перехода на отечественное ПО создает достаточно спроса и на внутреннем рынке.
Парадоксально ярко цветут корпоративные решения: пока западные гиганты борются за создание универсального суперинтеллекта, российские разработчики уже монетизируют узкоспециализированные решения — от анализа звонков до генерации презентаций.
#ии #статьи
👍5🔥4❤🔥3
Progres Post
Нейросети вовсе не уравнивают людей, а увеличивают расслоение GitHub проводил контролируемый эксперимент: группа программистов с Copilot завершала задачи на 55 % быстрее, чем без него. Но если вы не знаете, зачем именно нужен этот код, как его безопасно…
Если вы все-таки решили стать дата-инженером
Ну или если кто-то из ваших знакомых решил им стать, несмотря ни на что. Тогда обязательно сохраните и распространите: Data Engineer Handbook — ультимативно полезный репозиторий на Гитхабе для джунов и мидлов, которые хотят стать сеньорами.
Внутри:
- Понятный план обучения: какие скилы и инструменты осваивать, чтобы цениться на рынке труда.
- Видеокурс на 6 недель обо всем: от установки софта до отладки пайплайнов.
- Список литературы: главные мастриды для тех, у кого мало времени, и более 25 полезных книг, если хотите знать все.
- Ютуб-каналы, подкасты, блоги и рассылки: актуальные источники знаний, лайфхаков и приемов.
- Подборка профессиональных сообществ для дата-инженеров.
- Реальные проекты и задачи для закрепления знаний и опыта: ETL, пайплайны, стриминг, облако.
Репозиторий развивается и регулярно дополняется: 34000 звезд, 6600 форков и 120 контрибьютеров.
Смотрите на Гитхабе, советуйте коллегам и знакомым.
Ну или если кто-то из ваших знакомых решил им стать, несмотря ни на что. Тогда обязательно сохраните и распространите: Data Engineer Handbook — ультимативно полезный репозиторий на Гитхабе для джунов и мидлов, которые хотят стать сеньорами.
Внутри:
- Понятный план обучения: какие скилы и инструменты осваивать, чтобы цениться на рынке труда.
- Видеокурс на 6 недель обо всем: от установки софта до отладки пайплайнов.
- Список литературы: главные мастриды для тех, у кого мало времени, и более 25 полезных книг, если хотите знать все.
- Ютуб-каналы, подкасты, блоги и рассылки: актуальные источники знаний, лайфхаков и приемов.
- Подборка профессиональных сообществ для дата-инженеров.
- Реальные проекты и задачи для закрепления знаний и опыта: ETL, пайплайны, стриминг, облако.
Репозиторий развивается и регулярно дополняется: 34000 звезд, 6600 форков и 120 контрибьютеров.
Смотрите на Гитхабе, советуйте коллегам и знакомым.
👍7🔥5❤4
Вы уверены, что готовы довериться машине?
Сегодня многие мечтают называться data-driven. Это звучит современно, технологично, даже немного элитно — как будто вы уже в клубе тех, кто доверил принятие решений алгоритмам и теперь движется быстрее остальных.
На самом деле, data-driven — это не про моду. Это про зрелость. Это не стартовая точка, а финальная стадия развития, к которой ещё нужно дорасти.
Чтобы система принимала решения сама, она должна пройти длинный путь: собрать достаточно чистых данных, научиться извлекать закономерности, выдержать тест на устойчивость. Должны быть не только цифры, но и уверенность в том, что модель понимает происходящее не хуже, чем человек. В идеале — лучше.
Такой уровень достигается не сразу, а только после десятков и сотен итераций, наблюдений, ошибок, улучшений.
Data-driven в промышленности
В промышленности такой переход возможен уже сегодня. Там процессы стабильны: двигатель либо перегревается, либо нет. Станок либо вибрирует, либо работает в норме. Если система фиксирует отклонение, она может отключить оборудование без участия инженера.
Потому что она обучена, проверена, и последствия предсказуемы. Там, где цена ошибки известна и допустима, можно делегировать решение машине.
Data-informed в медицине
Теперь представим врача, который получает от ИИ диагноз на основе анализа МРТ. В большинстве случаев модель действительно права. И все же врач не просто соглашается, а анализирует, сопоставляет, взвешивает.
Потому что в медицине каждый случай может быть уникален. Потому что ИИ пока не умеет объяснять свои решения так, как это нужно человеку. Потому что врач — не просто исполнитель, а носитель контекста, который алгоритму недоступен. И потому что ошибка может стоить слишком дорого, а нейросеть не накажешь.
Можно ошибиться и с готовностью, и с неготовностью
Data-informed — это когда вы за рулем, и навигатор подсказывает: «Через 300 метров сверните направо», но вы знаете, что там вчера вечером коммунальщики разрыли яму, и едете другим путем.
Data-driven — это автопилот: машина сама рулит, зная и ямы, и пробки, и все засады гаишников. Это круто, но вы должны быть уверены, что она не ошибается. Проблема не столько в несовершенстве технологий и данных, сколько в доверии к ним.
Можно излишне доверять плохим данным и потерпеть фиаско. Или не доверять надежным данным и отстать в цифровой трансформации.
Быть data-informed — не значит не доверять данным. Это значит — не снимать с себя ответственность. И только когда выстроена инфраструктура, очищены данные, понятны метрики, описаны риски — только тогда можно всерьез говорить о переходе к data-driven. Не как о модной вывеске, а как о новой точке зрелости. И даже тогда — не везде, не во всем, не сразу.
Так что если вы сейчас совмещаете интуицию с аналитикой — вы не отстали. Вы на правильном этапе.
Сегодня многие мечтают называться data-driven. Это звучит современно, технологично, даже немного элитно — как будто вы уже в клубе тех, кто доверил принятие решений алгоритмам и теперь движется быстрее остальных.
На самом деле, data-driven — это не про моду. Это про зрелость. Это не стартовая точка, а финальная стадия развития, к которой ещё нужно дорасти.
Чтобы система принимала решения сама, она должна пройти длинный путь: собрать достаточно чистых данных, научиться извлекать закономерности, выдержать тест на устойчивость. Должны быть не только цифры, но и уверенность в том, что модель понимает происходящее не хуже, чем человек. В идеале — лучше.
Такой уровень достигается не сразу, а только после десятков и сотен итераций, наблюдений, ошибок, улучшений.
Data-driven в промышленности
В промышленности такой переход возможен уже сегодня. Там процессы стабильны: двигатель либо перегревается, либо нет. Станок либо вибрирует, либо работает в норме. Если система фиксирует отклонение, она может отключить оборудование без участия инженера.
Потому что она обучена, проверена, и последствия предсказуемы. Там, где цена ошибки известна и допустима, можно делегировать решение машине.
Data-informed в медицине
Теперь представим врача, который получает от ИИ диагноз на основе анализа МРТ. В большинстве случаев модель действительно права. И все же врач не просто соглашается, а анализирует, сопоставляет, взвешивает.
Потому что в медицине каждый случай может быть уникален. Потому что ИИ пока не умеет объяснять свои решения так, как это нужно человеку. Потому что врач — не просто исполнитель, а носитель контекста, который алгоритму недоступен. И потому что ошибка может стоить слишком дорого, а нейросеть не накажешь.
Можно ошибиться и с готовностью, и с неготовностью
Data-informed — это когда вы за рулем, и навигатор подсказывает: «Через 300 метров сверните направо», но вы знаете, что там вчера вечером коммунальщики разрыли яму, и едете другим путем.
Data-driven — это автопилот: машина сама рулит, зная и ямы, и пробки, и все засады гаишников. Это круто, но вы должны быть уверены, что она не ошибается. Проблема не столько в несовершенстве технологий и данных, сколько в доверии к ним.
Можно излишне доверять плохим данным и потерпеть фиаско. Или не доверять надежным данным и отстать в цифровой трансформации.
Быть data-informed — не значит не доверять данным. Это значит — не снимать с себя ответственность. И только когда выстроена инфраструктура, очищены данные, понятны метрики, описаны риски — только тогда можно всерьез говорить о переходе к data-driven. Не как о модной вывеске, а как о новой точке зрелости. И даже тогда — не везде, не во всем, не сразу.
Так что если вы сейчас совмещаете интуицию с аналитикой — вы не отстали. Вы на правильном этапе.
🔥6👍5❤3❤🔥2
Качественные ли Ваши данные?
У всех есть данные. У огромных организаций и индивидуальных предпринимателей, у больших начальников и маленьких детей. Только они разные, и масштаб проблем, если данные окажутся некачественными, разный.
Ребёнок может пропустить урок или уехать не туда, куда хотел, взрослый может попасть в неудобную ситуацию на работе, а организации могут потерять деньги, если у них будут плохие данные.
Всё больше времени уделяется этому направлению управления данными - качеству данных. Арина Шахтарина в своём канале Data Quality пишет о качестве данных, о разных подходах к пониманию, о его внедрении, о проверках и возможных подводных камнях и других нюансах работы с качеством данных. Делится полезными документами и разбирает книги, связанные с качеством данных.
Несколько интересных постов из канала:
➡️ Об окупаемости инвестиций в качество данных
➡️ Об обнаружении аномалий в данных
➡️ Рекомендации по работе с данными
Подписывайтесь на канал о качестве данных и пусть Ваши данные будут качественными!
У всех есть данные. У огромных организаций и индивидуальных предпринимателей, у больших начальников и маленьких детей. Только они разные, и масштаб проблем, если данные окажутся некачественными, разный.
Ребёнок может пропустить урок или уехать не туда, куда хотел, взрослый может попасть в неудобную ситуацию на работе, а организации могут потерять деньги, если у них будут плохие данные.
Всё больше времени уделяется этому направлению управления данными - качеству данных. Арина Шахтарина в своём канале Data Quality пишет о качестве данных, о разных подходах к пониманию, о его внедрении, о проверках и возможных подводных камнях и других нюансах работы с качеством данных. Делится полезными документами и разбирает книги, связанные с качеством данных.
Несколько интересных постов из канала:
Подписывайтесь на канал о качестве данных и пусть Ваши данные будут качественными!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤5👍4
OpenAI меняет свою структуру: что это значит и чем это грозит?
Сверху структура OpenAI как исследовательской лаборатории в 2015 году. Снизу примерная структура OpenAI на 2025 год.
Независимые исследователи опубликовали отчет об изменениях в OpenAI, в котором упрекают компанию в фокусе на выручке и снижении требований к безопасности ИИ-моделей.
Когда OpenAI создавалась в 2015 году, ее манифест звучал почти романтично: никакой погони за прибылью, только благо человечества. Некоммерческая миссия, кап на доходах инвесторов и обещание, что успех AGI не достанется узкой группе акционеров, а будет служить всем.
Сегодня все иначе. В 2025 году компания официально отказалась от ключевых принципов: снят потолок доходности для инвесторов, роль некоммерческого совета ослаблена, а сама структура переходит к Public Benefit Corporation — гибриду, который учитывает интересы общества, но все равно обязан заботиться о доходах акционеров.
Что это значит на практике?
- Инвесторы теперь смогут зарабатывать бесконечно много, а не в 100 раз больше вложенного.
- Некоммерческая часть больше не управляет компанией, а лишь назначает наблюдателей.
- Скорость разработки и коммерциализации ставится выше вопросов безопасности и этики, отмечают исследователи.
К чему это может привести?
- Усиление гонки вооружений на рынке ИИ: больше денег — быстрее разработки, но выше риск ошибок.
- Отчуждение от публичного интереса: не факт, что в будущем AGI принесет пользу всем, как было обещано.
- Снижение прозрачности: уже сейчас сотрудников принуждали к NDA под угрозой лишения доли, а требования к безопасности снижаются.
По сути, OpenAI повторяет путь многих стартапов Кремниевой долины: ради миссии вначале, а затем — ради прибыли. Это не обязательно плохо, но наивно полагать, что разработка AGI и дальше будет вестись только ради всеобщего блага.
Сейчас перед индустрией встает главный вопрос: кто должен контролировать технологии, которые потенциально могут изменить мир? Ответа пока нет.
#ии #безопасность #деньги #статьи
Сверху структура OpenAI как исследовательской лаборатории в 2015 году. Снизу примерная структура OpenAI на 2025 год.
Независимые исследователи опубликовали отчет об изменениях в OpenAI, в котором упрекают компанию в фокусе на выручке и снижении требований к безопасности ИИ-моделей.
Когда OpenAI создавалась в 2015 году, ее манифест звучал почти романтично: никакой погони за прибылью, только благо человечества. Некоммерческая миссия, кап на доходах инвесторов и обещание, что успех AGI не достанется узкой группе акционеров, а будет служить всем.
Сегодня все иначе. В 2025 году компания официально отказалась от ключевых принципов: снят потолок доходности для инвесторов, роль некоммерческого совета ослаблена, а сама структура переходит к Public Benefit Corporation — гибриду, который учитывает интересы общества, но все равно обязан заботиться о доходах акционеров.
Что это значит на практике?
- Инвесторы теперь смогут зарабатывать бесконечно много, а не в 100 раз больше вложенного.
- Некоммерческая часть больше не управляет компанией, а лишь назначает наблюдателей.
- Скорость разработки и коммерциализации ставится выше вопросов безопасности и этики, отмечают исследователи.
К чему это может привести?
- Усиление гонки вооружений на рынке ИИ: больше денег — быстрее разработки, но выше риск ошибок.
- Отчуждение от публичного интереса: не факт, что в будущем AGI принесет пользу всем, как было обещано.
- Снижение прозрачности: уже сейчас сотрудников принуждали к NDA под угрозой лишения доли, а требования к безопасности снижаются.
По сути, OpenAI повторяет путь многих стартапов Кремниевой долины: ради миссии вначале, а затем — ради прибыли. Это не обязательно плохо, но наивно полагать, что разработка AGI и дальше будет вестись только ради всеобщего блага.
Сейчас перед индустрией встает главный вопрос: кто должен контролировать технологии, которые потенциально могут изменить мир? Ответа пока нет.
#ии #безопасность #деньги #статьи
👍3🔥3❤🔥2❤1
Из каких профессий приходят Data Product Managers — и как сделать так, чтобы они приносили бизнесу ценность
Представьте ресторан с идеально оборудованной кухней: плиты сверкают, ножи наточены, продукты отобраны с педантичной тщательностью. Команда поваров отрабатывает каждый рецепт до совершенства. Но гости за столами остаются недовольны: кто-то так и не дождался блюда, кому-то не понравился вкус, а кто-то вообще ушел, не сделав заказ.
Так часто выглядит работа департамента данных. Вы вкладываете ресурсы в архитектуру, нанимаете сильных инженеров, строите отказоустойчивые системы, сокращаете задержки и повышаете производительность. Внутри все работает идеально. но бизнес жалуется, что данные не помогают, что отчеты готовятся неделями, что сегментация клиентов по-прежнему делается вручную.
Почему так происходит? Потому что роль Data Product Manager чаще всего достается тем, кто вырос из инженеров, архитекторов или аналитиков. Эти люди отлично разбираются в том, как данные устроены внутри: умеют строить пайплайны, оптимизировать запросы, развертывать хранилища. Они блестяще решают технические задачи, но редко слышат, что именно нужно гостям в зале.
Чтобы переломить эту ситуацию, стоит пересмотреть подход к подбору и развитию DPM. На собеседовании не достаточно спрашивать про архитектурные паттерны и знание API — важно понять, умеет ли кандидат разговаривать с бизнесом, выявлять приоритеты и объяснять свои решения понятным языком.
Хороший DPM не только знает, как устроена кухня, но и выходит в зал к гостям: общается с маркетингом, продажами, операциями, узнает, какие у них метрики успеха и какие данные им действительно нужны. Он умеет рассказывать истории про то, как его проект снизит отток клиентов или повысит прибыль, а не только про то, на сколько нодов уменьшится нагрузка.
Внутри команды важно закрепить за DPM понятные бизнес-метрики: скорость принятия решений, вовлеченность пользователей, возврат инвестиций. Полезно организовать регулярные встречи с ключевыми подразделениями, чтобы он слышал их боль и корректировал приоритеты. И конечно, поддерживайте развитие таких навыков: учите сторителлингу, объясняйте, как работают метрики компании, и помогайте формулировать ценность инициатив для руководства.
Сильный DPM — это не тот, кто превращает данные в красивые пайплайны, а тот, кто превращает их в ощутимую пользу для бизнеса. Такой человек соединяет кухню и зал ресторана и делает так, чтобы гости не только ушли сытыми, но и захотели вернуться снова.
Представьте ресторан с идеально оборудованной кухней: плиты сверкают, ножи наточены, продукты отобраны с педантичной тщательностью. Команда поваров отрабатывает каждый рецепт до совершенства. Но гости за столами остаются недовольны: кто-то так и не дождался блюда, кому-то не понравился вкус, а кто-то вообще ушел, не сделав заказ.
Так часто выглядит работа департамента данных. Вы вкладываете ресурсы в архитектуру, нанимаете сильных инженеров, строите отказоустойчивые системы, сокращаете задержки и повышаете производительность. Внутри все работает идеально. но бизнес жалуется, что данные не помогают, что отчеты готовятся неделями, что сегментация клиентов по-прежнему делается вручную.
Почему так происходит? Потому что роль Data Product Manager чаще всего достается тем, кто вырос из инженеров, архитекторов или аналитиков. Эти люди отлично разбираются в том, как данные устроены внутри: умеют строить пайплайны, оптимизировать запросы, развертывать хранилища. Они блестяще решают технические задачи, но редко слышат, что именно нужно гостям в зале.
Чтобы переломить эту ситуацию, стоит пересмотреть подход к подбору и развитию DPM. На собеседовании не достаточно спрашивать про архитектурные паттерны и знание API — важно понять, умеет ли кандидат разговаривать с бизнесом, выявлять приоритеты и объяснять свои решения понятным языком.
Хороший DPM не только знает, как устроена кухня, но и выходит в зал к гостям: общается с маркетингом, продажами, операциями, узнает, какие у них метрики успеха и какие данные им действительно нужны. Он умеет рассказывать истории про то, как его проект снизит отток клиентов или повысит прибыль, а не только про то, на сколько нодов уменьшится нагрузка.
Внутри команды важно закрепить за DPM понятные бизнес-метрики: скорость принятия решений, вовлеченность пользователей, возврат инвестиций. Полезно организовать регулярные встречи с ключевыми подразделениями, чтобы он слышал их боль и корректировал приоритеты. И конечно, поддерживайте развитие таких навыков: учите сторителлингу, объясняйте, как работают метрики компании, и помогайте формулировать ценность инициатив для руководства.
Сильный DPM — это не тот, кто превращает данные в красивые пайплайны, а тот, кто превращает их в ощутимую пользу для бизнеса. Такой человек соединяет кухню и зал ресторана и делает так, чтобы гости не только ушли сытыми, но и захотели вернуться снова.
👍4🔥3🆒3
Разыскиваете свежие тренды в аналитике, big data и AI? Подписывайтесь на Data Place — здесь собраны лучшие материалы для дата-аналитиков, инженеров, архитекторов и всех, кто работает с данными.
О чём пишут на канале:
— Глубокое обучение при помощи Spark и Hadoop: знакомство #Deeplearning4j
— Что нужно знать дата-саентисту? (на англ. языке)
— 26 принципов построения промптов для LLaMA-1/2, GPT-3.5/4
— Как стать дата-инженером? Подборка статей и список вопросов и ответов для прохождения интервью
Присоединяйтесь к Data Place и прокачивайте навыки работы с данными!
О чём пишут на канале:
— Глубокое обучение при помощи Spark и Hadoop: знакомство #Deeplearning4j
— Что нужно знать дата-саентисту? (на англ. языке)
— 26 принципов построения промптов для LLaMA-1/2, GPT-3.5/4
— Как стать дата-инженером? Подборка статей и список вопросов и ответов для прохождения интервью
Присоединяйтесь к Data Place и прокачивайте навыки работы с данными!
❤3👍3🔥2
Рассуждений от ИИ больше недостаточно, теперь нужны еще и объяснения
ИИ уже умеет принимать решения: кому выдать кредит, какой диагноз поставить, кого позвать на собеседование. И нередко делает это лучше человека. Еще 6 лет назад исследование Google и Nature Medicine показало, что их ИИ для скрининга рака легких на КТ добился 94% точности. Это выше, чем у среднего радиолога.
Но ключевая проблема в том, что эти решения остаются черным ящиком.
Что в черном ящике?
Нейросети выдают результат, но не объясняют, почему именно такой. В большинстве задач это приемлемо: например, в чат-ботах или системах рекомендаций.
В Евросоюзе вступает в силу The EU Artificial Intelligence Act, закон уровня регламента, как GDPR. В нем описывается категория ИИ с высоким риском, в которую попадают решения для медицины, финансов, судов, образования и так далее. В этих вопросах неприемлемо скрывать логику принятия решения в черном ящике.
Кстати, в GDPR уже сейчас есть пункт, согласно которому «субъект имеет право не подвергаться воздействию решения, основанного исключительно на автоматизированной обработке».
Поэтому набирает силу подход Explainable AI (XAI) — ИИ, который показывает не только результат, но и обоснование.
Как объяснения решают проблемы?
В здравоохранении это может быть тепловая карта поражённых участков снимка, в кредитовании — вес каждого критерия в решении о выдаче кредита. В отчете McKinsey говорится, что внедрение XAI в чувствительных областях повышает доверие пользователей на 30–50%, снижает число юридических претензий и улучшает качество моделей.
XAI также помогает выявлять системные ошибки и предвзятость. На Viso описан кейс банка, где модель отклоняла заявки женщин на кредит в два раза чаще, чем мужчин. Объяснимость позволила увидеть, что модель обучена на исторических данных с гендерным смещением, и исправить алгоритм.
XAI не убирает риск полностью, а сдвигает его на новый уровень — теперь разработчикам предстоит встраивать объяснения так, чтобы они соответствовали не только здравому смыслу, но и формальным требованиям.
ИИ уже достаточно зрел, чтобы принимать решения лучше человека. Но пока не созрели люди, чтобы слепо доверять машине. Задача не в том, чтобы сделать ИИ еще умнее, а в том, чтобы разработать понятные правила и механизмы доверия — так же, как врач доверяет клиническим рекомендациям Минздрава и несет ответственность в рамках рекомендаций.
Только тогда ИИ станет полноценным партнером, а не источником новых рисков.
#ии
ИИ уже умеет принимать решения: кому выдать кредит, какой диагноз поставить, кого позвать на собеседование. И нередко делает это лучше человека. Еще 6 лет назад исследование Google и Nature Medicine показало, что их ИИ для скрининга рака легких на КТ добился 94% точности. Это выше, чем у среднего радиолога.
Но ключевая проблема в том, что эти решения остаются черным ящиком.
Что в черном ящике?
Нейросети выдают результат, но не объясняют, почему именно такой. В большинстве задач это приемлемо: например, в чат-ботах или системах рекомендаций.
В Евросоюзе вступает в силу The EU Artificial Intelligence Act, закон уровня регламента, как GDPR. В нем описывается категория ИИ с высоким риском, в которую попадают решения для медицины, финансов, судов, образования и так далее. В этих вопросах неприемлемо скрывать логику принятия решения в черном ящике.
Кстати, в GDPR уже сейчас есть пункт, согласно которому «субъект имеет право не подвергаться воздействию решения, основанного исключительно на автоматизированной обработке».
Поэтому набирает силу подход Explainable AI (XAI) — ИИ, который показывает не только результат, но и обоснование.
Как объяснения решают проблемы?
В здравоохранении это может быть тепловая карта поражённых участков снимка, в кредитовании — вес каждого критерия в решении о выдаче кредита. В отчете McKinsey говорится, что внедрение XAI в чувствительных областях повышает доверие пользователей на 30–50%, снижает число юридических претензий и улучшает качество моделей.
XAI также помогает выявлять системные ошибки и предвзятость. На Viso описан кейс банка, где модель отклоняла заявки женщин на кредит в два раза чаще, чем мужчин. Объяснимость позволила увидеть, что модель обучена на исторических данных с гендерным смещением, и исправить алгоритм.
XAI не убирает риск полностью, а сдвигает его на новый уровень — теперь разработчикам предстоит встраивать объяснения так, чтобы они соответствовали не только здравому смыслу, но и формальным требованиям.
ИИ уже достаточно зрел, чтобы принимать решения лучше человека. Но пока не созрели люди, чтобы слепо доверять машине. Задача не в том, чтобы сделать ИИ еще умнее, а в том, чтобы разработать понятные правила и механизмы доверия — так же, как врач доверяет клиническим рекомендациям Минздрава и несет ответственность в рамках рекомендаций.
Только тогда ИИ станет полноценным партнером, а не источником новых рисков.
#ии
❤🔥4🔥3❤2
Сколько людей, на каких ролях и за какие деньги работают с данными в Revolut, Zoom, Notion и так далее
Сколько человек должно быть в дата-команде? На каких ролях? Каким стеком они должны владеть и сколько им надо платить?
На databenchmarks.com можно узнать, как с этим обстоят дела в крупных и крутых компаниях Европы и США:
- Размер дата-команды относительно всего штата компании.
- Состав команды: какой там процент аналитиков, инженеров, продактов, дата-сайентистов и так далее.
- Стек.
- Зарплаты.
Вероятно, данные по зарплатам не особо актуальны для России, ибо там данные по Европе и США, но в остальном информация полезная: можно сравнить свою дата-команду по составу с теми, которые работают над чем-то похожим в успешных компаниях.
#исследования
Сколько человек должно быть в дата-команде? На каких ролях? Каким стеком они должны владеть и сколько им надо платить?
На databenchmarks.com можно узнать, как с этим обстоят дела в крупных и крутых компаниях Европы и США:
- Размер дата-команды относительно всего штата компании.
- Состав команды: какой там процент аналитиков, инженеров, продактов, дата-сайентистов и так далее.
- Стек.
- Зарплаты.
Вероятно, данные по зарплатам не особо актуальны для России, ибо там данные по Европе и США, но в остальном информация полезная: можно сравнить свою дата-команду по составу с теми, которые работают над чем-то похожим в успешных компаниях.
#исследования
👍3🔥3❤2❤🔥1