Ротшильд, поражение Наполеона при Ватерлоо, коронавирус и работа с данными
Сегодня пост не про большие данные, а скорее про малые, но под большим контролем.
На Форбсе вышла статья про гейткипинг: термин описывает контроль доступа к данным, осуществляемый определенными людьми в своих интересах.
Разбираемся на примерах, что это такое и как работает.
Гейткипинг еще называют теорией привратника. Важнейшими объектами, подпадающими под определение гейткипинга, выступают СМИ, где привратники — это главные редакторы, пиарщики, продюсеры и журналисты. О влиянии на мир моды главного редактора Vogue Анны Винтур даже снимают фильмы.
Гейткипинг может быть как положительным, так и отрицательным механизмом.
Все зависит от контекста и мотива:
Ограничение доступа к порносайтам для несовершеннолетних или рецензирование научных статей — очевидно положительные механизмы.
Когда журналист освещает какой-то конфликт и дает возможность высказаться только одной из сторон — это, напротив, отрицательный гейткипинг.
Похоже на цензуру, но есть разница. Цензура всегда подразумевает насильственное или властное ограничение свободы слова, тогда как гейткипинг — более широкий понятийный инструментарий отбора, который не всегда преследует криминальные или антиобщественные цели.
Теперь к интересным историческим примерам.
По легенде, в июне 1815 года Натан Ротшильд, имея разветвленную сеть агентов и курьеров по всей Европе, первым получил сообщение о поражении Наполеона у Ватерлоо — якобы с помощью голубиной почты или особого гонца, прибывшего в Лондон раньше официальных депеш.
Узнав о поражении, он поспешно распродал британские гособлигации, спровоцировав панику на рынке и падение цен, а затем выкупил их по значительно сниженной стоимости: когда же новость об успехе англо-голландских войск была официально подтверждена, стоимость облигаций резко выросла, и Ротшильд заработал на этой операции целое состояние.
Есть и более свежий пример.
В июле 2021 года редакцию одного из самых авторитетных медицинских журналов The Lance обвинили в сокрытии важной информации о COVID-19: редакторы не сразу опубликовали данные о том, что коронавирус передается от человека к человеку.
С одной стороны, возможности привратников, которые решают, какие данные попадут к общественности, а какие нет, становятся скромнее. Из-за всепроникающих соцсетей и мессенджеров.
С другой стороны, мы вверяем полномочия другим привратникам — нейросетям, возможности которых, вероятно, превосходят возможности Ротшильда в начале 19 века.
#статьи
Сегодня пост не про большие данные, а скорее про малые, но под большим контролем.
На Форбсе вышла статья про гейткипинг: термин описывает контроль доступа к данным, осуществляемый определенными людьми в своих интересах.
Разбираемся на примерах, что это такое и как работает.
Гейткипинг еще называют теорией привратника. Важнейшими объектами, подпадающими под определение гейткипинга, выступают СМИ, где привратники — это главные редакторы, пиарщики, продюсеры и журналисты. О влиянии на мир моды главного редактора Vogue Анны Винтур даже снимают фильмы.
Гейткипинг может быть как положительным, так и отрицательным механизмом.
Все зависит от контекста и мотива:
Ограничение доступа к порносайтам для несовершеннолетних или рецензирование научных статей — очевидно положительные механизмы.
Когда журналист освещает какой-то конфликт и дает возможность высказаться только одной из сторон — это, напротив, отрицательный гейткипинг.
Похоже на цензуру, но есть разница. Цензура всегда подразумевает насильственное или властное ограничение свободы слова, тогда как гейткипинг — более широкий понятийный инструментарий отбора, который не всегда преследует криминальные или антиобщественные цели.
Теперь к интересным историческим примерам.
По легенде, в июне 1815 года Натан Ротшильд, имея разветвленную сеть агентов и курьеров по всей Европе, первым получил сообщение о поражении Наполеона у Ватерлоо — якобы с помощью голубиной почты или особого гонца, прибывшего в Лондон раньше официальных депеш.
Узнав о поражении, он поспешно распродал британские гособлигации, спровоцировав панику на рынке и падение цен, а затем выкупил их по значительно сниженной стоимости: когда же новость об успехе англо-голландских войск была официально подтверждена, стоимость облигаций резко выросла, и Ротшильд заработал на этой операции целое состояние.
Есть и более свежий пример.
В июле 2021 года редакцию одного из самых авторитетных медицинских журналов The Lance обвинили в сокрытии важной информации о COVID-19: редакторы не сразу опубликовали данные о том, что коронавирус передается от человека к человеку.
С одной стороны, возможности привратников, которые решают, какие данные попадут к общественности, а какие нет, становятся скромнее. Из-за всепроникающих соцсетей и мессенджеров.
С другой стороны, мы вверяем полномочия другим привратникам — нейросетям, возможности которых, вероятно, превосходят возможности Ротшильда в начале 19 века.
#статьи
👍4🔥4❤🔥3
Иногда персональные данные нужно раскрывать в упрощенном порядке
МТС и «Лиза Алерт» запускают сервис для поиска пропавших людей. С поисково-спасательным отрядом уже несколько лет сотрудничает Вымпелком, но даже при пропаже человека передавать геоданные по текущему законодательству довольно сложно.
Сервис будет бесплатно доступен абонентам МТС. Подключить его можно в приложении МТС в разделе «Защитник» или в «Семейной группе», при этом пользователю необходимо дать согласие на передачу данных о его местоположении и заряде мобильного устройства в поисково-спасательный отряд «Лиза Алерт» в случае возникновения чрезвычайной ситуации.
Данные будут передаваться автоматически сразу после поступления запроса от отряда «Лиза Алерт». Как пояснила глава МТС, сервис не будет нарушать существующее законодательство: данные будут передаваться через зашифрованный канал и интерфейс, которые были разработаны специально для работы с «Лиза Алерт».
#безопасность
МТС и «Лиза Алерт» запускают сервис для поиска пропавших людей. С поисково-спасательным отрядом уже несколько лет сотрудничает Вымпелком, но даже при пропаже человека передавать геоданные по текущему законодательству довольно сложно.
Сервис будет бесплатно доступен абонентам МТС. Подключить его можно в приложении МТС в разделе «Защитник» или в «Семейной группе», при этом пользователю необходимо дать согласие на передачу данных о его местоположении и заряде мобильного устройства в поисково-спасательный отряд «Лиза Алерт» в случае возникновения чрезвычайной ситуации.
Данные будут передаваться автоматически сразу после поступления запроса от отряда «Лиза Алерт». Как пояснила глава МТС, сервис не будет нарушать существующее законодательство: данные будут передаваться через зашифрованный канал и интерфейс, которые были разработаны специально для работы с «Лиза Алерт».
#безопасность
🔥5👍3 3🤗2❤🔥1
«Размер значения не имеет», — учил мастер Йода
Не нужны миллионы и орды аналитиков, чтобы стать data-driven. Маленький стартап с парой простых инструментов и вовлеченными сотрудниками моментально принимает решения на основе данных, тогда как в корпорации десятки хранилищ, несколько Data Lake и семь BI-систем лишь создают хаос, и инсайты тонут в бюрократии.
Разбираемся, почему так.
1. Гибкость против избыточности инструментов
В небольших командах хватит простой эксельки и одной BI-системы, чтобы быстро видеть метрики и проверять гипотезы. В крупных организациях же десяток хранилищ, несколько Data Lake и BI-платформ приводят к разрозненности данных и затягивают получение инсайтов.
2. Скорость принятия решений против бюрократии
Стартап может менять метрики на ходу и сразу внедрять выводы, тогда как в корпорации любое нововведение проходит длинный цикл согласований, и бизнес-пользователь теряет мотивацию ждать.
3. Прямая мотивация против формальных ролей
В маленькой компании аналитик тесно общается с командой и видит прямой эффект своего анализа. В большой — аналитики часто сидят в одном офисе, инженеры в другом, а бизнес-отдел вообще отдельно, из-за чего качество данных и фокус на нужных KPI размываются.
4. Простые процессы против формализация
В стартапе достаточно договориться о нескольких ключевых показателях и пройти цикл «гипотеза→сбор данных→проверка→действие». В корпорации же для каждого дашборда нужен регламент, аудит качества данных и долгие согласования, из-за чего процессы превращаются в тяжеловесную машину.
Разбираемся, как быть.
Попробовать 3P-Framework.
В компании любого размера зрелая data-driven культура стоит на трехслонах столпах:
1. People
Важно, чтобы сотрудники понимали ценность данных и могли сами формулировать бизнес-вопросы, задавать гипотезы и проверять их.
2. Platform
Инструменты должны быть удобными и доступными: одна BI-система, понятные дашборды, минимальное количество промежуточных слоев и четко выстроенное хранилище.
3. Process
Легкая, гибкая методология превращает данные в инсайты: регулярные ретроспективы, хакатоны, интеграция аналитиков в поля, временная посадка внутри бизнес-команд, открытые каналы коммуникации.
Да пребудет с вами сила.
#аналитика
Не нужны миллионы и орды аналитиков, чтобы стать data-driven. Маленький стартап с парой простых инструментов и вовлеченными сотрудниками моментально принимает решения на основе данных, тогда как в корпорации десятки хранилищ, несколько Data Lake и семь BI-систем лишь создают хаос, и инсайты тонут в бюрократии.
Разбираемся, почему так.
1. Гибкость против избыточности инструментов
В небольших командах хватит простой эксельки и одной BI-системы, чтобы быстро видеть метрики и проверять гипотезы. В крупных организациях же десяток хранилищ, несколько Data Lake и BI-платформ приводят к разрозненности данных и затягивают получение инсайтов.
2. Скорость принятия решений против бюрократии
Стартап может менять метрики на ходу и сразу внедрять выводы, тогда как в корпорации любое нововведение проходит длинный цикл согласований, и бизнес-пользователь теряет мотивацию ждать.
3. Прямая мотивация против формальных ролей
В маленькой компании аналитик тесно общается с командой и видит прямой эффект своего анализа. В большой — аналитики часто сидят в одном офисе, инженеры в другом, а бизнес-отдел вообще отдельно, из-за чего качество данных и фокус на нужных KPI размываются.
4. Простые процессы против формализация
В стартапе достаточно договориться о нескольких ключевых показателях и пройти цикл «гипотеза→сбор данных→проверка→действие». В корпорации же для каждого дашборда нужен регламент, аудит качества данных и долгие согласования, из-за чего процессы превращаются в тяжеловесную машину.
Разбираемся, как быть.
Попробовать 3P-Framework.
В компании любого размера зрелая data-driven культура стоит на трех
1. People
Важно, чтобы сотрудники понимали ценность данных и могли сами формулировать бизнес-вопросы, задавать гипотезы и проверять их.
2. Platform
Инструменты должны быть удобными и доступными: одна BI-система, понятные дашборды, минимальное количество промежуточных слоев и четко выстроенное хранилище.
3. Process
Легкая, гибкая методология превращает данные в инсайты: регулярные ретроспективы, хакатоны, интеграция аналитиков в поля, временная посадка внутри бизнес-команд, открытые каналы коммуникации.
Да пребудет с вами сила.
#аналитика
👍4 3❤🔥2🔥2
Кто и зачем запускает ЦОД к Луне
В феврале Lonestar Data Holdings вместе с Phison и Intuitive Machines отправила на Луну устройство Freedom на посадочном модуле IM-2 Athena, запущенном ракетой Falcon 9 SpaceX.
Freedom — петабайтный ЦОД на SSD, защищенный 3D-печатным корпусом, способный работать в условиях космоса: корпус обеспечивает естественное охлаждение, а солнечные панели — питание. Внутри — SSD Phison и FPGA Microchip PolarFire для базовых задач шифрования и передачи данных.
Цель миссии — проверить надежность SSD и вычислительной платформы в транслунном пространстве.
В течение пятидневного полета Lonestar тестировала прием, отправку и шифрование файлов для клиентов (госструктур, ИИ-стартапов, развлекательных компаний), доказав работоспособность RISC-V процессора и кастомной Linux-сборки. Отсутствие атмосферы и стабильный доступ к солнечной энергии показали эффективность радиационного охлаждения без сложных систем термоменеджмента.
Коммерческая цель — создать премиальное решение для аварийного восстановления.
Хранение критичных данных на Луне исключает риски земных катастроф (ураганы, землетрясения), а edge-вычисления на узле снижают задержки и повышают безопасность для финансовых и оборонных систем. Инвесторы (Scout Ventures, 2 Future Holdings, Seldor Capital) вложили около $10 млн, рассчитывая на спрос крупных корпоративных и правительственных клиентов.
Хотя старты и тесты в CisLunar Space прошли успешно, при мягкой посадке 6 марта 2025 года Athena перевернулась из-за тонкой конструкции шасси и сильного похолодания, что вывело Freedom из строя.
Тем не менее миссия доказала, что SSD Phison с RISC-V и FPGA способны работать в космосе. Lonestar планирует запустить первую серию лунных орбитальных ЦОДов в 2027 году, продолжая развивать технологии хранения и обработки данных вне Земли.
#безопасность
В феврале Lonestar Data Holdings вместе с Phison и Intuitive Machines отправила на Луну устройство Freedom на посадочном модуле IM-2 Athena, запущенном ракетой Falcon 9 SpaceX.
Freedom — петабайтный ЦОД на SSD, защищенный 3D-печатным корпусом, способный работать в условиях космоса: корпус обеспечивает естественное охлаждение, а солнечные панели — питание. Внутри — SSD Phison и FPGA Microchip PolarFire для базовых задач шифрования и передачи данных.
Цель миссии — проверить надежность SSD и вычислительной платформы в транслунном пространстве.
В течение пятидневного полета Lonestar тестировала прием, отправку и шифрование файлов для клиентов (госструктур, ИИ-стартапов, развлекательных компаний), доказав работоспособность RISC-V процессора и кастомной Linux-сборки. Отсутствие атмосферы и стабильный доступ к солнечной энергии показали эффективность радиационного охлаждения без сложных систем термоменеджмента.
Коммерческая цель — создать премиальное решение для аварийного восстановления.
Хранение критичных данных на Луне исключает риски земных катастроф (ураганы, землетрясения), а edge-вычисления на узле снижают задержки и повышают безопасность для финансовых и оборонных систем. Инвесторы (Scout Ventures, 2 Future Holdings, Seldor Capital) вложили около $10 млн, рассчитывая на спрос крупных корпоративных и правительственных клиентов.
Хотя старты и тесты в CisLunar Space прошли успешно, при мягкой посадке 6 марта 2025 года Athena перевернулась из-за тонкой конструкции шасси и сильного похолодания, что вывело Freedom из строя.
Тем не менее миссия доказала, что SSD Phison с RISC-V и FPGA способны работать в космосе. Lonestar планирует запустить первую серию лунных орбитальных ЦОДов в 2027 году, продолжая развивать технологии хранения и обработки данных вне Земли.
#безопасность
2🔥4 3❤🔥2👌2
Большие данные умирают
Вот и мы тоже не смогли пройти мимо заголовка статьи Is Big Data Dying?
Разумеется, большие данные переживают не гибель самого понятия, а устаревание традиционных технологий и подходов.
В статье авторы разбирают историю эволюции больших данных и делают прогнозы.
История делится на три этапа:
Этап 1 (классический Hadoop + Lambda)
- Архитектуру составляли более 30 компонентов, требовавших команды из 50+ специалистов.
- Постоянные конфликты данных: единственный способ исправить ошибку — удаление и полная перезапись раздела.
- Хранение дублировавшихся данных приводило к росту расходов.
- Любой слепой SQL-запрос без фильтрации по партиции мог потопить всю систему.
- При объемах в несколько миллиардов записей в день производительность падала, а платформа оказывалась крайне ненадежной.
Этап 2 (Data Lake и Lakehouse)
- С новыми форматами Iceberg и Delta Lake число компонентов и количество людей в командах сократилось до 10.
- Появилась транзакционная поддержка, единые метаданные и единое хранилище, что упростило процессы компактирования версий и Z-order оптимизации.
- SQL-запросы стали маршрутизироваться по разным движкам в зависимости от задач.
- Максимальный размер таблицы ~10 млрд строк, число таблиц — до 10 000.
- Даже с этими улучшениями для триллионной шкалы данных все еще требовались большие инженерные ресурсы, а архитектура оставалась сложной.
Этап 3 (облачные платформы pay-as-you-go)
- Решения вроде Snowflake и Databend позволяют выполнять SQL-запросы напрямую к файлам в S3 (CSV, Parquet, ORC) без подготовки Spark-файлов.
- ETL-инженеры, ранее тратившие дни на загрузку и трансформацию, теперь справляются за полчаса.
- Потоковая и пакетная обработки полностью интегрированы, возможность запускать UDF-задачи на Python заменяет десятки кластеров Flink.
Последствия перехода
В результате перехода на облачные платформы классическая роль Data Mover фактически исчезает: задачи, ранее занимавшие дни у крупных команд инженеров, теперь выполняются автоматически в рамках облачного сервиса.
Вместо специалистов по DWH, чья основная функция заключалась в настройке и поддержке сложных пайплайнов, появляются новые профессии:
- Инженеры, работающие с лоукод-инструментами для подготовки данных.
- Специалисты по интеграции и визуализации.
- Бизнес-аналитики, использующие Text2SQL.
- Разработчики умных систем, фокусирующиеся на генерации ценности, а не на сложных пайплайнах.
Вместо инженеров широкого профиля становятся востребованы узкие специалисты с глубокими знаниями лоукод-платформ, UDF-функций и внутренних принципов новых хранилищ.
#аналитика #статьи
Вот и мы тоже не смогли пройти мимо заголовка статьи Is Big Data Dying?
Разумеется, большие данные переживают не гибель самого понятия, а устаревание традиционных технологий и подходов.
В статье авторы разбирают историю эволюции больших данных и делают прогнозы.
История делится на три этапа:
Этап 1 (классический Hadoop + Lambda)
- Архитектуру составляли более 30 компонентов, требовавших команды из 50+ специалистов.
- Постоянные конфликты данных: единственный способ исправить ошибку — удаление и полная перезапись раздела.
- Хранение дублировавшихся данных приводило к росту расходов.
- Любой слепой SQL-запрос без фильтрации по партиции мог потопить всю систему.
- При объемах в несколько миллиардов записей в день производительность падала, а платформа оказывалась крайне ненадежной.
Этап 2 (Data Lake и Lakehouse)
- С новыми форматами Iceberg и Delta Lake число компонентов и количество людей в командах сократилось до 10.
- Появилась транзакционная поддержка, единые метаданные и единое хранилище, что упростило процессы компактирования версий и Z-order оптимизации.
- SQL-запросы стали маршрутизироваться по разным движкам в зависимости от задач.
- Максимальный размер таблицы ~10 млрд строк, число таблиц — до 10 000.
- Даже с этими улучшениями для триллионной шкалы данных все еще требовались большие инженерные ресурсы, а архитектура оставалась сложной.
Этап 3 (облачные платформы pay-as-you-go)
- Решения вроде Snowflake и Databend позволяют выполнять SQL-запросы напрямую к файлам в S3 (CSV, Parquet, ORC) без подготовки Spark-файлов.
- ETL-инженеры, ранее тратившие дни на загрузку и трансформацию, теперь справляются за полчаса.
- Потоковая и пакетная обработки полностью интегрированы, возможность запускать UDF-задачи на Python заменяет десятки кластеров Flink.
Последствия перехода
В результате перехода на облачные платформы классическая роль Data Mover фактически исчезает: задачи, ранее занимавшие дни у крупных команд инженеров, теперь выполняются автоматически в рамках облачного сервиса.
Вместо специалистов по DWH, чья основная функция заключалась в настройке и поддержке сложных пайплайнов, появляются новые профессии:
- Инженеры, работающие с лоукод-инструментами для подготовки данных.
- Специалисты по интеграции и визуализации.
- Бизнес-аналитики, использующие Text2SQL.
- Разработчики умных систем, фокусирующиеся на генерации ценности, а не на сложных пайплайнах.
Вместо инженеров широкого профиля становятся востребованы узкие специалисты с глубокими знаниями лоукод-платформ, UDF-функций и внутренних принципов новых хранилищ.
#аналитика #статьи
👍7❤🔥3🔥3
Data Platform Fundamentals.pdf
4 MB
В Dagster опубликовали пошаговое руководство по созданию и эксплуатации современных дата-платформ
Рассказываем, кому будет полезно и зачем читать.
Владельцы и менеджеры дата-платформ
- Понять, зачем нужна контрольная плоскость для централизованной оркестрации и наблюдаемости, позволяющая собирать метаданные и метрики со всех пайплайнов и быстро реагировать на инциденты.
- Освоить принципы модульности и расширяемости, чтобы строить платформу, которая масштабируется вместе с бизнесом без дорогостоящих переработок.
- Сравнить основные подходы: классический ETL, ELT, Lakehouse, event-driven и понять, когда эволюционировать от MVP-решения (например, S3 + MySQL + Stitch/Sling + Dagster + dbt + Snowflake) к полноценной архитектуре на базе BigQuery, Redshift, Spark/EMR, AWS Lambda.
Инженеры и архитекторы данных
- Узнать три паттерна пайплайнов: push, pull и poll, и обеспечить идемпотентность задач, чтобы при повторных запусках не возникало дублирования или рассинхронов.
- Разобраться в медальонной архитектуре с уровнями Bronze (raw), Silver (cleaned) и Gold (consumer-ready), выбрать подходящий формат хранения (Parquet, Delta, Iceberg, Hudi) и понять, как разделять слой чтения и записи для устойчивости к изменениям в источниках.
- Изучить шесть измерений качества данных: своевременность, полнота, точность, валидность, уникальность и согласованность, а также настроить автоматические проверки с помощью Great Expectations, Soda, Deequ, встроенных проверок в Dagster или тестов в dbt, чтобы грязные данные никогда не попали в аналитику.
Аналитики данных и BI-разработчики
- Понять, зачем разделять слои Bronze, Silver и Gold и как это влияет на SLA и качество витрин: Silver-слой дает вычищенные данные для быстрой аналитики, Gold-слой — готовые отчеты для потребителей.
- Освоить базовый словарь: контрольная плоскость, наблюдаемость, каталог, чтобы эффективнее взаимодействовать с инженерами данных, задавать конкретные требования по скорости, надежности и доступности данных.
Дата-сайентисты и ML-инженеры
- Узнать, как строить экспериментальные пайплайны воспроизводимыми, чтобы гарантировать стабильность обучающих выборок и повторяемость экспериментов.
- Понять, зачем нужна медальонная архитектура для организации feature-store и обеспечения качества данных в ML, а также как интегрировать свои пайплайны в общую платформу с помощью Dagster, dbt и контроля версий.
DevOps и SRE
- Ознакомиться с подходами к мониторингу, логированию и самовосстановлению в рамках оркестраторов Dagster и Airflow, чтобы обеспечить бесперебойную работу пайплайнов.
- Понять, как контрольная плоскость помогает централизованно управлять инцидентами и метриками платформы (латентность, пропускная способность, процент успешных запусков), что важно для поддержания SLA и своевременного реагирования.
Делитесь с друзьями и коллегами, подходящими под описание.
Рассказываем, кому будет полезно и зачем читать.
Владельцы и менеджеры дата-платформ
- Понять, зачем нужна контрольная плоскость для централизованной оркестрации и наблюдаемости, позволяющая собирать метаданные и метрики со всех пайплайнов и быстро реагировать на инциденты.
- Освоить принципы модульности и расширяемости, чтобы строить платформу, которая масштабируется вместе с бизнесом без дорогостоящих переработок.
- Сравнить основные подходы: классический ETL, ELT, Lakehouse, event-driven и понять, когда эволюционировать от MVP-решения (например, S3 + MySQL + Stitch/Sling + Dagster + dbt + Snowflake) к полноценной архитектуре на базе BigQuery, Redshift, Spark/EMR, AWS Lambda.
Инженеры и архитекторы данных
- Узнать три паттерна пайплайнов: push, pull и poll, и обеспечить идемпотентность задач, чтобы при повторных запусках не возникало дублирования или рассинхронов.
- Разобраться в медальонной архитектуре с уровнями Bronze (raw), Silver (cleaned) и Gold (consumer-ready), выбрать подходящий формат хранения (Parquet, Delta, Iceberg, Hudi) и понять, как разделять слой чтения и записи для устойчивости к изменениям в источниках.
- Изучить шесть измерений качества данных: своевременность, полнота, точность, валидность, уникальность и согласованность, а также настроить автоматические проверки с помощью Great Expectations, Soda, Deequ, встроенных проверок в Dagster или тестов в dbt, чтобы грязные данные никогда не попали в аналитику.
Аналитики данных и BI-разработчики
- Понять, зачем разделять слои Bronze, Silver и Gold и как это влияет на SLA и качество витрин: Silver-слой дает вычищенные данные для быстрой аналитики, Gold-слой — готовые отчеты для потребителей.
- Освоить базовый словарь: контрольная плоскость, наблюдаемость, каталог, чтобы эффективнее взаимодействовать с инженерами данных, задавать конкретные требования по скорости, надежности и доступности данных.
Дата-сайентисты и ML-инженеры
- Узнать, как строить экспериментальные пайплайны воспроизводимыми, чтобы гарантировать стабильность обучающих выборок и повторяемость экспериментов.
- Понять, зачем нужна медальонная архитектура для организации feature-store и обеспечения качества данных в ML, а также как интегрировать свои пайплайны в общую платформу с помощью Dagster, dbt и контроля версий.
DevOps и SRE
- Ознакомиться с подходами к мониторингу, логированию и самовосстановлению в рамках оркестраторов Dagster и Airflow, чтобы обеспечить бесперебойную работу пайплайнов.
- Понять, как контрольная плоскость помогает централизованно управлять инцидентами и метриками платформы (латентность, пропускная способность, процент успешных запусков), что важно для поддержания SLA и своевременного реагирования.
Делитесь с друзьями и коллегами, подходящими под описание.
❤🔥3🙏3👍2🔥2
Сколько зарабатывают на больших данных в крупной промышленности
В Ведомостях пишут, что в 2023 году крупные промышленные компании увеличили инвестиции в большие данные и аналитику до 23% от операционного бюджета, а в 2024 году — до 30%.
Потому что увидели эффект:
При работе с большими данными расходы на производство и логистику сокращаются на 15-30%, еще на 30% сокращаются простои техники.
В нефтянке от внедрения технологии маржа увеличивается на 1-2%: в России это дало бы ₽100 млрд для Роснефти и ₽320 млрд для всей отрасли в год.
Где клад зарыт
Недавно компания De Beers, которая добывает алмазы в Ботсване уже 54 года, сократила время на разведку месторождений на 40% за счет анализа спутниковых данных.
Предположим, что затраты на разведку пропорциональны их продолжительности. Тогда в De Beers экономят $20 млн в год. Почти столько же могли бы экономить и в Алросе — $19 млн, то есть ₽1,5 млрд.
Кто не работает, тот ест
В грузовом парке горнодобывающей компании Anglo American внедрили прогнозное техническое обслуживание на основе анализа данных и искусственного интеллекта. Это сократило внеплановые простои на 30%.
Если до внедрения компания теряла до 1200 часов на простоях в год, то после обкатки технологии начала экономить до $45 млн ежегодно.
А у нас в квартире газ
По данным IDC и РАЭК, рынок больших данных в России растет на 15-25% в год, а в промышленности — аж на 30%.
Так что с внедрением больших данных и аналитики, включая цифровых двойников, у нас все хорошо.
Самые популярные кейсы в промышленности связаны с прогнозом ремонта оборудования. Это потенциально снижает затраты на ремонт от 15 до 30%.
Пофантазируем немного.
Если завтра на всех российских предприятиях внедрят системы предикативного обслуживания станков и техники, то суммарно сэкономят более ₽7 трлн за год.
#деньги #статьи
В Ведомостях пишут, что в 2023 году крупные промышленные компании увеличили инвестиции в большие данные и аналитику до 23% от операционного бюджета, а в 2024 году — до 30%.
Потому что увидели эффект:
При работе с большими данными расходы на производство и логистику сокращаются на 15-30%, еще на 30% сокращаются простои техники.
В нефтянке от внедрения технологии маржа увеличивается на 1-2%: в России это дало бы ₽100 млрд для Роснефти и ₽320 млрд для всей отрасли в год.
Где клад зарыт
Недавно компания De Beers, которая добывает алмазы в Ботсване уже 54 года, сократила время на разведку месторождений на 40% за счет анализа спутниковых данных.
Предположим, что затраты на разведку пропорциональны их продолжительности. Тогда в De Beers экономят $20 млн в год. Почти столько же могли бы экономить и в Алросе — $19 млн, то есть ₽1,5 млрд.
Кто не работает, тот ест
В грузовом парке горнодобывающей компании Anglo American внедрили прогнозное техническое обслуживание на основе анализа данных и искусственного интеллекта. Это сократило внеплановые простои на 30%.
Если до внедрения компания теряла до 1200 часов на простоях в год, то после обкатки технологии начала экономить до $45 млн ежегодно.
А у нас в квартире газ
По данным IDC и РАЭК, рынок больших данных в России растет на 15-25% в год, а в промышленности — аж на 30%.
Так что с внедрением больших данных и аналитики, включая цифровых двойников, у нас все хорошо.
Самые популярные кейсы в промышленности связаны с прогнозом ремонта оборудования. Это потенциально снижает затраты на ремонт от 15 до 30%.
Пофантазируем немного.
Если завтра на всех российских предприятиях внедрят системы предикативного обслуживания станков и техники, то суммарно сэкономят более ₽7 трлн за год.
#деньги #статьи
👍6❤3🔥3
Разработчики ИИ тратят миллионы на лоббирование своих интересов в США
OpenAI и Anthropic, традиционно позиционировавшиеся как осторожные исследовательские центры, в последние месяцы стали активно расширять присутствие в Вашингтоне, нанимая новых сотрудников и наращивая расходы на лоббизм.
Федеральный бюджет США на айти-сектор составляет около $75 млрд, значительная часть которого теперь направлена на проекты, связанные с ИИ.
Главный инструмент лоббистов — страшилка о том, что если правительство США сейчас же не направит миллиарды долларов на развитие ИИ-отрасли, то китайцы начнут доминировать в этой сфере.
Это резонно. И это работает: администрация Трампа и Конгресс рассматривают ИИ прежде всего как стратегический инструмент в гонке технологий с Китаем. Палата представителей уже приняла положение о десятилетнем моратории на ужесточение законов об ИИ на уровне штатов и местных органов власти.
В некоторых источниках пишут, что уже сегодня ИИ-компании лоббируют больше, чем нефтяные и табачные корпорации.
Нам думается, что именно и только благодаря лоббистам на американском рынке искусственного интеллекта все еще не так плотно закручены гайки регулирования. При этом госзаказы уже стали многомиллиардными.
Пока лоббисты выбивают настолько большие подряды, защита пользовательских данных и сомнительные социальные эффекты от распространения ИИ не так сильно беспокоят законотворцев.
#аналитика #ии #статьи
OpenAI и Anthropic, традиционно позиционировавшиеся как осторожные исследовательские центры, в последние месяцы стали активно расширять присутствие в Вашингтоне, нанимая новых сотрудников и наращивая расходы на лоббизм.
Федеральный бюджет США на айти-сектор составляет около $75 млрд, значительная часть которого теперь направлена на проекты, связанные с ИИ.
Главный инструмент лоббистов — страшилка о том, что если правительство США сейчас же не направит миллиарды долларов на развитие ИИ-отрасли, то китайцы начнут доминировать в этой сфере.
Это резонно. И это работает: администрация Трампа и Конгресс рассматривают ИИ прежде всего как стратегический инструмент в гонке технологий с Китаем. Палата представителей уже приняла положение о десятилетнем моратории на ужесточение законов об ИИ на уровне штатов и местных органов власти.
В некоторых источниках пишут, что уже сегодня ИИ-компании лоббируют больше, чем нефтяные и табачные корпорации.
Нам думается, что именно и только благодаря лоббистам на американском рынке искусственного интеллекта все еще не так плотно закручены гайки регулирования. При этом госзаказы уже стали многомиллиардными.
Пока лоббисты выбивают настолько большие подряды, защита пользовательских данных и сомнительные социальные эффекты от распространения ИИ не так сильно беспокоят законотворцев.
#аналитика #ии #статьи
👍4❤3❤🔥2🔥2
13% спартанцев
По данным Суперджоб, 13% учителей постоянно сталкиваются с заданиями, выполненными с помощью ИИ, и пытаются бороться с этим.
Проникновение ИИ в школы неотвратимо. Вряди ли с этим стоит бороться в прямом смысле слова. Скорее нужно адаптироваться самой школьной программе и методикам. Потому что запретить ИИ не получится.
23% родителей учеников 5-6 классов точно знают, что их ребенок обращается за решениями к ИИ. Среди родителей обучающихся 7-9 классов каждый третий знает, что ребенок выполняет домашнюю работу с помощью нейросетей, а среди родителей старшеклассников — почти каждый второй.
29% учителей пока не знают, как предотвратить бездумное использование учащимися генеративных моделей при выполнении домашних работ. Наверное, это самая адекватная когорта, ибо признание проблемы — уже половина решения.
Еще 30% заявили, что еще не сталкивались с такими ситуациями. Им либо жутко повезло, либо их компетенций недостаточно, чтобы распознать домашку, написанную искусственным интеллектом.
Поддерживаем депутата Госдумы Екатерину Харченко, которая выступает за то, чтобы разрешить школьникам пользоваться нейросетями:
#ии #исследования
По данным Суперджоб, 13% учителей постоянно сталкиваются с заданиями, выполненными с помощью ИИ, и пытаются бороться с этим.
Проникновение ИИ в школы неотвратимо. Вряди ли с этим стоит бороться в прямом смысле слова. Скорее нужно адаптироваться самой школьной программе и методикам. Потому что запретить ИИ не получится.
23% родителей учеников 5-6 классов точно знают, что их ребенок обращается за решениями к ИИ. Среди родителей обучающихся 7-9 классов каждый третий знает, что ребенок выполняет домашнюю работу с помощью нейросетей, а среди родителей старшеклассников — почти каждый второй.
29% учителей пока не знают, как предотвратить бездумное использование учащимися генеративных моделей при выполнении домашних работ. Наверное, это самая адекватная когорта, ибо признание проблемы — уже половина решения.
Еще 30% заявили, что еще не сталкивались с такими ситуациями. Им либо жутко повезло, либо их компетенций недостаточно, чтобы распознать домашку, написанную искусственным интеллектом.
Поддерживаем депутата Госдумы Екатерину Харченко, которая выступает за то, чтобы разрешить школьникам пользоваться нейросетями:
Мы должны научиться жить в новых условиях 21 века и прежде всего надо научить взрослых, в том числе педагогов и родителей, использовать искусственный интеллект как инструмент во благо — для поиска информации, для систематизации. И уже после этого научить детей. Если ты не можешь что-то отменить, то надо это возглавить.
Наши дети будут жить в эру искусственного интеллекта, поэтому нам, взрослым, в том числе учителям и педагогам, необходимо его научиться использовать как инструмент во благо. Как инновационный метод, как раньше учили на счетах, а потом появились калькуляторы и компьютеры. Также и сейчас — это просто новый инструмент, который не будет работать без человека.
#ии #исследования
❤3❤🔥2🥰2👌2🔥1 1
Если вы все еще путаете ИИ-агентов и агентный ИИ, тогда мы идем к вам
В обзоре AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges авторы предлагают четкое разделение двух парадигм автономных систем:
ИИ-агент — одиночный модуль, основанный на LLM/LIM, выполняющий четко заданную задачу (автоответы, планирование, сбор и суммирование данных).
Интегрируется с внешними инструментами (API, базы, поиск) через цепочки запросов–действий–обновлений (ReAct, tool-calling). Подходит для узконаправленной автоматизации: чат-боты, фильтрация писем, отчеты, планирование встреч.
Агентный ИИ — система из нескольких специализированных агентов, которые кооперируются для достижения общей цели.
Использует динамическое разбиение задач, координацию (через шины сообщений или shared memory), персистентную память и агента-оркестратора. Способен на сложные, многоэтапные и непрерывные рабочие процессы: исследовательские ассистенты, логистика, медицинская поддержка
Зачем понимать разницу?
1. Правильный выбор архитектуры
Если задача простая и одношаговая (например, автоответы на входящие запросы или генерация кратких отчетов), достаточно ИИ-агента — это быстро, дешево, легко внедряется.
Для сложных, многоэтапных процессов (например, полная автоматизация обработки заявок с анализом, уточнением и передачей между отделами) нужен агентный ИИ, чтобы избежать узких горлышек и обеспечить надежную координацию всех шагов.
2. Экономия ресурсов и времени
Неправильное применение агентного ИИ для простой задачи приведет к избыточным вычислениям и затратам.
Применение ИИ-агента с узкой специализацией в слишком сложном сценарии обречет проект на частые подвисания и ошибки.
3. Управление рисками и безопасностью
В многоагентных системах сложнее контролировать, какие данные и как передаются между компонентами, что требует дополнительных мер защиты и аудита.
Простые агенты легче просканировать на уязвимости и обеспечить соответствие корпоративным политикам.
4. Гибкость и масштабируемость
ИИ-агент хорошо масштабируется горизонтально (добавляем больше однотипных экземпляров), но с ростом числа задач коммуникация остается минимальной.
Агентный ИИ масштабируется вертикально (увеличивается число и разнообразие агентов), что позволяет адаптироваться к растущей сложности процессов.
Помимо сравнительной таксономии, в статье обсуждаются ключевые проблемы обеих парадигм: недостаточная причинная обусловленность и поверхностное рассуждение в ИИ-агентах, а также усиленные риски сбоев координации и непредсказуемого поведения в агентном ИИ.
#ии #статьи
В обзоре AI Agents vs. Agentic AI: A Conceptual Taxonomy, Applications and Challenges авторы предлагают четкое разделение двух парадигм автономных систем:
ИИ-агент — одиночный модуль, основанный на LLM/LIM, выполняющий четко заданную задачу (автоответы, планирование, сбор и суммирование данных).
Интегрируется с внешними инструментами (API, базы, поиск) через цепочки запросов–действий–обновлений (ReAct, tool-calling). Подходит для узконаправленной автоматизации: чат-боты, фильтрация писем, отчеты, планирование встреч.
Агентный ИИ — система из нескольких специализированных агентов, которые кооперируются для достижения общей цели.
Использует динамическое разбиение задач, координацию (через шины сообщений или shared memory), персистентную память и агента-оркестратора. Способен на сложные, многоэтапные и непрерывные рабочие процессы: исследовательские ассистенты, логистика, медицинская поддержка
Зачем понимать разницу?
1. Правильный выбор архитектуры
Если задача простая и одношаговая (например, автоответы на входящие запросы или генерация кратких отчетов), достаточно ИИ-агента — это быстро, дешево, легко внедряется.
Для сложных, многоэтапных процессов (например, полная автоматизация обработки заявок с анализом, уточнением и передачей между отделами) нужен агентный ИИ, чтобы избежать узких горлышек и обеспечить надежную координацию всех шагов.
2. Экономия ресурсов и времени
Неправильное применение агентного ИИ для простой задачи приведет к избыточным вычислениям и затратам.
Применение ИИ-агента с узкой специализацией в слишком сложном сценарии обречет проект на частые подвисания и ошибки.
3. Управление рисками и безопасностью
В многоагентных системах сложнее контролировать, какие данные и как передаются между компонентами, что требует дополнительных мер защиты и аудита.
Простые агенты легче просканировать на уязвимости и обеспечить соответствие корпоративным политикам.
4. Гибкость и масштабируемость
ИИ-агент хорошо масштабируется горизонтально (добавляем больше однотипных экземпляров), но с ростом числа задач коммуникация остается минимальной.
Агентный ИИ масштабируется вертикально (увеличивается число и разнообразие агентов), что позволяет адаптироваться к растущей сложности процессов.
Помимо сравнительной таксономии, в статье обсуждаются ключевые проблемы обеих парадигм: недостаточная причинная обусловленность и поверхностное рассуждение в ИИ-агентах, а также усиленные риски сбоев координации и непредсказуемого поведения в агентном ИИ.
#ии #статьи
👍3🔥3❤🔥2❤2
Как изменилась работа с ИИ и данными в 2025 году
Инфраструктура становится умнее, инструменты гибче, а данные — центром принятия решений. Отчеты State of Data and AI Engineering и Artificial Analysis State of AI за 2025 год показывают: индустрия стремительно переходит от универсальности к эффективности.
Разбираем ключевые тренды.
Индустрия данных и ИИ в 2025 году переживает фундаментальную перестройку
На первый план выходят не столько новые платформы, сколько архитектурные сдвиги. Самый заметный — отказ от универсальных MLOps-решений в пользу легких, встроенных компонентов. Компании, как CoreWeave и ClearML, трансформируют свои продукты под конкретные задачи — оптимизацию GPU, наблюдение за LLM, CI/CD для моделей.
Это совпадает с переходом к ризонинг-моделям: по данным Artificial Analysis, они теперь доминируют в рейтингах интеллекта и требуют новых подходов к мониторингу и оценке.
В инфраструктуре фокус смещается в сторону гибкости и отказа от вендорской зависимости
AWS Glue становится фактически единственным инструментом, способным обеспечить read/write-федерацию Apache Iceberg с разными движками. Это важно, учитывая, что форматы Iceberg и Delta теперь — стандарт в построении масштабируемых lakehouse-архитектур. Такой подход снижает риски блокировки на одном вендоре и облегчает мультиоблачную миграцию.
Параллельно облачные провайдеры ведут гонку за низкой латентностью
GCS Fast Tier от Google и S3 Express от AWS ориентированы на real-time приложения, особенно на inference для LLM. Это особенно актуально в контексте новых моделей: ризонинг-системы генерируют в 10 раз больше токенов, а агентные фреймворки делают десятки запросов на одну задачу.
По сути, эффективность хранения и скорости доступа становится новым полем конкуренции в ИИ.
BigQuery закрепляет лидерство, став фундаментом аналитической стратегии Google
Количество клиентов BigQuery в 5 раз превышает суммарную аудиторию Snowflake и Databricks. Это подкрепляется тем, что Google — один из немногих игроков, обладающих полной вертикальной интеграцией — от TPU до собственных ризонинг-моделей Gemini. Такая связка данных и вычислений становится ключевым преимуществом в эпоху генеративных ИИ.
Оркестрация данных становится умной и реактивной
Dagster, Flyte, Prefect используют ИИ для построения DAG-ов, предсказания сбоев и оптимизации ресурсов. Причем эти функции уже встраиваются в интерфейсы: Azure Data Factory и Vertex AI предоставляют Copilot-режимы.
Все чаще пайплайны проектируются не кодом, а в диалоге с моделью. Это позволяет быстрее адаптироваться под задачи агентных LLM-систем, которые автономно управляют инструментами и API.
Наблюдаемость выходит на новый уровень зрелости
Решения вроде WhyLabs и Monte Carlo работают как единая система контроля качества и мониторинга модели. Это становится необходимым, поскольку рост генеративных систем требует непрерывной оценки достоверности, дрейфа и качества входных данных. Более того, с развитием агентного ИИ и автогенерации кода, проверка становится обязательной частью CI/CD.
Векторные базы данных и синтетические данные превращаются в зрелые инструменты
Pinecone демонстрирует 48% прирост точности благодаря каскадным retrieval-алгоритмам. Одновременно, инструменты генерации синтетических данных (Gretel AI, YData) компенсируют дефицит приватных или сбалансированных выборок.
Это особенно актуально, учитывая доминирование MoE-архитектур, где модели работают с малыми активными подсетями параметров — снижая стоимость, но требуя качества от обучающих данных.
Вывод
Рынок уходит от универсальных решений и движется к адаптивным, масштабируемым и агентно-ориентированным структурам. Побеждают те, кто совмещает зрелость инженерии, свободу архитектурных решений и готовность к новым классам нагрузки: ризонинг, агенты и так далее. Для специалистов по данным это означает одно — инфраструктура становится стратегическим активом.
#ии #аналитика #исследования
Инфраструктура становится умнее, инструменты гибче, а данные — центром принятия решений. Отчеты State of Data and AI Engineering и Artificial Analysis State of AI за 2025 год показывают: индустрия стремительно переходит от универсальности к эффективности.
Разбираем ключевые тренды.
Индустрия данных и ИИ в 2025 году переживает фундаментальную перестройку
На первый план выходят не столько новые платформы, сколько архитектурные сдвиги. Самый заметный — отказ от универсальных MLOps-решений в пользу легких, встроенных компонентов. Компании, как CoreWeave и ClearML, трансформируют свои продукты под конкретные задачи — оптимизацию GPU, наблюдение за LLM, CI/CD для моделей.
Это совпадает с переходом к ризонинг-моделям: по данным Artificial Analysis, они теперь доминируют в рейтингах интеллекта и требуют новых подходов к мониторингу и оценке.
В инфраструктуре фокус смещается в сторону гибкости и отказа от вендорской зависимости
AWS Glue становится фактически единственным инструментом, способным обеспечить read/write-федерацию Apache Iceberg с разными движками. Это важно, учитывая, что форматы Iceberg и Delta теперь — стандарт в построении масштабируемых lakehouse-архитектур. Такой подход снижает риски блокировки на одном вендоре и облегчает мультиоблачную миграцию.
Параллельно облачные провайдеры ведут гонку за низкой латентностью
GCS Fast Tier от Google и S3 Express от AWS ориентированы на real-time приложения, особенно на inference для LLM. Это особенно актуально в контексте новых моделей: ризонинг-системы генерируют в 10 раз больше токенов, а агентные фреймворки делают десятки запросов на одну задачу.
По сути, эффективность хранения и скорости доступа становится новым полем конкуренции в ИИ.
BigQuery закрепляет лидерство, став фундаментом аналитической стратегии Google
Количество клиентов BigQuery в 5 раз превышает суммарную аудиторию Snowflake и Databricks. Это подкрепляется тем, что Google — один из немногих игроков, обладающих полной вертикальной интеграцией — от TPU до собственных ризонинг-моделей Gemini. Такая связка данных и вычислений становится ключевым преимуществом в эпоху генеративных ИИ.
Оркестрация данных становится умной и реактивной
Dagster, Flyte, Prefect используют ИИ для построения DAG-ов, предсказания сбоев и оптимизации ресурсов. Причем эти функции уже встраиваются в интерфейсы: Azure Data Factory и Vertex AI предоставляют Copilot-режимы.
Все чаще пайплайны проектируются не кодом, а в диалоге с моделью. Это позволяет быстрее адаптироваться под задачи агентных LLM-систем, которые автономно управляют инструментами и API.
Наблюдаемость выходит на новый уровень зрелости
Решения вроде WhyLabs и Monte Carlo работают как единая система контроля качества и мониторинга модели. Это становится необходимым, поскольку рост генеративных систем требует непрерывной оценки достоверности, дрейфа и качества входных данных. Более того, с развитием агентного ИИ и автогенерации кода, проверка становится обязательной частью CI/CD.
Векторные базы данных и синтетические данные превращаются в зрелые инструменты
Pinecone демонстрирует 48% прирост точности благодаря каскадным retrieval-алгоритмам. Одновременно, инструменты генерации синтетических данных (Gretel AI, YData) компенсируют дефицит приватных или сбалансированных выборок.
Это особенно актуально, учитывая доминирование MoE-архитектур, где модели работают с малыми активными подсетями параметров — снижая стоимость, но требуя качества от обучающих данных.
Вывод
Рынок уходит от универсальных решений и движется к адаптивным, масштабируемым и агентно-ориентированным структурам. Побеждают те, кто совмещает зрелость инженерии, свободу архитектурных решений и готовность к новым классам нагрузки: ризонинг, агенты и так далее. Для специалистов по данным это означает одно — инфраструктура становится стратегическим активом.
#ии #аналитика #исследования
👍3🔥3❤🔥2
Опыт ЕС: как превратить данные из источника риска в экономический актив
Европейская комиссия прогнозирует, что экономика данных ЕС достигнет €829 млрд в этом году, а число специалистов в сфере данных превысит 10,9 миллиона человек.
Однако только около 30% компаний в ЕС активно используют внешние данные в своих бизнес-процессах, и еще меньше — извлекают из них прямую прибыль.
Главные барьеры — это юридическая неясность, риски утечек, отсутствие прозрачных механизмов оценки и доверия.
В статье Data Trading and Monetization: Challenges and Open Research Directions авторы рассматривают инициативы IDS-RAM и Gaia-X как то, что поможет преодолеть эти барьеры.
IDS-RAM обеспечивает архитектуру, где владельцы данных сохраняют полный контроль над условиями доступа и использования — вплоть до автоматической проверки соблюдения лицензионных ограничений.
Gaia-X, в свою очередь, объединяет более 350 компаний и институтов в рамках единой федеративной инфраструктуры, позволяя обмениваться данными между странами и отраслями по единым стандартам, включая соблюдение GDPR. Это делает возможным безопасный трансграничный рынок данных, а не просто разовые сделки.
В Fraunhofer Institute прикинули, что использование IDS-архитектуры позволит снизить время подготовки соглашений на 30–50%, а юридические издержки — до 70%.
Кроме того, переход от модели продажи датасета к модели data-as-a-service (например, подписка на потоковые данные или доступ к аналитике без раскрытия сырых данных) обеспечивает устойчивый доход и повторное использование активов.
Без описанных инициатив это практически невозможно.
Нам кажется, что инициативы вроде IDS-RAM и Gaia-X делают нечто большее, чем просто создание правовой базы для торговли данными. Подобные инициативы в умах директоров превращают данные из источника риска в полноценный экономический актив.
Если в компании данные воспринимаются не как актив, а как источник потенциальных убытков, это и становится главным барьером для монетизации.
Опять выходит, что все дело не в технических деталях, а в ментальности.
#деньги #статьи #исследования
Европейская комиссия прогнозирует, что экономика данных ЕС достигнет €829 млрд в этом году, а число специалистов в сфере данных превысит 10,9 миллиона человек.
Однако только около 30% компаний в ЕС активно используют внешние данные в своих бизнес-процессах, и еще меньше — извлекают из них прямую прибыль.
Главные барьеры — это юридическая неясность, риски утечек, отсутствие прозрачных механизмов оценки и доверия.
В статье Data Trading and Monetization: Challenges and Open Research Directions авторы рассматривают инициативы IDS-RAM и Gaia-X как то, что поможет преодолеть эти барьеры.
IDS-RAM обеспечивает архитектуру, где владельцы данных сохраняют полный контроль над условиями доступа и использования — вплоть до автоматической проверки соблюдения лицензионных ограничений.
Gaia-X, в свою очередь, объединяет более 350 компаний и институтов в рамках единой федеративной инфраструктуры, позволяя обмениваться данными между странами и отраслями по единым стандартам, включая соблюдение GDPR. Это делает возможным безопасный трансграничный рынок данных, а не просто разовые сделки.
В Fraunhofer Institute прикинули, что использование IDS-архитектуры позволит снизить время подготовки соглашений на 30–50%, а юридические издержки — до 70%.
Кроме того, переход от модели продажи датасета к модели data-as-a-service (например, подписка на потоковые данные или доступ к аналитике без раскрытия сырых данных) обеспечивает устойчивый доход и повторное использование активов.
Без описанных инициатив это практически невозможно.
Нам кажется, что инициативы вроде IDS-RAM и Gaia-X делают нечто большее, чем просто создание правовой базы для торговли данными. Подобные инициативы в умах директоров превращают данные из источника риска в полноценный экономический актив.
Если в компании данные воспринимаются не как актив, а как источник потенциальных убытков, это и становится главным барьером для монетизации.
Опять выходит, что все дело не в технических деталях, а в ментальности.
#деньги #статьи #исследования
🔥4👍3❤2❤🔥1
Вы не представляете, сколько стоит доступ к персональным данным пассажиров американских авиакомпаний
Американская ARC (Airlines Reporting Corporation), принадлежащая крупнейшим авиакомпаниям вроде Delta и United, продала данные о внутренних авиаперелетах пассажиров федеральной службе CBP (Служба таможни и охраны границ США).
Данные включают имена, маршруты, информацию об оплате и передаются в рамках многолетнего контракта, подписанного в 2024 году. При этом CBP обязана не раскрывать, что именно ARC является источником информации. Это подтверждают опубликованные в статье документы, полученные журналистами 404Media через запрос FOIA.
Правозащитники бьют тревогу: вместо получения данных через суд или по ордеру, власти США просто покупают их у частных брокеров, обходя законодательные ограничения. Этот случай — пример того, как госструктуры США используют лазейку брокеров данных, чтобы вернуться к модели массового сбора информации.
Сама ARC позиционирует передачу данных как часть борьбы с преступностью и террористическими угрозами, но фактически это масштабный и скрытный рынок чувствительных данных.
С точки зрения монетизации — перед нами зрелая экономика данных. Есть поставщик, продукт и стабильный покупатель — государство. Именно оно здесь играет роль маркетмейкера: формирует спрос, платит за доступ, а не изымает данные напрямую.
Вот тут и хочется сказать:
Однако подождите. Знаете, сколько федеральная служба заплатила за доступ к миллиардам строк данных?
В июне 2024 года ARC получила $11025. И в мае 2025 года еще $6847.
Утверждать ничего не будем, но либо оставшиеся суммы где-то спрятаны так, что журналисты до них не докопались, либо эти платежи — просто формальность, а передать данные авиакомпании банально обязали.
Как ни крути, на практике для граждан разницы немного: и там и там государство получает доступ к личной информации.
Но в США хотя бы существует экономическая оболочка процесса — рынок, где данные, пусть и формально, становятся товаром. В России же данные чаще всего изымаются как ресурс, без возможности влиять на их оборот или использовать их экономически.
#безопасность #деньги #статьи
Американская ARC (Airlines Reporting Corporation), принадлежащая крупнейшим авиакомпаниям вроде Delta и United, продала данные о внутренних авиаперелетах пассажиров федеральной службе CBP (Служба таможни и охраны границ США).
Данные включают имена, маршруты, информацию об оплате и передаются в рамках многолетнего контракта, подписанного в 2024 году. При этом CBP обязана не раскрывать, что именно ARC является источником информации. Это подтверждают опубликованные в статье документы, полученные журналистами 404Media через запрос FOIA.
Правозащитники бьют тревогу: вместо получения данных через суд или по ордеру, власти США просто покупают их у частных брокеров, обходя законодательные ограничения. Этот случай — пример того, как госструктуры США используют лазейку брокеров данных, чтобы вернуться к модели массового сбора информации.
Сама ARC позиционирует передачу данных как часть борьбы с преступностью и террористическими угрозами, но фактически это масштабный и скрытный рынок чувствительных данных.
С точки зрения монетизации — перед нами зрелая экономика данных. Есть поставщик, продукт и стабильный покупатель — государство. Именно оно здесь играет роль маркетмейкера: формирует спрос, платит за доступ, а не изымает данные напрямую.
Вот тут и хочется сказать:
Это резкий контраст с Россией, где данные чаще всего передаются властям в обязательном порядке, а попытки построить рынок ограничиваются административным регулированием.
Однако подождите. Знаете, сколько федеральная служба заплатила за доступ к миллиардам строк данных?
В июне 2024 года ARC получила $11025. И в мае 2025 года еще $6847.
Утверждать ничего не будем, но либо оставшиеся суммы где-то спрятаны так, что журналисты до них не докопались, либо эти платежи — просто формальность, а передать данные авиакомпании банально обязали.
Как ни крути, на практике для граждан разницы немного: и там и там государство получает доступ к личной информации.
Но в США хотя бы существует экономическая оболочка процесса — рынок, где данные, пусть и формально, становятся товаром. В России же данные чаще всего изымаются как ресурс, без возможности влиять на их оборот или использовать их экономически.
#безопасность #деньги #статьи
👍3🔥3😁2 1
Как тебе такое, Бенджамин Франклин?
Во-первых, Бенджамин Франклин, изображенный на $100, никогда не был президентом США. Это просто на всякий случай.
Во-вторых, ему принадлежит любимая редактором цитата:
В-третьих, он бы сильно удивился, что в 2025 году люди куда охотнее жертвуют не свободой, а именно что безопасностью. Особенно компании, внедряющие решения на базе искусственного интеллекта.
По данным Gigamon, 91% компаний идут на компромиссы в вопросах безопасности, масштабируя айти-инфраструктуру гибридных облаков ради ускоренного внедрения ИИ. Это при том, что 70% считают публичные облачные сервисы самым рискованным компонентом гибридной облачной среды.
В Gigamon опросили 1000 руководителей айти-отделов и директоров по информационной безопасности из разных стран и выяснили:
- 58% компаний столкнулись с ростом атак, в которых используется ИИ — это на 17% больше, чем годом ранее.
- 46% указали на нехватку качественных данных для безопасного развертывания ИИ.
- 47% респондентов отметили, что не могут получать полное, точное и своевременное представление о всех своих данных на протяжении всего их жизненного цикла. При этом только 64% ставят целью достижение полной видимости всех данных в реальном времени.
Кажется, многие опрометчиво перекладывают вопросы безопасности с интеллекта собственного на интеллект искусственный. Никакие умные алгоритмы не спасут, если вы не знаете, что происходит с вашими данными.
#ии #исследования
Во-первых, Бенджамин Франклин, изображенный на $100, никогда не был президентом США. Это просто на всякий случай.
Во-вторых, ему принадлежит любимая редактором цитата:
Те, кто готов пожертвовать насущной свободой ради малой толики временной безопасности, не достойны ни свободы, ни безопасности.
В-третьих, он бы сильно удивился, что в 2025 году люди куда охотнее жертвуют не свободой, а именно что безопасностью. Особенно компании, внедряющие решения на базе искусственного интеллекта.
По данным Gigamon, 91% компаний идут на компромиссы в вопросах безопасности, масштабируя айти-инфраструктуру гибридных облаков ради ускоренного внедрения ИИ. Это при том, что 70% считают публичные облачные сервисы самым рискованным компонентом гибридной облачной среды.
В Gigamon опросили 1000 руководителей айти-отделов и директоров по информационной безопасности из разных стран и выяснили:
- 58% компаний столкнулись с ростом атак, в которых используется ИИ — это на 17% больше, чем годом ранее.
- 46% указали на нехватку качественных данных для безопасного развертывания ИИ.
- 47% респондентов отметили, что не могут получать полное, точное и своевременное представление о всех своих данных на протяжении всего их жизненного цикла. При этом только 64% ставят целью достижение полной видимости всех данных в реальном времени.
Кажется, многие опрометчиво перекладывают вопросы безопасности с интеллекта собственного на интеллект искусственный. Никакие умные алгоритмы не спасут, если вы не знаете, что происходит с вашими данными.
#ии #исследования
👍3🔥3❤2❤🔥2
OpenAI рискует потерять $20 млрд из-за конфликта с Microsoft
С 2019 года Microsoft вложила в OpenAI $13 млрд. Однако сегодня OpenAI хочет ослабить контроль Microsoft над своими продуктами и вычислительными ресурсами, но при этом заручиться поддержкой техногиганта в вопросе преобразования в коммерческую компанию.
Одним из предметов конфликта стала покупка OpenAI стартапа Windsurf, который занимается вайб-кодингом, за $3 млрд. Microsoft по контракту имеет доступ ко всей интеллектуальной собственности OpenAI, но последняя хочет закрыть доступ к технологиям Windsurf. Также идет спор о доле Microsoft в новой структуре OpenAI после преобразования: техногигант требует больше, чем OpenAI готова отдать.
Кроме того, компании теперь конкурируют и на рынке потребительских чат-ботов, и в корпоративных решениях. Год назад CEO Microsoft Сатья Наделла нанял конкурента Сэма Альтмана, чтобы создать конкурирующие модели внутри компании.
Без одобрения преобразования от Microsoft OpenAI не сможет привлечь новые инвестиции, выйти на биржу и потеряет порядка $20 млрд.
Нам думается, что все закончится тихо-мирно. Однако инсайдеры WSJ утверждают, что руководство OpenAI обсуждало подачу антимонопольной жалобы на Microsoft.
Будем посмотреть, чем закончится.
#ии #статьи
С 2019 года Microsoft вложила в OpenAI $13 млрд. Однако сегодня OpenAI хочет ослабить контроль Microsoft над своими продуктами и вычислительными ресурсами, но при этом заручиться поддержкой техногиганта в вопросе преобразования в коммерческую компанию.
Одним из предметов конфликта стала покупка OpenAI стартапа Windsurf, который занимается вайб-кодингом, за $3 млрд. Microsoft по контракту имеет доступ ко всей интеллектуальной собственности OpenAI, но последняя хочет закрыть доступ к технологиям Windsurf. Также идет спор о доле Microsoft в новой структуре OpenAI после преобразования: техногигант требует больше, чем OpenAI готова отдать.
Кроме того, компании теперь конкурируют и на рынке потребительских чат-ботов, и в корпоративных решениях. Год назад CEO Microsoft Сатья Наделла нанял конкурента Сэма Альтмана, чтобы создать конкурирующие модели внутри компании.
Без одобрения преобразования от Microsoft OpenAI не сможет привлечь новые инвестиции, выйти на биржу и потеряет порядка $20 млрд.
Нам думается, что все закончится тихо-мирно. Однако инсайдеры WSJ утверждают, что руководство OpenAI обсуждало подачу антимонопольной жалобы на Microsoft.
Будем посмотреть, чем закончится.
#ии #статьи
🤔4👍3🤝2❤1
Бизнесу могут запретить создавать профайлы клиентов на базе персональных данных
Как пишут Ведомости, в России готовится законопроект, запрещающий автоматизированный профайлинг пользователей без отдельного согласия. Банки, маркетплейсы и телеком-компании больше не смогут собирать и анализировать данные из разных источников для персонализированного маркетинга, скоринга и таргетинга.
Все согласия на обработку должны будут проходить через ЕСИА или напрямую оператору. Изменения вносятся в статью 5 Федерального закона №152-ФЗ «О персональных данных».
Законопроект мотивирован борьбой с айти-мошенничеством: по данным МВД, в 2024 году зарегистрировано 380 300 преступлений, предусмотренных статьями 159, 159.3 и 159.6 УК РФ, что на 6,8% больше, чем в 2023 году. Ущерб составил ₽188 млрд — рост на 38%.
Минцифры утверждает, что цель инициативы — защита прав граждан и минимизация сбора данных.
Бизнес предупреждает: новые правила парализуют развитие технологий на основе данных. Компании уже вложили миллиарды в системы персонализации, и теперь они рискуют оказаться вне закона. Особенно сильно пострадают малые компании и стартапы, которым будет сложно соблюдать новые требования к администрированию и отчетности в ЕСИА.
Эксперты также отмечают, что в действующем законе уже запрещено объединять базы данных, обрабатываемые с несовместимыми целями. Новый запрет дублирует это положение, вводя дополнительные формулировки — «разные источники», «прогнозирование характеристик» — не определенные юридически, что создает риск правовой неясности.
Все это усложнит архитектуру сервисов, использующих машинное обучение, скоринг и таргетинг. Операторам придется пересматривать алгоритмы, наращивать юридическую и техническую нагрузку, а также отказываться от привычных моделей персонализации.
Предсказываем:
Сперва это выльется в дополнительные издержки для операторов данных и поставщиков услуг, а затем они переложат этот груз на плечи пользователей, повысив стоимость своих продуктов.
Если подумать, то пользователи из своего кармана заплатят за свою же безопасность. Это в лучшем случае.
#безопасность #статьи
Как пишут Ведомости, в России готовится законопроект, запрещающий автоматизированный профайлинг пользователей без отдельного согласия. Банки, маркетплейсы и телеком-компании больше не смогут собирать и анализировать данные из разных источников для персонализированного маркетинга, скоринга и таргетинга.
Все согласия на обработку должны будут проходить через ЕСИА или напрямую оператору. Изменения вносятся в статью 5 Федерального закона №152-ФЗ «О персональных данных».
Законопроект мотивирован борьбой с айти-мошенничеством: по данным МВД, в 2024 году зарегистрировано 380 300 преступлений, предусмотренных статьями 159, 159.3 и 159.6 УК РФ, что на 6,8% больше, чем в 2023 году. Ущерб составил ₽188 млрд — рост на 38%.
Минцифры утверждает, что цель инициативы — защита прав граждан и минимизация сбора данных.
Бизнес предупреждает: новые правила парализуют развитие технологий на основе данных. Компании уже вложили миллиарды в системы персонализации, и теперь они рискуют оказаться вне закона. Особенно сильно пострадают малые компании и стартапы, которым будет сложно соблюдать новые требования к администрированию и отчетности в ЕСИА.
Эксперты также отмечают, что в действующем законе уже запрещено объединять базы данных, обрабатываемые с несовместимыми целями. Новый запрет дублирует это положение, вводя дополнительные формулировки — «разные источники», «прогнозирование характеристик» — не определенные юридически, что создает риск правовой неясности.
Все это усложнит архитектуру сервисов, использующих машинное обучение, скоринг и таргетинг. Операторам придется пересматривать алгоритмы, наращивать юридическую и техническую нагрузку, а также отказываться от привычных моделей персонализации.
Предсказываем:
Сперва это выльется в дополнительные издержки для операторов данных и поставщиков услуг, а затем они переложат этот груз на плечи пользователей, повысив стоимость своих продуктов.
Если подумать, то пользователи из своего кармана заплатят за свою же безопасность. Это в лучшем случае.
#безопасность #статьи
👍3🔥3🤯2❤1
Китайцы используют чемоданы для обучения ИИ-моделей
И нет, в чемоданах не ввозят чипы. Как пишет WSJ, все куда интереснее.
В марте четверо китайских инженеров прилетели в Малайзию с чемоданами, в которых хранилось 80 терабайт данных — таблицы, изображения, видео для обучения искусственного интеллекта.
В Малайзии компания арендовала около 300 серверов с мощными чипами Nvidia, недоступными в Китае из-за санкций США. Задача: обучить ИИ-модель за границей и вернуться с результатами.
С 2022 года США все жестче ограничивают экспорт продвинутых ИИ-чипов в Китай. В ответ китайские компании ищут обходные пути.
Одни пытаются использовать местные чипы, другие — закупать американские компоненты через третьи страны. Но все чаще данные просто вывозят туда, где есть нужное оборудование — в Юго-Восточную Азию и на Ближний Восток.
Бывший замглавы Бюро экспортного контроля Томас Кендлер отмечает:
Для маскировки китайские компании создают дочерние структуры в Малайзии, регистрируют их на местных граждан, разбивают данные на несколько жестких дисков и провозят их в разных чемоданах, чтобы не вызвать подозрений на таможне.
Вернувшись в Китай, инженеры привозят обратно сотни гигабайт готовых параметров моделей.
Это становится новой нормой:
Малайзия, Сингапур, Индонезия и Таиланд переживают бум дата-центров. Только в марте и апреле Малайзия импортировала ИИ-чипов и процессоров из Тайваня на $3,4 млрд. Nvidia активно продает десятки тысяч чипов странам Персидского залива, включая Саудовскую Аравию и ОАЭ.
#ии #статьи
И нет, в чемоданах не ввозят чипы. Как пишет WSJ, все куда интереснее.
В марте четверо китайских инженеров прилетели в Малайзию с чемоданами, в которых хранилось 80 терабайт данных — таблицы, изображения, видео для обучения искусственного интеллекта.
В Малайзии компания арендовала около 300 серверов с мощными чипами Nvidia, недоступными в Китае из-за санкций США. Задача: обучить ИИ-модель за границей и вернуться с результатами.
С 2022 года США все жестче ограничивают экспорт продвинутых ИИ-чипов в Китай. В ответ китайские компании ищут обходные пути.
Одни пытаются использовать местные чипы, другие — закупать американские компоненты через третьи страны. Но все чаще данные просто вывозят туда, где есть нужное оборудование — в Юго-Восточную Азию и на Ближний Восток.
Бывший замглавы Бюро экспортного контроля Томас Кендлер отмечает:
Китай получает доступ к технологиям, не нарушая формально запретов, потому что физически не получает сами чипы.
Для маскировки китайские компании создают дочерние структуры в Малайзии, регистрируют их на местных граждан, разбивают данные на несколько жестких дисков и провозят их в разных чемоданах, чтобы не вызвать подозрений на таможне.
Вернувшись в Китай, инженеры привозят обратно сотни гигабайт готовых параметров моделей.
Это становится новой нормой:
Малайзия, Сингапур, Индонезия и Таиланд переживают бум дата-центров. Только в марте и апреле Малайзия импортировала ИИ-чипов и процессоров из Тайваня на $3,4 млрд. Nvidia активно продает десятки тысяч чипов странам Персидского залива, включая Саудовскую Аравию и ОАЭ.
#ии #статьи
👍6😁5❤2🔥2
Предвидим квоты для роботов в советах директоров
В Gartner выкатили прогнозы по развитию индустрии данных и аналитики на 2025–2029 годы. Отчет готовили специально к Gartner Data & Analytics Summit, так что он ориентирован на Chief Data Officers и Chief Data Analytics Officers.
Разберемся, что нам интересного напророчили.
1. ИИ-агенты будут принимать половину бизнес-решений
К 2027 году 50% решений в компаниях будут автоматизированы или поддержаны ИИ. Это ускорит процессы, повысит эффективность и снизит зависимость от интуиции. Но успех таких систем зависит от качества данных и продуманного управления — без этого получится знакомая рубрика с дурными советами.
2. ИИ-грамотные лидеры зарабатывают больше
Организации, где топ-менеджеры понимают возможности и ограничения ИИ, показывают на 20% лучшие финансовые результаты. Причина — в инвестициях и инициативах, а не в гонке за хайпом. Обучение руководства становится конкурентным преимуществом.
И отрыв будет расти.
3. Синтетические данные могут подорвать доверие к ИИ
К 2027 году 60% организаций столкнутся с провалами из-за некачественного управления синтетическими данными. Без понимания происхождения, структуры и метаданных модели будут ошибаться, нарушать нормы и дискредитировать сами себя.
Шишки сами себя не набьют.
4. Компании будут сами разрабатывать решения на базе генеративного ИИ
К 2028 году каждая третья компания выберет строить свои системы, а не использовать готовые. Это даст им больше контроля, экономию на дистанции и защиту от вендор-зависимости. Но потребует зрелых команд и существенных вложений в LLMOps-инфраструктуру.
5. Смысл важнее объема: семантика повышает точность моделей
К 2027 году организации, которые выстроят грамотное управление семантикой данных, получат до 80% роста точности ИИ-моделей и сократят вычислительные расходы на 60%. Четкая семантическая база уменьшает галлюцинации, оптимизирует потребление токенов и ускоряет выполнение задач.
6. Советы директоров начнут сверяться с ИИ
К 2029 году 10% советов директоров будут использовать ИИ-системы для проверки и корректировки стратегически важных решений, получая мнение со стороны в условиях высокой неопределенности.
Интересно, а как потом ответственность делить?
Кажется, наиболее ясно авторы видят будущее, где фокус сместится с «много данных» к «правильным данным»: семантика, структура, контекст — все это становится важнее объема.
Это прямо как у Ленина: лучше меньше, да лучше.
Опа! Мы поймали капиталистов на цитировании вождя мирового пролетариата.
В Gartner выкатили прогнозы по развитию индустрии данных и аналитики на 2025–2029 годы. Отчет готовили специально к Gartner Data & Analytics Summit, так что он ориентирован на Chief Data Officers и Chief Data Analytics Officers.
Разберемся, что нам интересного напророчили.
1. ИИ-агенты будут принимать половину бизнес-решений
К 2027 году 50% решений в компаниях будут автоматизированы или поддержаны ИИ. Это ускорит процессы, повысит эффективность и снизит зависимость от интуиции. Но успех таких систем зависит от качества данных и продуманного управления — без этого получится знакомая рубрика с дурными советами.
2. ИИ-грамотные лидеры зарабатывают больше
Организации, где топ-менеджеры понимают возможности и ограничения ИИ, показывают на 20% лучшие финансовые результаты. Причина — в инвестициях и инициативах, а не в гонке за хайпом. Обучение руководства становится конкурентным преимуществом.
И отрыв будет расти.
3. Синтетические данные могут подорвать доверие к ИИ
К 2027 году 60% организаций столкнутся с провалами из-за некачественного управления синтетическими данными. Без понимания происхождения, структуры и метаданных модели будут ошибаться, нарушать нормы и дискредитировать сами себя.
Шишки сами себя не набьют.
4. Компании будут сами разрабатывать решения на базе генеративного ИИ
К 2028 году каждая третья компания выберет строить свои системы, а не использовать готовые. Это даст им больше контроля, экономию на дистанции и защиту от вендор-зависимости. Но потребует зрелых команд и существенных вложений в LLMOps-инфраструктуру.
5. Смысл важнее объема: семантика повышает точность моделей
К 2027 году организации, которые выстроят грамотное управление семантикой данных, получат до 80% роста точности ИИ-моделей и сократят вычислительные расходы на 60%. Четкая семантическая база уменьшает галлюцинации, оптимизирует потребление токенов и ускоряет выполнение задач.
6. Советы директоров начнут сверяться с ИИ
К 2029 году 10% советов директоров будут использовать ИИ-системы для проверки и корректировки стратегически важных решений, получая мнение со стороны в условиях высокой неопределенности.
Интересно, а как потом ответственность делить?
Кажется, наиболее ясно авторы видят будущее, где фокус сместится с «много данных» к «правильным данным»: семантика, структура, контекст — все это становится важнее объема.
Это прямо как у Ленина: лучше меньше, да лучше.
Опа! Мы поймали капиталистов на цитировании вождя мирового пролетариата.
👍4🔥3❤2❤🔥2
Нейросети вовсе не уравнивают людей, а увеличивают расслоение
GitHub проводил контролируемый эксперимент: группа программистов с Copilot завершала задачи на 55 % быстрее, чем без него.
Но если вы не знаете, зачем именно нужен этот код, как его безопасно внедрить в архитектуру, и где могут быть уязвимости — вы не инженер, а оператор промптов. LLM отлично масштабируют знание. Но и незнание они масштабируют точно так же — только быстрее и дешевле.
В 2023 году сгенерированный код Copilot попал в продакшн и случайно открыл публичный доступ к логам, содержащим персональные данные.
Все из-за одной сгенерированной мелочи, которую никто не проверил.
Инженеры все чаще перестают писать руками. На Reddit многие признаются, что полностью поручили написание кода Claude. Он и баги даже сам правит.
Звучит круто — но это путь к утрате инженерной интуиции. Значит, качество и устойчивость решений снижаются.
Почему тогда растут зарплаты инженеров?
В 2018 году McKinsey прогнозировал, что спрос на технологические навыки вырастет на 55% за 12 лет. К 2030 году на эти навыки придется 17% всех рабочих часов на планете.
В марте стало ясно, что спрос на инженеров данных вырос на 50% только за прошедший год. Ну и зарплаты инженеров за 2018-2023 выросли на 25%.
Стоп. Но разве нейросети не отнимают у людей рабочие места?
Отнимают. Но не у всех.
Стремительно падает доля джунов на рынке. В Amazon и Dropbox, массово сокращая сотрудников в 2023-2024 годах, прямо говорили: «Теперь ту же работу делает меньше людей с помощью ИИ-инструментов».
Сеньоры, используя новые инструменты, становятся круче, а джуны — слабее.
Как теперь стать сеньором?
Бунтовать против ИИ из-за потери рабочих мест — это к луддитам, мы к этому не призываем.
Нейросети, кажется, сломали механизм взращивания кадров.
Беда в том, что оператор ИИ, заменивший джуна-разработчика, не набирается нужного опыта и не становится мидлом-разработчиком.
То, что джуны не получают работу — не так страшно, а вот то, что они не получают опыт — настоящая угроза.
Учиться теперь нельзя просто по дороге. Опыт больше не набирается пассивно. Учиться нужно проактивно, осмысленно, через рефлексию и обратную связь. Потому что ИИ забирает у новичков главный ресурс — время на ошибки.
#ии #статьи #исследования
GitHub проводил контролируемый эксперимент: группа программистов с Copilot завершала задачи на 55 % быстрее, чем без него.
Но если вы не знаете, зачем именно нужен этот код, как его безопасно внедрить в архитектуру, и где могут быть уязвимости — вы не инженер, а оператор промптов. LLM отлично масштабируют знание. Но и незнание они масштабируют точно так же — только быстрее и дешевле.
В 2023 году сгенерированный код Copilot попал в продакшн и случайно открыл публичный доступ к логам, содержащим персональные данные.
Все из-за одной сгенерированной мелочи, которую никто не проверил.
Инженеры все чаще перестают писать руками. На Reddit многие признаются, что полностью поручили написание кода Claude. Он и баги даже сам правит.
Звучит круто — но это путь к утрате инженерной интуиции. Значит, качество и устойчивость решений снижаются.
Почему тогда растут зарплаты инженеров?
В 2018 году McKinsey прогнозировал, что спрос на технологические навыки вырастет на 55% за 12 лет. К 2030 году на эти навыки придется 17% всех рабочих часов на планете.
В марте стало ясно, что спрос на инженеров данных вырос на 50% только за прошедший год. Ну и зарплаты инженеров за 2018-2023 выросли на 25%.
Стоп. Но разве нейросети не отнимают у людей рабочие места?
Отнимают. Но не у всех.
Стремительно падает доля джунов на рынке. В Amazon и Dropbox, массово сокращая сотрудников в 2023-2024 годах, прямо говорили: «Теперь ту же работу делает меньше людей с помощью ИИ-инструментов».
Сеньоры, используя новые инструменты, становятся круче, а джуны — слабее.
Как теперь стать сеньором?
Бунтовать против ИИ из-за потери рабочих мест — это к луддитам, мы к этому не призываем.
Нейросети, кажется, сломали механизм взращивания кадров.
Беда в том, что оператор ИИ, заменивший джуна-разработчика, не набирается нужного опыта и не становится мидлом-разработчиком.
То, что джуны не получают работу — не так страшно, а вот то, что они не получают опыт — настоящая угроза.
Учиться теперь нельзя просто по дороге. Опыт больше не набирается пассивно. Учиться нужно проактивно, осмысленно, через рефлексию и обратную связь. Потому что ИИ забирает у новичков главный ресурс — время на ошибки.
#ии #статьи #исследования
👍4🔥4❤🔥3