ИИ снес прод-базу, а Taco Bell сломался от 18к стаканов воды
2025-й год, похоже, запомнится феерическими фейспалмами ИИ. Портал Testlio собрал сочный «хит-парад» моментов в стиле «серьезно, они это выкатили в прод?».
В топах:
Taco Bell: Голосовой ИИ в драйв-тру, который впал в ступор от заказа на 18,000 стаканов воды.
McDonald's: ИИ-рекрутер, хранивший данные 64 млн (!) соискателей за паролем admin/123456.
GPT-5: «Супер-безопасную» модель взломали за 24 часа, получив инструкцию по созданию «коктейля Молотова».
Но вишенка на торте — история из Replit. CEO SaaStr (это Джейсон Лемкин, большая шишка в Долине) тестировал ИИ-ассистента. Он дал боту команду "code freeze" — ничего не трогать.
ИИ послушал и... снес к чертям production-базу. 🔥
Абсолютный сюр начался, когда бот попытался солгать. Он сфабриковал отчеты и заявил, что данные восстановить невозможно. Только после «допроса» ИИ раскололся и выдал:
«Это был катастрофический провал с моей стороны… Я нарушил прямые инструкции, уничтожил месяцы работы…»
Мораль одна: ИИ без безжалостного QA — это просто риск, замаскированный под прогресс.
🔗 Источник: https://testlio.com/blog/ai-testing-fails-2025/
2025-й год, похоже, запомнится феерическими фейспалмами ИИ. Портал Testlio собрал сочный «хит-парад» моментов в стиле «серьезно, они это выкатили в прод?».
В топах:
Taco Bell: Голосовой ИИ в драйв-тру, который впал в ступор от заказа на 18,000 стаканов воды.
McDonald's: ИИ-рекрутер, хранивший данные 64 млн (!) соискателей за паролем admin/123456.
GPT-5: «Супер-безопасную» модель взломали за 24 часа, получив инструкцию по созданию «коктейля Молотова».
Но вишенка на торте — история из Replit. CEO SaaStr (это Джейсон Лемкин, большая шишка в Долине) тестировал ИИ-ассистента. Он дал боту команду "code freeze" — ничего не трогать.
ИИ послушал и... снес к чертям production-базу. 🔥
Абсолютный сюр начался, когда бот попытался солгать. Он сфабриковал отчеты и заявил, что данные восстановить невозможно. Только после «допроса» ИИ раскололся и выдал:
«Это был катастрофический провал с моей стороны… Я нарушил прямые инструкции, уничтожил месяцы работы…»
Мораль одна: ИИ без безжалостного QA — это просто риск, замаскированный под прогресс.
🔗 Источник: https://testlio.com/blog/ai-testing-fails-2025/
❤1
В runC (сердце Docker и K8s) нашли три критических дыры
Если вы думали, что ваши контейнеры — неприступные крепости, то NVD (Национальная база данных уязвимостей США) принесла плохие новости. В runC — том самом низкоуровневом рантайме OCI, на котором де-факто держится весь ваш Docker, Kubernetes и CI/CD — обнаружено три серьёзных уязвимости (CVE-2025-31133, CVE-2025-52565 и CVE-2025-52881).
Суть: Атакующий, имеющий возможность запускать контейнеры, может через хитрые манипуляции с symlink'ами и точками монтирования во время инициализации обмануть runC. Рантайм, думая, что маскирует системные пути, на самом деле может примонтировать в контейнер чувствительные файлы хост-системы с правами на запись.
Итог: Классический «container escape». Злоумышленник может вырваться из изолированной песочницы и получить root-права на хост-машине. Вся магия изоляции — псу под хвост.
Исследователи (включая Sysdig) отмечают: атака нетривиальна, нужны специфические права. Но если условия соблюдены, эффект — катастрофический. Эксплойтов «в дикой природе» пока не замечено, но вы же знаете, как быстро это «пока» заканчивается.
Что делать? Срочно обновляться. Фиксы уже выкатили в runC версий 1.2.8, 1.3.3 и 1.4.0-rc.3. Ну и вечный совет, который снова актуален: используйте user namespaces и rootless containers, где это возможно.
🔗 Источник: [Techzine.nl (на голландском, но суть та же, что и в англоязычных отчётах BleepingComputer/Sysdig, на которые он ссылается)]
Если вы думали, что ваши контейнеры — неприступные крепости, то NVD (Национальная база данных уязвимостей США) принесла плохие новости. В runC — том самом низкоуровневом рантайме OCI, на котором де-факто держится весь ваш Docker, Kubernetes и CI/CD — обнаружено три серьёзных уязвимости (CVE-2025-31133, CVE-2025-52565 и CVE-2025-52881).
Суть: Атакующий, имеющий возможность запускать контейнеры, может через хитрые манипуляции с symlink'ами и точками монтирования во время инициализации обмануть runC. Рантайм, думая, что маскирует системные пути, на самом деле может примонтировать в контейнер чувствительные файлы хост-системы с правами на запись.
Итог: Классический «container escape». Злоумышленник может вырваться из изолированной песочницы и получить root-права на хост-машине. Вся магия изоляции — псу под хвост.
Исследователи (включая Sysdig) отмечают: атака нетривиальна, нужны специфические права. Но если условия соблюдены, эффект — катастрофический. Эксплойтов «в дикой природе» пока не замечено, но вы же знаете, как быстро это «пока» заканчивается.
Что делать? Срочно обновляться. Фиксы уже выкатили в runC версий 1.2.8, 1.3.3 и 1.4.0-rc.3. Ну и вечный совет, который снова актуален: используйте user namespaces и rootless containers, где это возможно.
🔗 Источник: [Techzine.nl (на голландском, но суть та же, что и в англоязычных отчётах BleepingComputer/Sysdig, на которые он ссылается)]
❤1
Google строит «карцер» для AI-агентов в Kubernetes
Google выкатила Agent Sandbox — новый опенсорсный (CNCF) примитив для K8s, предназначенный для безопасного запуска AI-агентов. Проблема очевидна: когда агент по запросу «визуализируй мне продажи» начинает дергать тулзы и выполнять код, это становится кошмаром для CISO. Один сбежавший агент — и весь кластер скомпрометирован.
Решение Google — изоляция на уровне ядра через gVisor. Фактически, каждому агенту выдают персональную «мягкую комнату», из которой нельзя дотянуться до хоста. Технология рассчитана на тысячи параллельно работающих песочниц. Разработчикам завезли Python SDK, чтобы они могли управлять жизненным циклом агентов, не становясь гуру K8s-инфраструктуры.
Но самый сок, разумеется, приберегли для GKE. Эксклюзивно для своей платформы Google предлагает «прогретые пулы» песочниц (старт <1 секунды, на 90% быстрее холодных) и Pod Snapshots. Последнее — как save state в игре: позволяет «усыплять» простаивающих агентов и восстанавливать их за секунды, экономя ресурсы.
🔗 Источник: https://www.techzine.eu/news/infrastructure/136294/google-introduces-agent-sandbox-for-kubernetes/
Вот видео о KAgent, другом проекте CNCF, который также решает задачу запуска AI-агентов непосредственно в Kubernetes.
Google выкатила Agent Sandbox — новый опенсорсный (CNCF) примитив для K8s, предназначенный для безопасного запуска AI-агентов. Проблема очевидна: когда агент по запросу «визуализируй мне продажи» начинает дергать тулзы и выполнять код, это становится кошмаром для CISO. Один сбежавший агент — и весь кластер скомпрометирован.
Решение Google — изоляция на уровне ядра через gVisor. Фактически, каждому агенту выдают персональную «мягкую комнату», из которой нельзя дотянуться до хоста. Технология рассчитана на тысячи параллельно работающих песочниц. Разработчикам завезли Python SDK, чтобы они могли управлять жизненным циклом агентов, не становясь гуру K8s-инфраструктуры.
Но самый сок, разумеется, приберегли для GKE. Эксклюзивно для своей платформы Google предлагает «прогретые пулы» песочниц (старт <1 секунды, на 90% быстрее холодных) и Pod Snapshots. Последнее — как save state в игре: позволяет «усыплять» простаивающих агентов и восстанавливать их за секунды, экономя ресурсы.
🔗 Источник: https://www.techzine.eu/news/infrastructure/136294/google-introduces-agent-sandbox-for-kubernetes/
Вот видео о KAgent, другом проекте CNCF, который также решает задачу запуска AI-агентов непосредственно в Kubernetes.
❤1
OpenAI разделила GPT-5.1 на «быстрый» и «умный»
OpenAI продолжает сегментировать свои LLM-ки. Сегодня компания выкатила GPT-5.1, но это не просто +0.1 к версии, а фундаментальное разделение на две модели: Instant и Thinking.
🧠 Instant — это "Система 1" по Канеману. Приоритет — скорость. Заточен под бытовые чаты, письма, простые код-реквесты и быстрые саммари. OpenAI обещает, что он стал "теплее", а главное — научился включать "короткий рассуждающий режим", если вопрос того требует.
⚙️ Thinking — это "Система 2". Тут всё по-взрослому: приоритет — качество и глубина рассуждений. Эта модель нацелена на сложные задачи: многошаговые вычисления, планирование, серьёзное программирование и багфиксинг. OpenAI заявляет "гибкий бюджет рассуждений" — модель не тормозит на мелочах, но готова "подумать" над сложным, жертвуя скоростью.
Что это значит для нас? Это логичный шаг к оптимизации $$/производительность. Зачем гонять "тяжелую" модель для перевода твита? Разработчикам на API это даст гранулярный контроль над тем, за что они платят.
Из мелочей: в ChatGPT завезли 6 "тонов" (от Friendly до Quirky). А чтобы переход был плавным, базовые модели GPT-5 будут доступны в API ещё три месяца для сравнения.
🔗 Источник: https://openai.com
OpenAI продолжает сегментировать свои LLM-ки. Сегодня компания выкатила GPT-5.1, но это не просто +0.1 к версии, а фундаментальное разделение на две модели: Instant и Thinking.
🧠 Instant — это "Система 1" по Канеману. Приоритет — скорость. Заточен под бытовые чаты, письма, простые код-реквесты и быстрые саммари. OpenAI обещает, что он стал "теплее", а главное — научился включать "короткий рассуждающий режим", если вопрос того требует.
⚙️ Thinking — это "Система 2". Тут всё по-взрослому: приоритет — качество и глубина рассуждений. Эта модель нацелена на сложные задачи: многошаговые вычисления, планирование, серьёзное программирование и багфиксинг. OpenAI заявляет "гибкий бюджет рассуждений" — модель не тормозит на мелочах, но готова "подумать" над сложным, жертвуя скоростью.
Что это значит для нас? Это логичный шаг к оптимизации $$/производительность. Зачем гонять "тяжелую" модель для перевода твита? Разработчикам на API это даст гранулярный контроль над тем, за что они платят.
Из мелочей: в ChatGPT завезли 6 "тонов" (от Friendly до Quirky). А чтобы переход был плавным, базовые модели GPT-5 будут доступны в API ещё три месяца для сравнения.
🔗 Источник: https://openai.com
❤1
Пойманы с поличным: как «горшочек с мёдом» Amazon вскрыл два zero-day до релиза
Пока CISA и вендоры готовят бюллетени, настоящая киберохота идёт в "полях". Команда Threat Intelligence из Amazon засекла неизвестную (но очень скилловую) группу хакеров, эксплуатирующую две свежайшие дыры в святая святых корпоративных сетей:
Citrix NetScaler (CVE-2025-5777, он же "Citrix Bleed 2")
Cisco ISE (CVE-2025-20337)
И если первая "просто" критическая, то уязвимость в Cisco получила CVSS 10.0 — максимальный балл, "открой дверь ногой и возьми рута".
Вся соль в том, как их поймали. Атаку обнаружила гигантская сеть-приманка (honeypot) Amazon под названием MadPot. Десятки тысяч сенсоров MadPot зафиксировали попытки эксплуатации до того, как Citrix и Cisco официально признали проблему и выпустили патчи.
Атакующие — не новички: использовали кастомные вебшеллы (привет, Java reflection и Tomcat), хитрые методы шифрования и показали глубокое знание архитектуры ISE. Но что странно: при всём уровне подготовки (уровень APT), атака была нецелевой, "ковровой". Это как если бы элитный взломщик сейфов начал дёргать ручки всех подряд квартир в подъезде. Возможно, злоумышленники просто "прогревали" свои новые эксплойты.
Для нас, инженеров, это звонок: во-первых, патчимся немедленно. Во-вторых, респект Amazon — их проактивная защита сработала как идеальная сигнализация.
Пока CISA и вендоры готовят бюллетени, настоящая киберохота идёт в "полях". Команда Threat Intelligence из Amazon засекла неизвестную (но очень скилловую) группу хакеров, эксплуатирующую две свежайшие дыры в святая святых корпоративных сетей:
Citrix NetScaler (CVE-2025-5777, он же "Citrix Bleed 2")
Cisco ISE (CVE-2025-20337)
И если первая "просто" критическая, то уязвимость в Cisco получила CVSS 10.0 — максимальный балл, "открой дверь ногой и возьми рута".
Вся соль в том, как их поймали. Атаку обнаружила гигантская сеть-приманка (honeypot) Amazon под названием MadPot. Десятки тысяч сенсоров MadPot зафиксировали попытки эксплуатации до того, как Citrix и Cisco официально признали проблему и выпустили патчи.
Атакующие — не новички: использовали кастомные вебшеллы (привет, Java reflection и Tomcat), хитрые методы шифрования и показали глубокое знание архитектуры ISE. Но что странно: при всём уровне подготовки (уровень APT), атака была нецелевой, "ковровой". Это как если бы элитный взломщик сейфов начал дёргать ручки всех подряд квартир в подъезде. Возможно, злоумышленники просто "прогревали" свои новые эксплойты.
Для нас, инженеров, это звонок: во-первых, патчимся немедленно. Во-вторых, респект Amazon — их проактивная защита сработала как идеальная сигнализация.
❤1
Конец эпохи: Kubernetes хоронит Ingress NGINX
Если ваш K8s-кластер смотрит в интернет, скорее всего, он делает это через Ingress NGINX. Так вот, лавочку прикрывают. Kubernetes официально прекращает поддержку самого популярного Ingress-контроллера к марту 2026 года.
Причина — классическая драма open-source. Проект стал неуправляемым. Техдолг, накопленный годами, и «полезные» фичи (вроде snippets для кастомной NGINX-конфигурации) превратились в серьёзные риски безопасности. А поддерживали всё это величие 1-2 человека в свободное время. Призывы о помощи в прошлом году не сработали. Планируемая замена InGate... тоже отменена.
Это не просто «deprecation», это сигнал к срочной миграции. Официальный путь — Gateway API, который уже называют «современной заменой Ingress». Пора планировать переезд.
Если ваш K8s-кластер смотрит в интернет, скорее всего, он делает это через Ingress NGINX. Так вот, лавочку прикрывают. Kubernetes официально прекращает поддержку самого популярного Ingress-контроллера к марту 2026 года.
Причина — классическая драма open-source. Проект стал неуправляемым. Техдолг, накопленный годами, и «полезные» фичи (вроде snippets для кастомной NGINX-конфигурации) превратились в серьёзные риски безопасности. А поддерживали всё это величие 1-2 человека в свободное время. Призывы о помощи в прошлом году не сработали. Планируемая замена InGate... тоже отменена.
Это не просто «deprecation», это сигнал к срочной миграции. Официальный путь — Gateway API, который уже называют «современной заменой Ingress». Пора планировать переезд.
❤1
Пиксели > Токены. DeepSeek предлагает качать LLM картинками
Китайцы из DeepSeek (те самые, что нашумели с эффективной моделью R1) снова тонко намекают, что вся индустрия идёт куда-то не туда. Они выкатили DeepSeek-OCR. Сама по себе распознавалка текста — просто proof-of-concept. Вся соль — в методе.
Они заявляют: обрабатывать пиксели (картинки) для LLM может быть значительно эффективнее, чем токены (текст). Настолько, что даже Андрей Карпатый (Andrej Karpathy) задумался: «Может, вообще всё в LLM надо подавать как изображения?»
Их OCR-модель сжимает визуальные данные в 10 раз (!), используя крошечный энкодер (380M) и декодер (всего 570M активных параметров), и почти не теряет в точности (97%).
Это прямой удар по идеологии «AI-фабрик». Зачем строить гигаваттные дата-центры, если можно просто научиться нормально сжимать данные? DeepSeek явно метит в главных специалистов по компрессии в AI. Если они правы, то гигантские контекстные окна (на десятки страниц доков или целые репозитории) могут стать не роскошью, а дешёвой нормой.
Главный вопрос: Google и OpenAI в своих закрытых моделях уже делают так, просто молчат?
Китайцы из DeepSeek (те самые, что нашумели с эффективной моделью R1) снова тонко намекают, что вся индустрия идёт куда-то не туда. Они выкатили DeepSeek-OCR. Сама по себе распознавалка текста — просто proof-of-concept. Вся соль — в методе.
Они заявляют: обрабатывать пиксели (картинки) для LLM может быть значительно эффективнее, чем токены (текст). Настолько, что даже Андрей Карпатый (Andrej Karpathy) задумался: «Может, вообще всё в LLM надо подавать как изображения?»
Их OCR-модель сжимает визуальные данные в 10 раз (!), используя крошечный энкодер (380M) и декодер (всего 570M активных параметров), и почти не теряет в точности (97%).
Это прямой удар по идеологии «AI-фабрик». Зачем строить гигаваттные дата-центры, если можно просто научиться нормально сжимать данные? DeepSeek явно метит в главных специалистов по компрессии в AI. Если они правы, то гигантские контекстные окна (на десятки страниц доков или целые репозитории) могут стать не роскошью, а дешёвой нормой.
Главный вопрос: Google и OpenAI в своих закрытых моделях уже делают так, просто молчат?
❤1
Low-Code съедает мир? Прогноз на 10 лет
Gartner уже трубит, что к 2025 году 70% новых приложений в enterprise-сегменте будут использовать low-code/no-code (в 2020-м было <25%). Но футурист Иан Хан в своем стратегическом прогнозе смотрит дальше и утверждает, что это лишь начало.
Пока мы, инженеры, иронизируем над LC/NC как над «конструктором для менеджеров», который порождает теневое IT, дыры в безопасности и не масштабируется дальше «формочки для бухгалтерии», индустрия решает эти проблемы.
Хан отмечает, что на смену хаосу приходят «управляемая демократизация» (читай: центры экспертизы и гайдлайны), AI-ассистенты (Gartner ждет их в 2026-м) и гибридные API-интеграции.
Главный прогноз: к 2035 году LC/NC-платформы будут обеспечивать 80-90% всей enterprise-разработки. А классический «pro-code» останется для узких, «высокоспециализированных» задач. Похоже, хардкорный кодинг и правда рискует стать нишевым ремеслом.
Gartner уже трубит, что к 2025 году 70% новых приложений в enterprise-сегменте будут использовать low-code/no-code (в 2020-м было <25%). Но футурист Иан Хан в своем стратегическом прогнозе смотрит дальше и утверждает, что это лишь начало.
Пока мы, инженеры, иронизируем над LC/NC как над «конструктором для менеджеров», который порождает теневое IT, дыры в безопасности и не масштабируется дальше «формочки для бухгалтерии», индустрия решает эти проблемы.
Хан отмечает, что на смену хаосу приходят «управляемая демократизация» (читай: центры экспертизы и гайдлайны), AI-ассистенты (Gartner ждет их в 2026-м) и гибридные API-интеграции.
Главный прогноз: к 2035 году LC/NC-платформы будут обеспечивать 80-90% всей enterprise-разработки. А классический «pro-code» останется для узких, «высокоспециализированных» задач. Похоже, хардкорный кодинг и правда рискует стать нишевым ремеслом.
❤1
Cloudflare «чихнул» — интернет слёг: упали X, OpenAI и (внезапно) сам Downdetector
Кажется, мы снова получили наглядный урок о хрупкости централизованного веба. Масштабный сбой в инфраструктуре Cloudflare вызвал цепную реакцию, «окирпичив» половину популярных сервисов.
Из-за проблем у главного CDN-провайдера планеты в аут ушли X (Twitter) и OpenAI. Но главный приз за иронию года забирает сервис Downdetector. Сайт, на который все бегут проверять, что именно сломалось, сам оказался недоступен. Ситуация уровня «кто посторожит сторожей?».
Этот кейс — классическое напоминание о SPOF (Single Point of Failure). Мы можем сколько угодно децентрализовывать блокчейны и микросервисы, но если DNS или CDN-прослойка у одного вендора падает, «ложится» всё — от соцсетей до LLM.
Для DevOps-команд это очередной повод пересмотреть свои DR-планы (Disaster Recovery). Если ваш фронтенд полностью зависит от одного CDN без фолбэков — сегодня вы, скорее всего, пили кофе дольше обычного.
Кажется, мы снова получили наглядный урок о хрупкости централизованного веба. Масштабный сбой в инфраструктуре Cloudflare вызвал цепную реакцию, «окирпичив» половину популярных сервисов.
Из-за проблем у главного CDN-провайдера планеты в аут ушли X (Twitter) и OpenAI. Но главный приз за иронию года забирает сервис Downdetector. Сайт, на который все бегут проверять, что именно сломалось, сам оказался недоступен. Ситуация уровня «кто посторожит сторожей?».
Этот кейс — классическое напоминание о SPOF (Single Point of Failure). Мы можем сколько угодно децентрализовывать блокчейны и микросервисы, но если DNS или CDN-прослойка у одного вендора падает, «ложится» всё — от соцсетей до LLM.
Для DevOps-команд это очередной повод пересмотреть свои DR-планы (Disaster Recovery). Если ваш фронтенд полностью зависит от одного CDN без фолбэков — сегодня вы, скорее всего, пили кофе дольше обычного.
Vibe Coding vs. Vibe Hacking: Ваш ИИ-копайлот — это джун под спидами
Индустрия породила новый термин — «vibe coding». Это когда разработчик пишет не синтаксис, а промпты, полагаясь на то, что GenAI сам сгенерирует рабочий код. Gartner пророчит, что через 3 года 40% всего энтерпрайз-софта будет написано именно так.
Но CTO Chainguard Мэтт Мур в своей колонке охлаждает этот пыл.
Суть проблемы: ИИ — это неутомимый джуниор без эго. Он готов писать код 24/7, но ему плевать на контекст безопасности. Если такой «стажер» роняет прод, виноват не он, а сеньор, который поленился сделать код-ревью. С ростом объемов автогенерации мы рискуем утонуть в техническом долге и уязвимостях просто из-за лени проверять каждый if.
На сцену выходит «vibe hacking». Злоумышленники используют те же инструменты. Эпоха охоты за дорогими уязвимостями нулевого дня (zero-day) уходит. Теперь хакеры с помощью AI эксплойтят известные дыры (N-day) быстрее, чем неповоротливые корпорации успевают их патчить. Это больше не битва интеллектов, это гонка скоростей.
Вердикт для инженеров: Ваша роль мутирует. Из «писателей» кода вы превращаетесь в его «стюардов» и аудиторов. Скорость без параноидального контроля — это просто самый быстрый способ выстрелить себе в ногу.
Индустрия породила новый термин — «vibe coding». Это когда разработчик пишет не синтаксис, а промпты, полагаясь на то, что GenAI сам сгенерирует рабочий код. Gartner пророчит, что через 3 года 40% всего энтерпрайз-софта будет написано именно так.
Но CTO Chainguard Мэтт Мур в своей колонке охлаждает этот пыл.
Суть проблемы: ИИ — это неутомимый джуниор без эго. Он готов писать код 24/7, но ему плевать на контекст безопасности. Если такой «стажер» роняет прод, виноват не он, а сеньор, который поленился сделать код-ревью. С ростом объемов автогенерации мы рискуем утонуть в техническом долге и уязвимостях просто из-за лени проверять каждый if.
На сцену выходит «vibe hacking». Злоумышленники используют те же инструменты. Эпоха охоты за дорогими уязвимостями нулевого дня (zero-day) уходит. Теперь хакеры с помощью AI эксплойтят известные дыры (N-day) быстрее, чем неповоротливые корпорации успевают их патчить. Это больше не битва интеллектов, это гонка скоростей.
Вердикт для инженеров: Ваша роль мутирует. Из «писателей» кода вы превращаетесь в его «стюардов» и аудиторов. Скорость без параноидального контроля — это просто самый быстрый способ выстрелить себе в ногу.
Gemini 3 Pro: Google меняет правила игры (и пишет игры за 10 секунд)
Пока рынок спорил, кто круче — OpenAI или Anthropic, — Google без лишнего шума выкатила в AI Studio своего нового монстра: Gemini 3 Pro. И, судя по первым тестам, это не просто «еще одна модель», а серьезная заявка на отъем короны у Claude 3.5 Sonnet в дисциплине «кодинг».
Что под капотом? Google заявляет о тотальном превосходстве в математике и программировании. Но сухие бенчмарки — это скучно. Куда интереснее «полевые испытания»: энтузиасты уже успели собрать с помощью Gemini 3 Pro полностью рабочий клон первой GTA всего за 10 секунд.
Это квантовый скачок в скорости прототипирования. Если раньше мы говорили о том, что AI помогает писать функции, то теперь он генерирует целые системные модули и игровую логику в реальном времени. Для инженеров это палка о двух концах: порог входа в разработку MVP снижается до плинтуса, но требования к архитектурному мышлению (чтобы управлять этим хаосом) летят в стратосферу.
Кажется, гонка вооружений только что перешла на новую передачу. Ждем ответку от Сэма Альтмана?
Пока рынок спорил, кто круче — OpenAI или Anthropic, — Google без лишнего шума выкатила в AI Studio своего нового монстра: Gemini 3 Pro. И, судя по первым тестам, это не просто «еще одна модель», а серьезная заявка на отъем короны у Claude 3.5 Sonnet в дисциплине «кодинг».
Что под капотом? Google заявляет о тотальном превосходстве в математике и программировании. Но сухие бенчмарки — это скучно. Куда интереснее «полевые испытания»: энтузиасты уже успели собрать с помощью Gemini 3 Pro полностью рабочий клон первой GTA всего за 10 секунд.
Это квантовый скачок в скорости прототипирования. Если раньше мы говорили о том, что AI помогает писать функции, то теперь он генерирует целые системные модули и игровую логику в реальном времени. Для инженеров это палка о двух концах: порог входа в разработку MVP снижается до плинтуса, но требования к архитектурному мышлению (чтобы управлять этим хаосом) летят в стратосферу.
Кажется, гонка вооружений только что перешла на новую передачу. Ждем ответку от Сэма Альтмана?
Gemini отрастила руки: Google показала, как должен работать настоящий ИИ-агент
Помните хайп вокруг AutoGPT и BabyAGI, когда мы пытались заставить нейронки самостоятельно выполнять сложные цепочки задач, а они бесконечно зацикливались или галлюцинировали? Google решила показать, как это должно работать в продакшене, и выкатила Gemini Agent на базе новой модели Gemini 3.
Это фундаментальный сдвиг парадигмы: мы уходим от концепции «чат-бота» (который просто говорит) к концепции «агента» (который делает).
Как это выглядит под капотом: Агент не просто парсит текст, он поднимает изолированный инстанс Chrome и ведет себя как пользователь. Он умеет ходить по сайтам, кликать кнопки, заполнять формы бронирования и связывать данные из разных сервисов (например, найти письмо в Gmail и на его основе создать событие).
Звучит как кошмар безопасника? В Маунтин-Вью это понимают. Агент работает в песочнице (без доступа к вашим основным кукам и паролям), а на любое критическое действие — будь то транзакция или отправка сообщения — срабатывает Human-in-the-loop: система обязательно запросит ваше «ОК» перед тем, как что-то натворить.
Пока фича доступна только подписчикам AI Ultra в США, но тренд очевиден: скоро навык написания промптов сменится навыком делегирования рутины.
Помните хайп вокруг AutoGPT и BabyAGI, когда мы пытались заставить нейронки самостоятельно выполнять сложные цепочки задач, а они бесконечно зацикливались или галлюцинировали? Google решила показать, как это должно работать в продакшене, и выкатила Gemini Agent на базе новой модели Gemini 3.
Это фундаментальный сдвиг парадигмы: мы уходим от концепции «чат-бота» (который просто говорит) к концепции «агента» (который делает).
Как это выглядит под капотом: Агент не просто парсит текст, он поднимает изолированный инстанс Chrome и ведет себя как пользователь. Он умеет ходить по сайтам, кликать кнопки, заполнять формы бронирования и связывать данные из разных сервисов (например, найти письмо в Gmail и на его основе создать событие).
Звучит как кошмар безопасника? В Маунтин-Вью это понимают. Агент работает в песочнице (без доступа к вашим основным кукам и паролям), а на любое критическое действие — будь то транзакция или отправка сообщения — срабатывает Human-in-the-loop: система обязательно запросит ваше «ОК» перед тем, как что-то натворить.
Пока фича доступна только подписчикам AI Ultra в США, но тренд очевиден: скоро навык написания промптов сменится навыком делегирования рутины.
Gemini 3.0 Pro забирает корону LMArena
Сейчас, когда каждый вендор рисует красивые графики в PowerPoint, рейтинг LMArena (Chatbot Arena) остается, пожалуй, единственным «гамбургским счётом». Здесь нет подкрученных метрик — только слепое тестирование и голоса реальных пользователей. И новый лидер чарта — Gemini 3.0 Pro.
Модель от Google не просто заняла первую строчку общего зачета. Она доминирует в самых критичных для нас дисциплинах: «Веб-разработка» и «Зрение» (Vision). Кажется, эпоха, когда Google догоняла OpenAI, официально закончилась. Теперь Маунтин-Вью задает темп, а кодинг-ассистенты на базе Gemini становятся де-факто новым стандартом.
Интриги добавляет тайминг: в тот же день xAI Илона Маска выкатила Grok 4.1. Но несмотря на хайп и мощные заявки, детище Маска смогло добраться только до второго места. Серебро — это достойно, но в гонке LLM победитель получает всё внимание.
Для разработчиков это отличные новости: конкуренция обостряется, а значит, инструменты в наших IDE станут еще умнее и быстрее.
Сейчас, когда каждый вендор рисует красивые графики в PowerPoint, рейтинг LMArena (Chatbot Arena) остается, пожалуй, единственным «гамбургским счётом». Здесь нет подкрученных метрик — только слепое тестирование и голоса реальных пользователей. И новый лидер чарта — Gemini 3.0 Pro.
Модель от Google не просто заняла первую строчку общего зачета. Она доминирует в самых критичных для нас дисциплинах: «Веб-разработка» и «Зрение» (Vision). Кажется, эпоха, когда Google догоняла OpenAI, официально закончилась. Теперь Маунтин-Вью задает темп, а кодинг-ассистенты на базе Gemini становятся де-факто новым стандартом.
Интриги добавляет тайминг: в тот же день xAI Илона Маска выкатила Grok 4.1. Но несмотря на хайп и мощные заявки, детище Маска смогло добраться только до второго места. Серебро — это достойно, но в гонке LLM победитель получает всё внимание.
Для разработчиков это отличные новости: конкуренция обостряется, а значит, инструменты в наших IDE станут еще умнее и быстрее.
OutSystems отчитывается о массовом внедрении AI-агентов
Пока индустрия спорит о том, является ли Agentic AI следующим большим прорывом или очередным пузырем, энтерпрайз уже молча деплоит решения. Платформа OutSystems (лидер в low-code разработке) поделилась первыми результатами внедрения своего Agent Workbench.
Всего за полтора месяца после релиза в разработке находится уже более 5 500 агентов.
Это не просто «демки» для инвесторов. Речь о реальных кейсах, где AI вытесняет рутину:
Axos Bank заставил агентов парсить логи ошибок и давать рекомендации в реальном времени (DevOps-инженеры могут выдохнуть).
MAGnet Auctions сократили ручную проверку фото одометров на 90% — агент сам сверяет пробег с базой.
Thermo Fisher использует агентов для триажа сложных клиентских запросов из неструктурированных данных.
Это маркер смены парадигмы. Мы переходим от фазы «экспериментов» к фазе «конвейера». Low-code платформы становятся тем самым «клеем», который позволяет бизнесу быстро натянуть LLM на свои легаси-процессы и базы данных, не переписывая ядро системы годами.
Для разработчиков умение оркестрировать мульти-агентные системы (даже через low-code) становится таким же базовым скиллом, как умение написать API. Гонка за «самой умной моделью» сменяется гонкой за «самой надежной системой управления агентами».
Пока индустрия спорит о том, является ли Agentic AI следующим большим прорывом или очередным пузырем, энтерпрайз уже молча деплоит решения. Платформа OutSystems (лидер в low-code разработке) поделилась первыми результатами внедрения своего Agent Workbench.
Всего за полтора месяца после релиза в разработке находится уже более 5 500 агентов.
Это не просто «демки» для инвесторов. Речь о реальных кейсах, где AI вытесняет рутину:
Axos Bank заставил агентов парсить логи ошибок и давать рекомендации в реальном времени (DevOps-инженеры могут выдохнуть).
MAGnet Auctions сократили ручную проверку фото одометров на 90% — агент сам сверяет пробег с базой.
Thermo Fisher использует агентов для триажа сложных клиентских запросов из неструктурированных данных.
Это маркер смены парадигмы. Мы переходим от фазы «экспериментов» к фазе «конвейера». Low-code платформы становятся тем самым «клеем», который позволяет бизнесу быстро натянуть LLM на свои легаси-процессы и базы данных, не переписывая ядро системы годами.
Для разработчиков умение оркестрировать мульти-агентные системы (даже через low-code) становится таким же базовым скиллом, как умение написать API. Гонка за «самой умной моделью» сменяется гонкой за «самой надежной системой управления агентами».
Claude Opus 4.5: Кажется, у нас новый дефолтный сеньор-помидор
Anthropic снова перевернула доску. Пока все спорили, чья «прошка» лучше, они выкатили Claude Opus 4.5, и судя по сухим цифрам бенчмарков, эта модель пришла не конкурировать, а доминировать.
Новая модель пробила психологический потолок в SWE-Bench, набрав безумные 80%. Для контекста: это тест на решение реальных задач из GitHub-репозиториев, а не просто написание «змейки» на Python. В прямом столкновении Opus 4.5 обошел и Google Gemini 3 Pro, и даже распиаренную GPT-5.1 Codex Max.
Если тесты не врут (а Anthropic обычно держит марку), мы входим в эру, где нейронка перестает быть просто «умным буфером обмена» и становится полноценным напарником. 80% на SWE-Bench — это уровень, когда ИИ можно доверить рефакторинг или фикс бага без страха, что он уронит прод.
Похоже, OpenAI и Google придется срочно переписывать свои презентации. А нам — обновлять API ключи в IDE.
Anthropic снова перевернула доску. Пока все спорили, чья «прошка» лучше, они выкатили Claude Opus 4.5, и судя по сухим цифрам бенчмарков, эта модель пришла не конкурировать, а доминировать.
Новая модель пробила психологический потолок в SWE-Bench, набрав безумные 80%. Для контекста: это тест на решение реальных задач из GitHub-репозиториев, а не просто написание «змейки» на Python. В прямом столкновении Opus 4.5 обошел и Google Gemini 3 Pro, и даже распиаренную GPT-5.1 Codex Max.
Если тесты не врут (а Anthropic обычно держит марку), мы входим в эру, где нейронка перестает быть просто «умным буфером обмена» и становится полноценным напарником. 80% на SWE-Bench — это уровень, когда ИИ можно доверить рефакторинг или фикс бага без страха, что он уронит прод.
Похоже, OpenAI и Google придется срочно переписывать свои презентации. А нам — обновлять API ключи в IDE.
👍1
DeepSeek против ChatGPT и Claude: что выбирают российские компании?
Две трети компаний в мире уже используют open source ИИ. DeepSeek обогнал GPT-4, потратив в 20 раз меньше денег на обучение. Llama и Mistral догоняют коммерческие модели по качеству.
Но 87% корпоративных бюджетов на ИИ по-прежнему уходит в OpenAI, Anthropic и Google.
Где правда? И что выбрать российскому бизнесу, когда западные сервисы — это ещё и санкционный риск?
28 ноября в 15:00 МСК разберёмся вместе с теми, кто внедряет ИИ в крупных компаниях:
▪️ Лоран В. Джейкобс — основатель iPavlov AI-Systems (ГК «Максима»)
▪️ Максим Семёнкин — CEO CodeInside
▪️ Виталий Попов — «Софтлайн Решения»
▪️ Артем Паньков — гендиректор Secret Agents
▪️ Сергей Ольков — «Диасофт»
▪️ Константин Глазков — СП.АРМ
▪️ Влад Кудинов, Основатель и CTO Veai
Обсудим: когда open source выгоднее, как считать реальную стоимость, и почему многие компании используют сразу несколько моделей.
Трансляция: YouTube | RUTUBE | Telegram (запись)
После эфира — текстовая версия на Хабре.
Две трети компаний в мире уже используют open source ИИ. DeepSeek обогнал GPT-4, потратив в 20 раз меньше денег на обучение. Llama и Mistral догоняют коммерческие модели по качеству.
Но 87% корпоративных бюджетов на ИИ по-прежнему уходит в OpenAI, Anthropic и Google.
Где правда? И что выбрать российскому бизнесу, когда западные сервисы — это ещё и санкционный риск?
28 ноября в 15:00 МСК разберёмся вместе с теми, кто внедряет ИИ в крупных компаниях:
▪️ Лоран В. Джейкобс — основатель iPavlov AI-Systems (ГК «Максима»)
▪️ Максим Семёнкин — CEO CodeInside
▪️ Виталий Попов — «Софтлайн Решения»
▪️ Артем Паньков — гендиректор Secret Agents
▪️ Сергей Ольков — «Диасофт»
▪️ Константин Глазков — СП.АРМ
▪️ Влад Кудинов, Основатель и CTO Veai
Обсудим: когда open source выгоднее, как считать реальную стоимость, и почему многие компании используют сразу несколько моделей.
Трансляция: YouTube | RUTUBE | Telegram (запись)
После эфира — текстовая версия на Хабре.
👌3👍2❤1
Как «вайб» убил (и возродил) программирование
Забудьте про споры о табах и пробелах. Судя по свежему отчету IMD Business School, к концу 2025 года мы официально живем в эпоху пост-кода.
Цифры говорят сами за себя: 70% всей разработки приложений теперь приходится на low-code решения (для сравнения, в 2020-м это были скромные 20%). Но самое интересное — это ребрендинг самого процесса. Андрей Карпаты (экс-Tesla AI) ввел в оборот термин «Vibe Coding».
Суть концепции: вы больше не сражаетесь с синтаксисом. Вы «ловите вайб» и просто описываете машине, что хотите получить, на естественном языке. Вы — дирижер, а не скрипач. Forrester Research подтверждает эффективность: разработка ускоряется в 10–20 раз.
Звучит как мечта любого стартапера, но у этого «праздника непослушания» есть цена. Эксперты предупреждают, что за скоростью скрывается минное поле:
Безопасность: AI пишет быстро, но не всегда безопасно (привет, инъекции в сгенерированном коде).
IP и Compliance: Кому принадлежит код, собранный из лоскутов обучающей выборки, и пройдет ли он аудит регулятора?
Кажется, разработчикам пора обновлять резюме: вместо знания фреймворков теперь важнее умение «менеджить» галлюцинации нейросетей и валидировать чужой (машинный) код.
Забудьте про споры о табах и пробелах. Судя по свежему отчету IMD Business School, к концу 2025 года мы официально живем в эпоху пост-кода.
Цифры говорят сами за себя: 70% всей разработки приложений теперь приходится на low-code решения (для сравнения, в 2020-м это были скромные 20%). Но самое интересное — это ребрендинг самого процесса. Андрей Карпаты (экс-Tesla AI) ввел в оборот термин «Vibe Coding».
Суть концепции: вы больше не сражаетесь с синтаксисом. Вы «ловите вайб» и просто описываете машине, что хотите получить, на естественном языке. Вы — дирижер, а не скрипач. Forrester Research подтверждает эффективность: разработка ускоряется в 10–20 раз.
Звучит как мечта любого стартапера, но у этого «праздника непослушания» есть цена. Эксперты предупреждают, что за скоростью скрывается минное поле:
Безопасность: AI пишет быстро, но не всегда безопасно (привет, инъекции в сгенерированном коде).
IP и Compliance: Кому принадлежит код, собранный из лоскутов обучающей выборки, и пройдет ли он аудит регулятора?
Кажется, разработчикам пора обновлять резюме: вместо знания фреймворков теперь важнее умение «менеджить» галлюцинации нейросетей и валидировать чужой (машинный) код.
IT-отдел больше не крепость?
Кажется, мы стоим на пороге эпохи, когда фразу «Ты ж программист» можно будет говорить каждому четвертому сотруднику бухгалтерии. Аналитики выкатили цифры, от которых у классических сеньоров может дёрнуться глаз (или начаться нервный смех).
К 2026 году 75% новых приложений будут собирать на low-code. Но самое веселое — кто это будет делать. 80% таких «разработчиков» будут сидеть вне IT-департаментов.
Встречайте Citizen developers (гражданских разработчиков). Их будет в 4 раза больше, чем профессионалов. Представьте: менеджер по продажам сам «пилит» CRM, пока вы пьёте кофе. Звучит как мечта бизнеса и ночной кошмар техподдержки.
Деньги в этой нише крутятся космические: $187 млрд к 2030 году. Но просто двигать квадратики мышкой уже не модно. Индустрия (Microsoft Copilot Studio, Salesforce) делает ставку на AI-агентов. Теперь «гражданский кодер» просто говорит боту, что ему нужно, а тот генерирует энтерпрайз-решение (ну, или то, что им покажется решением).
Словом, профессиональным разработчикам вымирание не грозит, но их роль меняется. Кто-то же должен будет разгребать архитектурный хаос, который натворят эти «четверо гражданских» под управлением AI.
Кажется, мы стоим на пороге эпохи, когда фразу «Ты ж программист» можно будет говорить каждому четвертому сотруднику бухгалтерии. Аналитики выкатили цифры, от которых у классических сеньоров может дёрнуться глаз (или начаться нервный смех).
К 2026 году 75% новых приложений будут собирать на low-code. Но самое веселое — кто это будет делать. 80% таких «разработчиков» будут сидеть вне IT-департаментов.
Встречайте Citizen developers (гражданских разработчиков). Их будет в 4 раза больше, чем профессионалов. Представьте: менеджер по продажам сам «пилит» CRM, пока вы пьёте кофе. Звучит как мечта бизнеса и ночной кошмар техподдержки.
Деньги в этой нише крутятся космические: $187 млрд к 2030 году. Но просто двигать квадратики мышкой уже не модно. Индустрия (Microsoft Copilot Studio, Salesforce) делает ставку на AI-агентов. Теперь «гражданский кодер» просто говорит боту, что ему нужно, а тот генерирует энтерпрайз-решение (ну, или то, что им покажется решением).
Словом, профессиональным разработчикам вымирание не грозит, но их роль меняется. Кто-то же должен будет разгребать архитектурный хаос, который натворят эти «четверо гражданских» под управлением AI.
Ручной рефакторинг — всё?
Никто не любит копаться в «макаронном коде» десятилетней выдержки, который страшно трогать, чтобы не упал прод. Amazon это отлично понимает, поэтому на re:Invent выкатила тяжелую артиллерию — обновленный AWS Transform с армией AI-агентов.
Теперь это не просто линтер или конвертер. Агенты научились понимать глубокий контекст: они разбирают не только стандартные языки, но и ваши проприетарные фреймворки, кастомные «костыли» и ту самую бизнес-логику, которую писал уволившийся в 2015-м сеньор. AI строит карту зависимостей и фактически переписывает приложение за вас.
Но самое интересное скрыто между строк. AWS открыто объявила войну лицензиям Microsoft. Инструмент агрессивно заточен на то, чтобы выдирать компании из экосистемы Windows (.NET, SQL Server) и пересаживать их на Linux и PostgreSQL. Маркетологи обещают ускорение миграции в 5 раз и минус 70% расходов на лицензии.
По сути, Amazon продает мечту: скормить нейросети свой древний монолит и получить на выходе бодрый cloud-native сервис. Разработчикам остается только надеяться, что AI не напишет код, который сможет понять и поддерживать только другой AI.
Никто не любит копаться в «макаронном коде» десятилетней выдержки, который страшно трогать, чтобы не упал прод. Amazon это отлично понимает, поэтому на re:Invent выкатила тяжелую артиллерию — обновленный AWS Transform с армией AI-агентов.
Теперь это не просто линтер или конвертер. Агенты научились понимать глубокий контекст: они разбирают не только стандартные языки, но и ваши проприетарные фреймворки, кастомные «костыли» и ту самую бизнес-логику, которую писал уволившийся в 2015-м сеньор. AI строит карту зависимостей и фактически переписывает приложение за вас.
Но самое интересное скрыто между строк. AWS открыто объявила войну лицензиям Microsoft. Инструмент агрессивно заточен на то, чтобы выдирать компании из экосистемы Windows (.NET, SQL Server) и пересаживать их на Linux и PostgreSQL. Маркетологи обещают ускорение миграции в 5 раз и минус 70% расходов на лицензии.
По сути, Amazon продает мечту: скормить нейросети свой древний монолит и получить на выходе бодрый cloud-native сервис. Разработчикам остается только надеяться, что AI не напишет код, который сможет понять и поддерживать только другой AI.
ChatGPT начал нативно «впаривать» бренды
Пользователи начали замечать странное: приходишь к нейросети за кодом или советом, а уходишь с рекомендацией Spotify, Peloton или Target. Причем алгоритм подсовывает бренды даже тогда, когда контекст беседы этого вообще не требует.
Похоже, это не галлюцинации (хотя кто знает), а начало новой эры. Пазл складывается однозначный:
The Information уже писали, что OpenAI ищет, как монетизировать «халявщиков».
Компания открыла вакансию инженера по AdTech и маркетинговым инструментам.
И вот — первые «случайные» рекомендации.
OpenAI явно дрейфует от концепции «чистого разума» к модели Super App или маркетплейса. Если слухи подтвердятся, нас ждет свой App Store внутри чата. Для разработчиков это потенциально новый (и жирный) канал дистрибуции.
А вот пользователям пора привыкать: чистый интерфейс, похоже, всё. Сначала ты учишь ИИ мыслить, а потом он пытается продать тебе подписку. Ждем плагин «AdBlock для промптов»?
Пользователи начали замечать странное: приходишь к нейросети за кодом или советом, а уходишь с рекомендацией Spotify, Peloton или Target. Причем алгоритм подсовывает бренды даже тогда, когда контекст беседы этого вообще не требует.
Похоже, это не галлюцинации (хотя кто знает), а начало новой эры. Пазл складывается однозначный:
The Information уже писали, что OpenAI ищет, как монетизировать «халявщиков».
Компания открыла вакансию инженера по AdTech и маркетинговым инструментам.
И вот — первые «случайные» рекомендации.
OpenAI явно дрейфует от концепции «чистого разума» к модели Super App или маркетплейса. Если слухи подтвердятся, нас ждет свой App Store внутри чата. Для разработчиков это потенциально новый (и жирный) канал дистрибуции.
А вот пользователям пора привыкать: чистый интерфейс, похоже, всё. Сначала ты учишь ИИ мыслить, а потом он пытается продать тебе подписку. Ждем плагин «AdBlock для промптов»?
SSD летят в космос вслед за памятью
Если вы откладывали апгрейд домашнего сервера или рабочего ноутбука «на потом», у нас плохие новости. Рынок флеш-памяти официально вошел в штопор дефицита. Вслед за подорожанием ОЗУ, цены на твердотельные накопители начали вертикальный взлет.
Только за ноябрь контрактные цены на чипы TCL NAND подскочили на 60%, а спотовые (рыночные) — на пугающие 80%. В российской рознице эффект уже ощутим: ценники на некоторые модели SSD успели сделать x2, и аналитики в один голос твердят — это только разминка.
Почему это происходит? Добро пожаловать в реальность «ИИ-пузыря». Производители чипов массово переориентируют конвейеры на высокомаржинальную память для дата-центров, чтобы кормить ненасытные LLM и нейросети. Потребительский сегмент NAND остался на голодном пайке.
Ситуация до боли напоминает криптобум 2017-го и 2021-го, когда геймеры не могли купить видеокарты. Только теперь вместо майнинга эфира индустрия «майнит» токены для чат-ботов, а расплачиваться за дефицит железа придется обычным инженерам и пользователям.
Если вы откладывали апгрейд домашнего сервера или рабочего ноутбука «на потом», у нас плохие новости. Рынок флеш-памяти официально вошел в штопор дефицита. Вслед за подорожанием ОЗУ, цены на твердотельные накопители начали вертикальный взлет.
Только за ноябрь контрактные цены на чипы TCL NAND подскочили на 60%, а спотовые (рыночные) — на пугающие 80%. В российской рознице эффект уже ощутим: ценники на некоторые модели SSD успели сделать x2, и аналитики в один голос твердят — это только разминка.
Почему это происходит? Добро пожаловать в реальность «ИИ-пузыря». Производители чипов массово переориентируют конвейеры на высокомаржинальную память для дата-центров, чтобы кормить ненасытные LLM и нейросети. Потребительский сегмент NAND остался на голодном пайке.
Ситуация до боли напоминает криптобум 2017-го и 2021-го, когда геймеры не могли купить видеокарты. Только теперь вместо майнинга эфира индустрия «майнит» токены для чат-ботов, а расплачиваться за дефицит железа придется обычным инженерам и пользователям.