Сегодня впечатляющий набор обновлений от Anthropic:
Anthropic выпустила Claude Sonnet 4.5, заявив лучший уровень по кодированию (SWE Bench), использованию компьютера и рассуждению/математике. Модель демонстрирует возможность распараллеливать и эффективно решать сложные многоэтапные задачи, сохранять концентрацию при работе над задачей более 30 часов.
Новая версия Claude Code получила чекпоинты (сохранение прогресса и мгновенный откат), официальное расширение для VS Code, обновленный SDK с поддержкой сабагентов и хуков и улучшенный терминал. Теперь можно безопасно (по мнению Anthropic) поручать ему более сложные и длительные задачи — от рефакторинга до автономной разработки с фоновыми процессами.
Anthropic добавила в Claude Developer Platform новые инструменты управления контекстом: context editing и memory tool. Они позволяют агентам автоматически очищать устаревшие данные и сохранять важную информацию во внешней памяти, чтобы работать дольше и точнее без потери прогресса.
Успели уже что-нибудь попробовать?
Anthropic выпустила Claude Sonnet 4.5, заявив лучший уровень по кодированию (SWE Bench), использованию компьютера и рассуждению/математике. Модель демонстрирует возможность распараллеливать и эффективно решать сложные многоэтапные задачи, сохранять концентрацию при работе над задачей более 30 часов.
Новая версия Claude Code получила чекпоинты (сохранение прогресса и мгновенный откат), официальное расширение для VS Code, обновленный SDK с поддержкой сабагентов и хуков и улучшенный терминал. Теперь можно безопасно (по мнению Anthropic) поручать ему более сложные и длительные задачи — от рефакторинга до автономной разработки с фоновыми процессами.
Anthropic добавила в Claude Developer Platform новые инструменты управления контекстом: context editing и memory tool. Они позволяют агентам автоматически очищать устаревшие данные и сохранять важную информацию во внешней памяти, чтобы работать дольше и точнее без потери прогресса.
Успели уже что-нибудь попробовать?
Anthropic
Introducing Claude Sonnet 4.5
Claude Sonnet 4.5 is the best coding model in the world, strongest model for building complex agents, and best model at using computers.
❤5💩3👍2
Media is too big
VIEW IN TELEGRAM
О сценарном подходе к созданию системных промптов для диалоговых агентов рассказывает Сергей Гевлич — основатель платформы для масштабирования компетенций «Джипититор».
Разбираем, почему сложно стабилизировать оркестровку больших (от 20К знаков) системных промптов и как создать стабильный системный промпт, моделирующий работу экспертов.
Запись лекции доступна здесь и на других площадках:
➡️ YouTube
➡️ ВКонтакте
➡️ ЯндексМузыка
Разбираем, почему сложно стабилизировать оркестровку больших (от 20К знаков) системных промптов и как создать стабильный системный промпт, моделирующий работу экспертов.
Запись лекции доступна здесь и на других площадках:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3👎1
Говорим о безопасности LLM с Сергеем Зыбневым — тимлидом-пентестером (белым хакером), специалистом по безопасности больших языковых моделей и создателем телеграм-канала "Похек".
Обсудим:
🔵 тестирование безопасности LLM и обнаружение уязвимостей;
🔵 использование ИИ для поиска багов и тестирования безопасности;
🔵 практический опыт работы с безопасностью ChatGPT и других LLM;
🔵 вайб-кодинг: как изменилась разработка с приходом LLM;
🔵 реальные кейсы из практики пентестинга;
🔵 будущее AI в кибербезопасности.
⏰ Запускаем трансляцию завтра, 7 октября, в 17:30!
Смотрите на YouTube, в ВК или прямо в этом канале!
Обсудим:
⏰ Запускаем трансляцию завтра, 7 октября, в 17:30!
Смотрите на YouTube, в ВК или прямо в этом канале!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8💩1
Вчера прошёл OpenAI DevDay 2025. Вектор развития понятен — строят экосистему. Снова как App Store, только с ИИ и с еще более высокими заборами по периметру.
Мы попробовали новый Agent Builder, визуальный конструктор для создания собственных AI-агентов без кода - для простых сценариев выглядит удобно. Обещают встроенные Datasets (контексты данных для обучения и теста) и Evals — инструменты для оценки и сравнения качества ответов. Скоро будет ясно насколько эффективно для сложных задач и захочет ли большой бизнес запирать себя внутри экосистемы OpenAI. Self-hosting и open source всё ещё явная ценность, но компании вроде n8n, Make.com, Zapier насторожились.
Apps SDK — способ делать полноценные приложения (вызывать свои API и показывать интерфейсы) прямо внутри ChatGPT, доступен в тестовом режиме разработчикам. На демо показали встроенные вызовы приложений Canva, Figma, Spotify. Трансформация в платформу с каталогом приложений и монетизацией для разработчиков.
Кто-нибудь уже опубликовал своего агента? Присылайте посмотреть!
Мы попробовали новый Agent Builder, визуальный конструктор для создания собственных AI-агентов без кода - для простых сценариев выглядит удобно. Обещают встроенные Datasets (контексты данных для обучения и теста) и Evals — инструменты для оценки и сравнения качества ответов. Скоро будет ясно насколько эффективно для сложных задач и захочет ли большой бизнес запирать себя внутри экосистемы OpenAI. Self-hosting и open source всё ещё явная ценность, но компании вроде n8n, Make.com, Zapier насторожились.
Apps SDK — способ делать полноценные приложения (вызывать свои API и показывать интерфейсы) прямо внутри ChatGPT, доступен в тестовом режиме разработчикам. На демо показали встроенные вызовы приложений Canva, Figma, Spotify. Трансформация в платформу с каталогом приложений и монетизацией для разработчиков.
Кто-нибудь уже опубликовал своего агента? Присылайте посмотреть!
Anthropic пару месяцев назад выпустили Claude Code Security Reviewer - бот-ревьюер, который ищет уязвимости в GitHub-репо и советует, что починить. Теперь Google DeepMind ответил своим CodeMender — агентом, который не советует, а сразу лезет чинить код сам: патчит, тестит, откатывает, и т.д. Пока что оба под присмотром людей. Гугл заявляет, что в процессе разработки за полгода CodeMender уже внёс 72 security-фикса в open source-проекты, включая те, где кода под 4,5 миллиона строк.
Google DeepMind
Introducing CodeMender: an AI agent for code security
CodeMender is a new AI-powered agent that improves code security automatically. It instantly patches new software vulnerabilities, and rewrites and secures existing code, eliminating entire...
👍2
Пост в блоге кодинг агента Cline о том, что открытые модели стремительно догоняют закрытые в области агентов редактирования кода. Новая модель GLM-4.6 ( от Zhipu / Z.ai одной из китайских компаний-«ИИ-тигров»)
показала 94.9% успеха в тестах Cline против 96.2% у Claude 4.5, при этом стоит в 8 раз дешевле (или open source, если есть где развернуть).
PS: на картинке кажется перепутали Sonnet 4 и 4.5
показала 94.9% успеха в тестах Cline против 96.2% у Claude 4.5, при этом стоит в 8 раз дешевле (или open source, если есть где развернуть).
PS: на картинке кажется перепутали Sonnet 4 и 4.5
🔥5
Еще одни создатели кодинг-агента Augment Code сравнили Sonnet 4.0 и 4.5 — и... 4.5 оказался быстрее и качественнее. Кто бы мог подумать. Их результаты такие:
Приложение с нуля:
- 4.5: 20 мин, работающие приложение.
- 4.0: 40+ мин, качество хуже.
Простое изменение кода:
- 4.5: 3 вызова, корректный апдейт.
- 4.0: более длинная цепочка, такой же результат.
Сложный рефакторинг:
- 4.5: быстрее + тесты пройдены.
- 4.0: медленнее + тесты завалены.
Приложение с нуля:
- 4.5: 20 мин, работающие приложение.
- 4.0: 40+ мин, качество хуже.
Простое изменение кода:
- 4.5: 3 вызова, корректный апдейт.
- 4.0: более длинная цепочка, такой же результат.
Сложный рефакторинг:
- 4.5: быстрее + тесты пройдены.
- 4.0: медленнее + тесты завалены.
YouTube
Claude Sonnet 4.5 is HERE - And It's Insanely Fast (Side by Side Comparison)
Anthropic's new Claude Sonnet 4.5 is finally here, and it's a massive leap forward for AI code generation! We got early access to this long-awaited update and have already integrated it into Augment Code. Is it really a big improvement over the old Sonnet…
👍4
Вайб-кодинг — это не просто новый тренд, это философия разработки, где интуиция важнее идеального плана, а ИИ становится твоим со-пилотом в потоке.
Вместе с Александром Агафонцевым, экспертом по автоматизации с ИИ и автором телеграм-канала "ИИзи Бизнес", разберем:
🔵 Что такое вайб-кодинг и почему это будущее разработки?
🟣 Как ИИ меняет подход к написанию кода?
🔵 Почему "идеальная архитектура" иногда убивает скорость?
🟣 Как найти баланс между хаосом и структурой?
🔵 Реальные кейсы: что можно автоматизировать уже сегодня?
🟣 Почему молодое поколение разработчиков кодит по-другому?
⏰ Запускаем трансляцию сегодня, 15 октября, в 18:00!
Смотрите на YouTube, в ВК или прямо в этом канале — и задавайте вопросы Александру!
Поспорим с классическими подходами в разработке☺️
Вместе с Александром Агафонцевым, экспертом по автоматизации с ИИ и автором телеграм-канала "ИИзи Бизнес", разберем:
⏰ Запускаем трансляцию сегодня, 15 октября, в 18:00!
Смотрите на YouTube, в ВК или прямо в этом канале — и задавайте вопросы Александру!
Поспорим с классическими подходами в разработке
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👎2😁1
Media is too big
VIEW IN TELEGRAM
Теория мертвого интернета — чистая конспирология или реальный прогноз? Рассказывает Владимир Крылов, доктор технических наук и научный консультант по применению ИИ в разработке ПО.
Посмотрим свежим взглядом на опубликованную в 2021 году теорию DIT — Dead Internet Theory. Многие назвали её конспирологической, с таким комментарием она присутствует в Википедии и сегодня. Но прошедшие годы ознаменовались событиями, которые скорее развеивают конспирологические основания, чем подтверждают их. Факты доказывают утверждения об отдалении "сети сетей" от первоначальных целей и "расчеловечивании" the Internet.
Запись лекции доступна здесь и на других площадках:
➡️ YouTube
➡️ ВКонтакте
➡️ ЯндексМузыка
Посмотрим свежим взглядом на опубликованную в 2021 году теорию DIT — Dead Internet Theory. Многие назвали её конспирологической, с таким комментарием она присутствует в Википедии и сегодня. Но прошедшие годы ознаменовались событиями, которые скорее развеивают конспирологические основания, чем подтверждают их. Факты доказывают утверждения об отдалении "сети сетей" от первоначальных целей и "расчеловечивании" the Internet.
Запись лекции доступна здесь и на других площадках:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🔥1😱1
Упоминали вот тут инструменты управления контекстом от Anthropic, но не сказали о статье с теоретической частью - Effective context engineering for AI agents. Исправляемся. Если совсем коротко, то там о том, что промпт-инжиниринг - все, так уже не носят, теперь говорим контекст-инжиниринг.
Если чуть подробнее - в эпоху «prompt engineering» важно было правильно сформулировать запрос. Теперь на первый план выходит context engineering - умение управлять всем, что попадает в окно модели: инструкции, история, данные, инструменты. Контекст - ограниченный ресурс. Чем он больше, тем выше риск «шума» и потери фокуса.
Задача инженера оставить в нём только самое ценное: сжатые факты, нужные подсказки, минимальные, но точные примеры.
🔹 Контекст = рабочая память агента
🔹 Цель = максимум сигнала при минимуме токенов
🔹 Методы = краткость, субагенты, динамическое извлечение данных
В общем, база, особенно для строителей агентов.
Если чуть подробнее - в эпоху «prompt engineering» важно было правильно сформулировать запрос. Теперь на первый план выходит context engineering - умение управлять всем, что попадает в окно модели: инструкции, история, данные, инструменты. Контекст - ограниченный ресурс. Чем он больше, тем выше риск «шума» и потери фокуса.
Задача инженера оставить в нём только самое ценное: сжатые факты, нужные подсказки, минимальные, но точные примеры.
🔹 Контекст = рабочая память агента
🔹 Цель = максимум сигнала при минимуме токенов
🔹 Методы = краткость, субагенты, динамическое извлечение данных
В общем, база, особенно для строителей агентов.
Telegram
AI4Dev — AI for Development
Сегодня впечатляющий набор обновлений от Anthropic:
Anthropic выпустила Claude Sonnet 4.5, заявив лучший уровень по кодированию (SWE Bench), использованию компьютера и рассуждению/математике. Модель демонстрирует возможность распараллеливать и эффективно…
Anthropic выпустила Claude Sonnet 4.5, заявив лучший уровень по кодированию (SWE Bench), использованию компьютера и рассуждению/математике. Модель демонстрирует возможность распараллеливать и эффективно…
👍8
В Claude Code появился полноценный sandbox (filesystem + network isolation). Теперь Claude может свободно править код и гонять bash-команды без постоянных permission-запросов, но строго внутри изолированной среды. В Anthropic утверждают, что количество подтверждений сократилось на 84%, а prompt-inject более не страшны.
Что даёт:
🔹 Не дотянется до системных файлов (читать/писать можно только в разрешённых директориях);
🔹 Сетевая изоляция, ходить можно только туда, куда разрешено, а отправить ваши SSH ключи и паспортыне данные на shady-server.biz не получится.
Всё остальное выполняется без лишних диалогов и подтверждений, ведь даже если Claude сойдёт с ума, он остаётся «в мягкой комнате».
Также появился Claude Code sandbox в облаке, где git-ключи живут снаружи — пуши идут через безопасный прокси.
Песочница реализована с помощью bubblewrap (Linux) и Seatbelt (macOS) + прокси для сетевых ограничений. Windows - пока не заявляли. Это open source, можно встроить в своих агентов.
Что даёт:
🔹 Не дотянется до системных файлов (читать/писать можно только в разрешённых директориях);
🔹 Сетевая изоляция, ходить можно только туда, куда разрешено, а отправить ваши SSH ключи и паспортыне данные на shady-server.biz не получится.
Всё остальное выполняется без лишних диалогов и подтверждений, ведь даже если Claude сойдёт с ума, он остаётся «в мягкой комнате».
Также появился Claude Code sandbox в облаке, где git-ключи живут снаружи — пуши идут через безопасный прокси.
Песочница реализована с помощью bubblewrap (Linux) и Seatbelt (macOS) + прокси для сетевых ограничений. Windows - пока не заявляли. Это open source, можно встроить в своих агентов.
Anthropic
Making Claude Code more secure and autonomous with sandboxing
Learn how Claude Code's new sandboxing feature protects developers with filesystem and network isolation, reducing permission prompts and increasing user safety.
🔥6😁1