Новую флагманскую модель, которая объединила кодинг из GPT-5.3-Codex и рассуждение из GPT-5.2.
К интересным изменениям можно отнести новый подход к загрузке инструментов. Раньше все определения инструментов загружались в контекст сразу, даже если модель ими не пользовалась.
Теперь модель получает список и подгружает нужное по мере необходимости. На тесте из 250 задач с 36 MCP-серверами это сократило расход токенов на 47% при сохранении того же качества.
Контекстное окно до 1М токенов. Цена в API выросла: $2.50 за миллион входных токенов против $1.75, выходные почти не изменились ($15 vs $14).
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥42👍14🤯4❤3⚡2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Claude Code теперь сам ревьюит PR — командой агентов
Когда разработчик открывает pull request, Code Review запускает несколько агентов параллельно. Они ищут баги, фильтруют ложные срабатывания и ранжируют находки по серьёзности. На выходе — один общий комментарий к PR и инлайн-замечания по конкретным строкам. Среднее время обработки — около 20 минут.
Пара реальных кейсов:
1. Однострочный диф в продакшн-сервисе выглядел рутинно, но агенты пометили его как критический — изменение сломало бы аутентификацию.
2. В open-source проекте TrueNAS нашли баг в коде, который PR вообще не трогал: type mismatch тихо сбрасывал кеш ключей шифрования при каждой синхронизации.
Стоит дороже, чем существующий GitHub Action от Anthropic — средняя цена ревью $15–25.
Доступно пока что только для тарифов Team и Enterprise.
@ai_for_devs
Когда разработчик открывает pull request, Code Review запускает несколько агентов параллельно. Они ищут баги, фильтруют ложные срабатывания и ранжируют находки по серьёзности. На выходе — один общий комментарий к PR и инлайн-замечания по конкретным строкам. Среднее время обработки — около 20 минут.
Пара реальных кейсов:
1. Однострочный диф в продакшн-сервисе выглядел рутинно, но агенты пометили его как критический — изменение сломало бы аутентификацию.
2. В open-source проекте TrueNAS нашли баг в коде, который PR вообще не трогал: type mismatch тихо сбрасывал кеш ключей шифрования при каждой синхронизации.
Стоит дороже, чем существующий GitHub Action от Anthropic — средняя цена ревью $15–25.
Доступно пока что только для тарифов Team и Enterprise.
@ai_for_devs
2🤯18🔥15👍9😁6❤3
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Агентная IDE от JetBrains стала доступна в public preview
Писали про Air ещё в прошлом году — тогда инструмент показали, но публичного запуска так и не случилось. Теперь о нём рассказали на широкие массы разработчиков.
JetBrains позиционирует Air как отдельную среду разработки. По их словам, в отличие от чата внутри IDE, здесь агент получает точный контекст: конкретный файл, строку, метод или коммит. Агентов можно запускать параллельно, каждый в своём Docker-контейнере или Git worktree, и переключаться между задачами по уведомлению.
С момента первого анонса список агентов вырос: теперь поддерживаются Codex, Claude, Gemini и Junie. Требование активной подписки Anthropic убрали — сейчас достаточно JetBrains AI Pro или собственных API-ключей от OpenAI, Google или Anthropic.
Пока доступно только на macOS. Windows и Linux — позже.
@ai_for_devs
Писали про Air ещё в прошлом году — тогда инструмент показали, но публичного запуска так и не случилось. Теперь о нём рассказали на широкие массы разработчиков.
JetBrains позиционирует Air как отдельную среду разработки. По их словам, в отличие от чата внутри IDE, здесь агент получает точный контекст: конкретный файл, строку, метод или коммит. Агентов можно запускать параллельно, каждый в своём Docker-контейнере или Git worktree, и переключаться между задачами по уведомлению.
С момента первого анонса список агентов вырос: теперь поддерживаются Codex, Claude, Gemini и Junie. Требование активной подписки Anthropic убрали — сейчас достаточно JetBrains AI Pro или собственных API-ключей от OpenAI, Google или Anthropic.
Пока доступно только на macOS. Windows и Linux — позже.
@ai_for_devs
6🔥19👍12⚡5❤4😁2🎉2
Forwarded from Veai - про код и тесты с AI
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Агентное программирование — один из главных трендов последнего года. В Veai есть набор готовых агентов из коробки, но узкие сценарии конкретного проекта или стека ими не закрыть.
Начиная с последнего обновления можно создать своего агента: задать системный промпт, набор инструментов и предустановленные SKILLs.
Агент описывается в привычном
Формат совместим с Claude-агентами: любой готовый агент подключается без изменений.
@veai_devs
Начиная с последнего обновления можно создать своего агента: задать системный промпт, набор инструментов и предустановленные SKILLs.
Агент описывается в привычном
.md файле — его можно шарить на всю команду и переиспользовать.Формат совместим с Claude-агентами: любой готовый агент подключается без изменений.
@veai_devs
2👍24❤7🔥7
Если смотреть на рынок coding-агентов в целом, то Claude Code и Codex сейчас — два очевидных фаворита среди разработчиков по всему миру.
Сегодня подготовили перевод большого разбора от автора, который несколько месяцев работал на Claude Code, перешёл на Codex, потом вернулся обратно и по ходу протестировал оба на одной задаче.
Если коротко о главном: Opus 4.6 справляется с 12-часовыми задачами с 50% вероятностью на успех, у GPT-5.3-Codex тот же показатель — 5 часов 50 минут. Зато Claude Code тратит в 3-4 раза больше токенов на идентичных задачах, что при одинаковой цене подписки напрямую бьёт по лимитам.
По своему личному опыту могу сказать, что на практике Claude Code чаще доводит задачу до рабочего состояния сам, Codex — оставляет часть проблем решать мне самостоятельно.
Автор статьи вернулся к Claude Code не из-за бенчмарков, а из-за экосистемы: уже использует Claude Chat, планирует Cowork, и промежуточный тариф за $100/месяц у Anthropic закрывает его потребности без прыжка сразу до $200/месяц.
У меня есть подписка на оба агента
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Claude Code vs. Codex: исчерпывающее сравнение
Я использовал Claude Code несколько месяцев, потом перешёл на Codex. Недавно вернулся обратно — и причина не в бенчмарках. Также протестировал оба инструмента на одной и той же задаче. В этой статье я...
2👍27❤14🔥10💯1
Перекличка. А каким coding-агентом пользуетесь вы?
Anonymous Poll
44%
Claude Code
24%
Codex
7%
Gemini CLI
10%
OpenCode
5%
Kilo Code
2%
Cline
21%
Cursor
7%
Copilot
3%
OpenClaw
15%
Другим
👍15🔥7❤4
Сегодня ночью Anthropic выкатили в открытый доступ 1M контекст для Claude Opus 4.6 и Sonnet 4.6 без наценки за длинный контекст.
Теперь
/compact можно вызывать значительно реже, и можно скармливать более тяжёлые промты целиком. Для понимания масштаба: Sonnet 4.5 на тесте поиска информации в длинном контексте показывал 18.5%, Opus 4.6 теперь набирает 78.3%.
Хорошо по
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍51🔥19❤8👏2🤯2🤩2⚡1
AI for Devs
Anthropic удвоили лимиты вайбкодерам РФ и СНГ 😁
С 13 по 27 марта лимиты Claude удваиваются в непиковые часы. Для Штатов это ночь и утро, а для нас — почти весь рабочий день и вечер.
По Москве двойной лимит работает с 22:00 до 16:00 следующего дня. То есть можно спокойно вайбкодить с утра до 16:00, потом шестичасовой перерыв, и с 22:00 снова двойная порция токенов.
Распространяется на все планы, кроме Enterprise. Включается автоматически, ничего дополнительно делать не нужно.
@ai_for_devs
С 13 по 27 марта лимиты Claude удваиваются в непиковые часы. Для Штатов это ночь и утро, а для нас — почти весь рабочий день и вечер.
По Москве двойной лимит работает с 22:00 до 16:00 следующего дня. То есть можно спокойно вайбкодить с утра до 16:00, потом шестичасовой перерыв, и с 22:00 снова двойная порция токенов.
Распространяется на все планы, кроме Enterprise. Включается автоматически, ничего дополнительно делать не нужно.
@ai_for_devs
2👍81🔥39😁20🤩8❤4
Вышла хорошая статья «8 Levels of Agentic Engineering» — автор постарался разделить на логичные уровни то, как разработчики эволюционируют в работе с кодинг-агентами. Первые пять уровней (tab complete, Agent IDE, context engineering, compounding, MCP/skills) многие уже так или иначе прошли. Что дальше?
Уровень 6 — harness engineering. Суть: дать агенту окружение, в котором от будет достаточно самостоятельным. Команда OpenAI Codex, например, подключила к рантайму агента Chrome DevTools и observability — и агент сам воспроизводит баг, пишет фикс, валидирует через UI, открывает PR и мёржит. Человек подключается только по запросу.
Уровень 7 — background agents. Когда harness настроен, агент может работать, пока вы спите. Популярная точка входа — Ralph loop: автономный цикл, где агент раз за разом запускает CLI, пока все пункты задачи не закрыты, каждая итерация — свежий инстанс с чистым контекстом. Важный на этом уровне совет, к которому я тоже пришел опытным путём: используйте разные модели под разные задачи. Opus на реализацию, Gemini на ресёрч, Codex на ревью. Одна модель (особенно в одной сессии) не должна и писать и ревьювить код.
Уровень 8 — агентные команды без центрального оркестратора. Anthropic 16 агентами написала C-компилятор, Cursor сотнями агентов строил браузер с нуля. Но по сути сейчас ни у кого это в полной мере не работает.
В интересное время живём!
@ai_for_devs
Уровень 6 — harness engineering. Суть: дать агенту окружение, в котором от будет достаточно самостоятельным. Команда OpenAI Codex, например, подключила к рантайму агента Chrome DevTools и observability — и агент сам воспроизводит баг, пишет фикс, валидирует через UI, открывает PR и мёржит. Человек подключается только по запросу.
Уровень 7 — background agents. Когда harness настроен, агент может работать, пока вы спите. Популярная точка входа — Ralph loop: автономный цикл, где агент раз за разом запускает CLI, пока все пункты задачи не закрыты, каждая итерация — свежий инстанс с чистым контекстом. Важный на этом уровне совет, к которому я тоже пришел опытным путём: используйте разные модели под разные задачи. Opus на реализацию, Gemini на ресёрч, Codex на ревью. Одна модель (особенно в одной сессии) не должна и писать и ревьювить код.
Уровень 8 — агентные команды без центрального оркестратора. Anthropic 16 агентами написала C-компилятор, Cursor сотнями агентов строил браузер с нуля. Но по сути сейчас ни у кого это в полной мере не работает.
В интересное время живём!
@ai_for_devs
Хабр
8 уровней агентной инженерии
Способности AI в написании кода растут быстрее, чем наше умение этими способностями пользоваться. Поэтому рост баллов на SWE-bench не коррелирует с метриками продуктивности, которые волнуют инженерных...
2🔥37❤12👍12😁7👏2
Anthropic запустили сертификацию Claude Certified Architect
Экзамен на 60 вопросов из 5 областей: агентная архитектура, MCP-интеграции, Claude Code, промпт-инжиниринг, управление контекстом. Вопросы построены на рабочих сценариях — от бота техподдержки до CI/CD-пайплайнов.
Раньше все стремились получить AWS Certified Solutions Architect. Ушла эпоха...
Экзамен доступен только только для компаний партнеров Anthropic. Пока бесплатно, для первых 5 000 студентов, потом $99.
Для подготовки есть 4 бесплатных курса на Anthropic Academy — это мы сохраняем.
@ai_for_devs
Экзамен на 60 вопросов из 5 областей: агентная архитектура, MCP-интеграции, Claude Code, промпт-инжиниринг, управление контекстом. Вопросы построены на рабочих сценариях — от бота техподдержки до CI/CD-пайплайнов.
Раньше все стремились получить AWS Certified Solutions Architect. Ушла эпоха...
Экзамен доступен только только для компаний партнеров Anthropic. Пока бесплатно, для первых 5 000 студентов, потом $99.
Для подготовки есть 4 бесплатных курса на Anthropic Academy — это мы сохраняем.
@ai_for_devs
4🔥34👍16😁12❤8
⚡️ OpenAI выпустили GPT-5.4 mini и nano — компактные версии своей флагманской модели
GPT-5.4 mini работает в 2 раза быстрее, чем предыдущая GPT-5 mini, и при этом заметно сильнее по бенчмаркам (см. скриншот). А на OSWorld-бенче, где модель управляет компьютером по скриншотам, mini почти догоняет большую GPT-5.4 — 72.1% против 75%.
Nano — ещё меньше и дешевле. Её позиционируют для задач, где нужна скорость и низкая цена: классификация, извлечение данных, вспомогательные подзадачи внутри агентских систем.
OpenAI позиционируют маленькие модели – как помощников. Большая GPT-5.4 планирует и принимает решения, а mini-агенты параллельно выполняют мелкие задачи: ищут по кодовой базе, обрабатывают документы, ревьюят файлы. Такой подход уже применяется в Codex.
GPT-5.4 mini доступна в API, Codex и ChatGPT. Nano — только через API.
@ai_for_devs
GPT-5.4 mini работает в 2 раза быстрее, чем предыдущая GPT-5 mini, и при этом заметно сильнее по бенчмаркам (см. скриншот). А на OSWorld-бенче, где модель управляет компьютером по скриншотам, mini почти догоняет большую GPT-5.4 — 72.1% против 75%.
Nano — ещё меньше и дешевле. Её позиционируют для задач, где нужна скорость и низкая цена: классификация, извлечение данных, вспомогательные подзадачи внутри агентских систем.
OpenAI позиционируют маленькие модели – как помощников. Большая GPT-5.4 планирует и принимает решения, а mini-агенты параллельно выполняют мелкие задачи: ищут по кодовой базе, обрабатывают документы, ревьюят файлы. Такой подход уже применяется в Codex.
GPT-5.4 mini доступна в API, Codex и ChatGPT. Nano — только через API.
@ai_for_devs
2⚡21❤9🔥6👍4🤩1
Тарик Шихипар, один из core-инженеров Claude Code, опубликовал гайд по skills — как их пишут внутри Anthropic, какие типы скиллов прижились и что отличает рабочий skill от бесполезного.
У них сейчас сотни skills в активном использовании.
Сам гайд мы уже перевели на русский язык — сохраняйте и делитесь с коллегами: https://habr.com/ru/articles/1011524/
@ai_for_devs
У них сейчас сотни skills в активном использовании.
Основные тейки:
— Самый ценный раздел в любом skill — gotchas. Типичные ошибки, на которые Claude натыкается при работе с вашим кодом. Обновляйте по мере накопления граничных случаев.
— Не загоняйте Claude в жёсткие рамки. Skills переиспользуются в разных контекстах, слишком жёсткие инструкции ломают адаптивность. Давайте информацию, но оставляйте пространство.
— Не пишите очевидное. Claude и так много знает про код. Фокусируйтесь на том, что выводит его за рамки дефолтного поведения. Пример из Anthropic: skill frontend-design учит Claude избегать Inter и фиолетовых градиентов.
— Поле description — в первую очередь для модели. Claude сканирует описания при старте сессии, чтобы понять, какой skill вызвать. Пишите его как условие триггера.
Сам гайд мы уже перевели на русский язык — сохраняйте и делитесь с коллегами: https://habr.com/ru/articles/1011524/
@ai_for_devs
2🔥31👍13❤9🙏1
Три заявленных направления:
– инженерные задачи: SWE-Bench Pro 56.2%, Terminal Bench 2 — 57.0%
– агентные сценарии: 97% точность на 40+ сложных задачах, результат на уровне Sonnet 4.6 в OpenClaw
– и работа с офисными документами в задачах с большим количеством шагов
M2.5 сейчас раздают бесплатно в OpenCode, Kilo Code и других инструментах — так что M2.7 в популярных клиентах, вероятно, не за горами
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥22👍9🤩5⚡4❤1
Hunter Alpha: стелс-модель за неделю стала топ-1 на OpenRouter, потом выяснилось, что это...
На OpenRouter неделю была доступна анонимная модель
За это время она стала топ-1 по дневным вызовам и пробила 1 трлн токенов суммарно. Версий было много: DeepSeek тестирует V4, MiniMax (которые вчера как раз представили M2.7) — и ещё куча вариантов. Оказалось —Xiaomi !
Hunter Alpha была ранней сборкой
Xiaomi — ТОП за свои деньги))
@ai_for_devs
На OpenRouter неделю была доступна анонимная модель
Hunter Alpha. Многие LLM-провайдеры часто делают так с новыми моделями, чтобы затестить на реальных пользователях. За это время она стала топ-1 по дневным вызовам и пробила 1 трлн токенов суммарно. Версий было много: DeepSeek тестирует V4, MiniMax (которые вчера как раз представили M2.7) — и ещё куча вариантов. Оказалось —
Hunter Alpha была ранней сборкой
MiMo-V2-Pro. Теперь модель вышла официально.Что внутри: больше триллиона параметров, 42B активных, контекст до 1M токенов. По агентским бенчмаркам держится рядом с Claude Opus 4.6 и Sonnet 4.6.
Цена API: $1/млн входящих токенов до 256K — против $3 у Sonnet и $5 у Opus.
Xiaomi — ТОП за свои деньги))
@ai_for_devs
1🔥29😁14👍5❤1⚡1