AI for Devs

🆕

OpenAI выпустили GPT-5.4

Новую флагманскую модель, которая объединила кодинг из GPT-5.3-Codex и рассуждение из GPT-5.2.

К интересным изменениям можно отнести новый подход к загрузке инструментов. Раньше все определения инструментов загружались в контекст сразу, даже если модель ими не пользовалась.

Теперь модель получает список и подгружает нужное по мере необходимости. На тесте из 250 задач с 36 MCP-серверами это сократило расход токенов на 47% при сохранении того же качества.

Контекстное окно до 1М токенов. Цена в API выросла: $2.50 за миллион входных токенов против $1.75, выходные почти не изменились ($15 vs $14).

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2🔥42👍14🤯4❤3⚡2😁1

9.07K views18:30

AI for Devs

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

Центрируем div в 2026 году

3😁86🔥15👍9❤2

6.43K views12:57

AI for Devs

0:44

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Claude Code теперь сам ревьюит PR — командой агентов

Когда разработчик открывает pull request, Code Review запускает несколько агентов параллельно. Они ищут баги, фильтруют ложные срабатывания и ранжируют находки по серьёзности. На выходе — один общий комментарий к PR и инлайн-замечания по конкретным строкам. Среднее время обработки — около 20 минут.

Пара реальных кейсов:

1. Однострочный диф в продакшн-сервисе выглядел рутинно, но агенты пометили его как критический — изменение сломало бы аутентификацию.

2. В open-source проекте TrueNAS нашли баг в коде, который PR вообще не трогал: type mismatch тихо сбрасывал кеш ключей шифрования при каждой синхронизации.

Стоит дороже, чем существующий GitHub Action от Anthropic — средняя цена ревью $15–25.

Доступно пока что только для тарифов Team и Enterprise.

@ai_for_devs

2🤯18🔥15👍9😁6❤3

5.76K views07:33

AI for Devs

1:08

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Агентная IDE от JetBrains стала доступна в public preview

Писали про Air ещё в прошлом году — тогда инструмент показали, но публичного запуска так и не случилось. Теперь о нём рассказали на широкие массы разработчиков.

JetBrains позиционирует Air как отдельную среду разработки. По их словам, в отличие от чата внутри IDE, здесь агент получает точный контекст: конкретный файл, строку, метод или коммит. Агентов можно запускать параллельно, каждый в своём Docker-контейнере или Git worktree, и переключаться между задачами по уведомлению.

С момента первого анонса список агентов вырос: теперь поддерживаются Codex, Claude, Gemini и Junie. Требование активной подписки Anthropic убрали — сейчас достаточно JetBrains AI Pro или собственных API-ключей от OpenAI, Google или Anthropic.

Пока доступно только на macOS. Windows и Linux — позже.

@ai_for_devs

6🔥19👍12⚡5❤4😁2🎉2

5.79K views13:33

AI for Devs

Forwarded from Veai - про код и тесты с AI

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Агентное программирование — один из главных трендов последнего года. В Veai есть набор готовых агентов из коробки, но узкие сценарии конкретного проекта или стека ими не закрыть.

Начиная с последнего обновления можно создать своего агента: задать системный промпт, набор инструментов и предустановленные SKILLs.

Агент описывается в привычном.md файле — его можно шарить на всю команду и переиспользовать.

Формат совместим с Claude-агентами: любой готовый агент подключается без изменений.

@veai_devs

2👍24❤7🔥7

5.17K views07:36

AI for Devs

🤜

Claude Code VS. Codex: что выбрать?

Если смотреть на рынок coding-агентов в целом, то Claude Code и Codex сейчас — два очевидных фаворита среди разработчиков по всему миру.

Сегодня подготовили перевод большого разбора от автора, который несколько месяцев работал на Claude Code, перешёл на Codex, потом вернулся обратно и по ходу протестировал оба на одной задаче.

Если коротко о главном: Opus 4.6 справляется с 12-часовыми задачами с 50% вероятностью на успех, у GPT-5.3-Codex тот же показатель — 5 часов 50 минут. Зато Claude Code тратит в 3-4 раза больше токенов на идентичных задачах, что при одинаковой цене подписки напрямую бьёт по лимитам.

По своему личному опыту могу сказать, что на практике Claude Code чаще доводит задачу до рабочего состояния сам, Codex — оставляет часть проблем решать мне самостоятельно.

Автор статьи вернулся к Claude Code не из-за бенчмарков, а из-за экосистемы: уже использует Claude Chat, планирует Cowork, и промежуточный тариф за $100/месяц у Anthropic закрывает его потребности без прыжка сразу до $200/месяц.

У меня есть подписка на оба агента (в том числе по долгу службы). Периодически переключаюсь между ними и пока окончательно не определился. Но если бы только начинал, стартовал бы с Codex: он сейчас бесплатно доступен всем пользователям ChatGPT, включая Free-подписку. Когда халява закончится, пока непонятно)

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Claude Code vs. Codex: исчерпывающее сравнение

Я использовал Claude Code несколько месяцев, потом перешёл на Codex. Недавно вернулся обратно — и причина не в бенчмарках. Также протестировал оба инструмента на одной и той же задаче. В этой статье я...

2👍27❤14🔥10💯1

5.89K views14:17

AI for Devs

Перекличка. А каким coding-агентом пользуетесь вы?

Anonymous Poll

👍15🔥7❤4

2.32K voters5.95K views14:17

AI for Devs

🆕

1M контекст для Claude

Сегодня ночью Anthropic выкатили в открытый доступ 1M контекст для Claude Opus 4.6 и Sonnet 4.6 без наценки за длинный контекст.

Теперь /compact можно вызывать значительно реже, и можно скармливать более тяжёлые промты целиком.

Для понимания масштаба: Sonnet 4.5 на тесте поиска информации в длинном контексте показывал 18.5%, Opus 4.6 теперь набирает 78.3%.

Хорошо по~~вайб~~кодим на выходных)

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

2👍51🔥19❤8👏2🤯2🤩2⚡1

6.1K views06:25

AI for Devs

🆕 1M контекст для Claude Сегодня ночью Anthropic выкатили в открытый доступ 1M контекст для Claude Opus 4.6 и Sonnet 4.6 без наценки за длинный контекст. Теперь /compact можно вызывать значительно реже, и можно скармливать более тяжёлые промты целиком.…

Anthropic удвоили лимиты вайбкодерам РФ и СНГ 😁

С 13 по 27 марта лимиты Claude удваиваются в непиковые часы. Для Штатов это ночь и утро, а для нас — почти весь рабочий день и вечер.

По Москве двойной лимит работает с 22:00 до 16:00 следующего дня. То есть можно спокойно вайбкодить с утра до 16:00, потом шестичасовой перерыв, и с 22:00 снова двойная порция токенов.

Распространяется на все планы, кроме Enterprise. Включается автоматически, ничего дополнительно делать не нужно.

@ai_for_devs

2👍81🔥39😁20🤩8❤4

10.4K views06:07

AI for Devs

Вышла хорошая статья «8 Levels of Agentic Engineering» — автор постарался разделить на логичные уровни то, как разработчики эволюционируют в работе с кодинг-агентами. Первые пять уровней (tab complete, Agent IDE, context engineering, compounding, MCP/skills) многие уже так или иначе прошли. Что дальше?

Уровень 6 — harness engineering. Суть: дать агенту окружение, в котором от будет достаточно самостоятельным. Команда OpenAI Codex, например, подключила к рантайму агента Chrome DevTools и observability — и агент сам воспроизводит баг, пишет фикс, валидирует через UI, открывает PR и мёржит. Человек подключается только по запросу.

Уровень 7 — background agents. Когда harness настроен, агент может работать, пока вы спите. Популярная точка входа — Ralph loop: автономный цикл, где агент раз за разом запускает CLI, пока все пункты задачи не закрыты, каждая итерация — свежий инстанс с чистым контекстом. Важный на этом уровне совет, к которому я тоже пришел опытным путём: используйте разные модели под разные задачи. Opus на реализацию, Gemini на ресёрч, Codex на ревью. Одна модель (особенно в одной сессии) не должна и писать и ревьювить код.

Уровень 8 — агентные команды без центрального оркестратора. Anthropic 16 агентами написала C-компилятор, Cursor сотнями агентов строил браузер с нуля. Но по сути сейчас ни у кого это в полной мере не работает.

В интересное время живём!

@ai_for_devs

Хабр

8 уровней агентной инженерии

Способности AI в написании кода растут быстрее, чем наше умение этими способностями пользоваться. Поэтому рост баллов на SWE-bench не коррелирует с метриками продуктивности, которые волнуют инженерных...

2🔥37❤12👍12😁7👏2

4.8K views11:22

AI for Devs

Anthropic запустили сертификацию Claude Certified Architect

Экзамен на 60 вопросов из 5 областей: агентная архитектура, MCP-интеграции, Claude Code, промпт-инжиниринг, управление контекстом. Вопросы построены на рабочих сценариях — от бота техподдержки до CI/CD-пайплайнов.

Раньше все стремились получить AWS Certified Solutions Architect. Ушла эпоха...

Экзамен доступен только только для компаний партнеров Anthropic. Пока бесплатно, для первых 5 000 студентов, потом $99.

Для подготовки есть 4 бесплатных курса на Anthropic Academy — это мы сохраняем.

@ai_for_devs

4🔥34👍16😁12❤8

4.44K views12:53

AI for Devs

⚡️ OpenAI выпустили GPT-5.4 mini и nano — компактные версии своей флагманской модели

GPT-5.4 mini работает в 2 раза быстрее, чем предыдущая GPT-5 mini, и при этом заметно сильнее по бенчмаркам (см. скриншот). А на OSWorld-бенче, где модель управляет компьютером по скриншотам, mini почти догоняет большую GPT-5.4 — 72.1% против 75%.

Nano — ещё меньше и дешевле. Её позиционируют для задач, где нужна скорость и низкая цена: классификация, извлечение данных, вспомогательные подзадачи внутри агентских систем.

OpenAI позиционируют маленькие модели – как помощников. Большая GPT-5.4 планирует и принимает решения, а mini-агенты параллельно выполняют мелкие задачи: ищут по кодовой базе, обрабатывают документы, ревьюят файлы. Такой подход уже применяется в Codex.

GPT-5.4 mini доступна в API, Codex и ChatGPT. Nano — только через API.

@ai_for_devs

2⚡21❤9🔥6👍4🤩1

4.14K viewsedited 17:25

AI for Devs

Тарик Шихипар, один из core-инженеров Claude Code, опубликовал гайд по skills — как их пишут внутри Anthropic, какие типы скиллов прижились и что отличает рабочий skill от бесполезного.

У них сейчас сотни skills в активном использовании.

Основные тейки:

— Самый ценный раздел в любом skill — gotchas. Типичные ошибки, на которые Claude натыкается при работе с вашим кодом. Обновляйте по мере накопления граничных случаев.

— Не загоняйте Claude в жёсткие рамки. Skills переиспользуются в разных контекстах, слишком жёсткие инструкции ломают адаптивность. Давайте информацию, но оставляйте пространство.

— Не пишите очевидное. Claude и так много знает про код. Фокусируйтесь на том, что выводит его за рамки дефолтного поведения. Пример из Anthropic: skill frontend-design учит Claude избегать Inter и фиолетовых градиентов.

— Поле description — в первую очередь для модели. Claude сканирует описания при старте сессии, чтобы понять, какой skill вызвать. Пишите его как условие триггера.

Сам гайд мы уже перевели на русский язык — сохраняйте и делитесь с коллегами: https://habr.com/ru/articles/1011524/

@ai_for_devs

2🔥31👍13❤9🙏1

3.96K views13:15

AI for Devs

🇨🇳 MiniMax представили M2.7: обновленную версию своей флагманской модели

Три заявленных направления:

– инженерные задачи: SWE-Bench Pro 56.2%, Terminal Bench 2 — 57.0%

– агентные сценарии: 97% точность на 40+ сложных задачах, результат на уровне Sonnet 4.6 в OpenClaw

– и работа с офисными документами в задачах с большим количеством шагов

M2.5 сейчас раздают бесплатно в OpenCode, Kilo Code и других инструментах — так что M2.7 в популярных клиентах, вероятно, не за горами (надеюсь).

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

2🔥22👍9🤩5⚡4❤1

3.71K views17:26

AI for Devs

Hunter Alpha: стелс-модель за неделю стала топ-1 на OpenRouter, потом выяснилось, что это...

На OpenRouter неделю была доступна анонимная модель Hunter Alpha. Многие LLM-провайдеры часто делают так с новыми моделями, чтобы затестить на реальных пользователях.

За это время она стала топ-1 по дневным вызовам и пробила 1 трлн токенов суммарно. Версий было много: DeepSeek тестирует V4, MiniMax (которые вчера как раз представили M2.7) — и ещё куча вариантов. Оказалось — Xiaomi!

Hunter Alpha была ранней сборкой MiMo-V2-Pro. Теперь модель вышла официально.

Что внутри: больше триллиона параметров, 42B активных, контекст до 1M токенов. По агентским бенчмаркам держится рядом с Claude Opus 4.6 и Sonnet 4.6.

Цена API: $1/млн входящих токенов до 256K — против $3 у Sonnet и $5 у Opus.

Xiaomi — ТОП за свои деньги))

@ai_for_devs

1🔥29😁14👍5❤1⚡1

2.17K views09:39

About

Blog

Apps

Platform