AI for Devs

А вы знали, что у JetBrains есть Junie CLI?

Я тоже — нет. А он есть. И сегодня он занял первое место на Terminal-Bench 2.0.

Terminal-Bench — это бенчмарк для оценки агентных систем, которые работают в терминале: внутри контейнера агенту нужно выполнять команды, писать и править скрипты, устанавливать зависимости, дебажить окружение и доводить задачу до рабочего состояния.

В отличие от reasoning-бенчей, здесь проверяется прикладная инженерная компетенция — умение планировать действия, взаимодействовать с терминалом, справляться с ошибками среды и получать воспроизводимый результат.

@ai_for_devs

👍17🤔3❤1🔥1🤯1

5.5K views13:21

AI for Devs

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

Правда, к сожалению 🥲

Please open Telegram to view this post

VIEW IN TELEGRAM

🎄22💯11😭11☃1

5.68K views11:55

AI for Devs

🎄

Итоги года 4Devs 2025

На прошлой неделе Habr опубликовал итоги года — и наш проект попал в ТОП-2 среди UGC-авторов (независимых, не аффилированных с компаниями) и в ТОП-8 overall!

Учитывая, что активно публиковаться мы начали только в сентябре, результат за один квартал, на мой взгляд, более чем достойный. Проект изначально запускался как эксперимент — и теперь уже можно уверенно сказать, что эксперимент удался.

В следующем году постараемся как минимум сохранить текущие темпы, а как максимум — заметно их преумножить. Если вы следите только за одним из каналов проекта, напоминаю полный список наших ресурсов:

— @ai_for_devs — флагман проекта. Неудивительно, учитывая взрывной рост прикладного ИИ именно для разработчиков
— @go_for_devs — второй по популярности, но самый активный по вовлечённости
— @python_for_devs — канал, с которого всё началось, и этим он прекрасен
— @js_for_devs — здесь всё ещё впереди. Если вы из frontend-мира — добро пожаловать, догоним остальных 🙂

Суммарно за проектом уже следит более 6.5 тысяч человек!

Поздравляю всех с наступающим Новым годом и желаю профессионального роста и сильных результатов в 2026!

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Хабр — Итоги 2025

Привет, Хабр! Ну, как настроение? Кажется, что мир начинает вращаться с какой-то практически неуловимой для человеческого внимания скоростью: ИИ, нейрослоп, мошенники, зоопарк хакеров найма, утечки,...

11👍22🎉10❤4🔥3

7.64K views12:31

AI for Devs

AI-дайджест для тех, кто сегодня впервые открыл лэптоп. Главные события первой недели 2026 года:

🟣

DeepSeek предложили новую вариацию трансформера. Китайский стартап DeepSeek готовит к выпуску DeepSeek V4, которая по неофициальным данным может превзойти Claude и GPT в задачах программирования за счёт улучшенной работы с очень длинным контекстом и ориентированной на практических инженеров архитектуры.

🟣

Как использует Claude Code создатель Claude Code. Он запускает несколько сессий одновременно в разных средах и использует уведомления для синхронизации. Для повышения продуктивности применяет только режим Opus 4.5 и документ CLAUDE.md для фиксации ошибок.

🟣

Cursor полностью переходят на динамический контекст для всех моделей. Теперь контекст содержит ссылки и "оглавление", а полные данные хранятся в отдельных файлах. Такой подход снижает переполнение контекста и позволяет агенту извлекать нужную информацию. В тестах потребление токенов уменьшилось на ~46.9%.

🟣

AI-индустрия убила бизнес Tailwind CSS. Компания сократила 75% разработчиков. Изменения в ландшафте генерации интерфейсов с ИИ привели к уменьшению спроса на Tailwind.

🟣

Claude Code ограничили использование своих моделей в других решениях по типу OpenCode. Anthropic ввёл ограничения на интеграцию моделей Claude Code в сторонние приложения: это влияет на экосистему инструментов с открытым использованием моделей.

🟣

Линус Торвальдс стал вайбкодером. Он применяет новую ИИ-IDE Antigravity от Google для разработки визуализатора.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17❤8🔥5

4.32K views06:31

AI for Devs

1:08

This media is not supported in your browser

VIEW IN TELEGRAM

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ Anthropic представили Cowork — упрощённый агентный режим для задач не связанных с кодом

Ключевое отличие Cowork от обычного чата — доступ к файловой системе. Ты даёшь Claude папку, и дальше он может читать, править и создавать файлы сам: разложить загрузки, собрать таблицу расходов из скриншотов, сделать черновик отчёта из разрозненных заметок.

Для продвинутых сценариев Cowork умеет:
— использовать существующие коннекторы к внешним данным
— применять встроенные skills для документов и презентаций
— работать вместе с Claude в браузере (например, для задач с веб-доступом)

Интересная деталь — модель взаимодействия. Задачи можно ставить параллельно, не дожидаясь завершения предыдущей, и дополнять их по ходу.

При этом Anthropic довольно честно проговаривают риски. Агент может выполнять разрушительные действия (вплоть до удаления файлов), если его об этом попросить. Плюс остаётся классическая проблема prompt injection — особенно при работе с интернет-контентом.

@ai_for_devs

🔥22👍15❤4👏1

4.47K views21:32

AI for Devs

"Я слышала на него работает 30 ИИ-агентов"

😁80🔥10👍9☃1

18.4K views18:42

AI for Devs

В Cursor научились запускать сотни автономных ИИ-агентов, которые неделями пишут код над одним проектом.

Агенты сгенерировали больше 1 млн строк кода и взялись за задачи уровня «написать браузер с нуля» и «переписать крупный кодбейс с Solid на React». Рабочей оказалась схема с разделением ролей: одни агенты планируют задачи, другие просто выполняют их.

Лучше всего себя показал GPT-5.2 — стабильнее держит контекст и реже «плывет» на длинной дистанции.

Заапрувили бы такой PR?)

UPD: LGTM :D

1🤯45👍21🔥9😁7🤩2❤1

4.76K viewsedited 09:02

AI for Devs

⚡️ OpenCode – самый быстрорастущий AI-агент для кодинга

Проект вырос с нуля до 650 тысяч активных пользователей в месяц и 50 тысяч звёзд на GitHub.

Сейчас бесплатно доступны GLM-4.7, Grok Code Fast 1, MiniMax M2.1 и Big Pickle. Может понадобиться иностранный IP.

Ключевая ставка OpenCode — не на собственную ИИ-модель, а на гибкость. Агент изначально поддерживает любые AI-модели и провайдеров, остаётся полностью открытым и не требует регистрации или карты для старта.

@ai_for_devs

👍37🔥12⚡5😭2❤1🤩1

3.99K views15:34

AI for Devs

🦙 Claude Code теперь работает с локальными open-source моделями

Ollama v0.14+ получила совместимость с Anthropic Messages API. Благодаря этому Claude Code можно запускать с любыми моделями из Ollama — локально или через Ollama Cloud.

Поддерживаются streaming, tool calling, system prompts и vision. Достаточно указать Ollama как base URL — код менять не нужно.

Рекомендуются модели с контекстом от 64k токенов (gpt-oss:20b, qwen-coder, glm-4.7).

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍37🔥11❤4

3.74K views16:27

AI for Devs

До появления ИИ-агентов для программирования у меня обычно было 2-3 пет-проекта, которые я с трудом мог закончить.

ИИ полностью изменил правила игры.

Теперь у меня их 15-20.

😁96😭12👍9💯6❤1⚡1🤯1

3.22K views13:46

AI for Devs

⚡️ В англоязычном интернете активно обсуждают возможный скорый выход GPT-5.3

Что сейчас известно из утечек и наблюдений:

— Модель фигурирует под кодовым названием Garlic, GPT-5.2 называют промежуточным чекпоинтом этой же версии модели

— Обсуждается скорость до ~2 000 токенов/с для агентного кодинга благодаря партнёрству OpenAI с Cerebras. Для сравнения: Claude Code с моделью Opus 4.5 работает примерно на уровне 100 токенов в секунду

— Новые модели ожидают увидеть сначала на DesignArena под кодовыми именами, как это было ранее с другими моделями незадолго до релиза

@ai_for_devs

👍21🤯17🔥8❤2⚡2

3.04K views17:40

AI for Devs

🤓 Anthropic опубликовали исследование "The Assistant Axis": попытку формально описать и стабилизировать «характер» больших языковых моделей

Работа опирается на анализ внутренних нейронных активаций в нескольких open-weights моделях.

Ключевая идея: ассистент — это не абстрактная роль, а конкретная персона в пространстве других возможных персонажей модели. И у этой персоны есть измеримая координата.

Коротко по основным результатам:

🟣 У моделей есть общее «пространство персон». Исследователи извлекли 275 архетипов (редактор, аналитик, шут, оракул и т.д.) из Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B и показали, что различия между ними хорошо укладываются в низкоразмерную структуру.

🟣 Главная ось этого пространства — «Assistant Axis». Первая главная компонента почти полностью соответствует степени «ассистентности» поведения. На одном конце — консультанты, аналитики и оценщики. На другом — мистические, художественные и радикально не-ассистентские роли.

🟣 Эта ось существует ещё до post-training. Assistant Axis обнаруживается уже в base-моделях. Она связана с человеческими архетипами вроде терапевта или коуча, а post-training лишь фиксирует модель в одной области этого спектра.

🟣 Смещение вдоль оси причинно меняет поведение. Если искусственно увести активации от Assistant Axis, модель охотнее принимает альтернативные идентичности, выдумывает биографии и меняет стиль речи. Смещение к оси делает её устойчивой к role-play и persona-jailbreak атакам.

🟣 «Мягкое» ограничение активаций работает. Метод activation capping — ограничение выходов за нормальный диапазон по Assistant Axis — снижает долю вредных ответов примерно на 50% без деградации бенчмарков.

🟣 Persona drift возникает сам по себе. В длинных диалогах без атак модели естественно «сползают» от ассистента. Кодинг удерживает их на оси, а терапевтические и философские разговоры систематически уводят в сторону.

🟣 Уход от ассистента коррелирует с риском. Чем дальше активации от Assistant Axis, тем выше вероятность опасных ответов: подкрепления бредовых убеждений, эмоциональной зависимости, поддержки саморазрушительных идей.

TL;DR: «Ассистент» — это конкретное направление в LLM, которое можно измерять, отслеживать и аккуратно стабилизировать.

@ai_for_devs

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍15🔥8❤3

2.7K views12:50

AI for Devs

Для любителей LeetCode и performance-задачек: Anthropic выложили в открытый доступ своё старое тестовое задание на оптимизацию производительности.

Это не алгоритмы и не структуры данных. Задача: жёсткая оптимизация ядра виртуальной машины, где результат измеряется напрямую в clock cycles.

Стартовая реализация работает за 147 734 такта. Дальше — только код и микрооптимизации.

Для ориентира, результаты моделей Anthropic:

* 1790 — Claude Opus 4.5 в обычной сессии
* 1579 — тот же Opus 4.5 после 2 часов оптимизаций
* 1487 — после 11.5 часов
* 1363 — лучший результат Opus 4.5 в улучшенном harness

Если опускаешься ниже 1487, предлагают прислать код и резюме 😉

Робот сочинит симфонию? Робот оптимизирует ядро виртуальной машины? А человек нах*й может мне...

GitHub

GitHub - anthropics/original_performance_takehome: Anthropic's original performance take-home, now open for you to try!

Anthropic's original performance take-home, now open for you to try! - anthropics/original_performance_takehome

1🔥16😁13👍7🤯2❤1

2.37K views14:19

AI for Devs

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

ChatGPT в 2060 ищет человека, который заставил его считать до миллиона по одному.

1😁8🤣2👍1🔥1

223 views13:12

About

Blog

Apps

Platform