⚡️ Google выпустили Gemini 3 Flash — frontier-интеллект со скоростью Flash и ценой ниже рынка
По бенчмаркам модель выглядит неожиданно сильно. На GPQA Diamond — 90.4%, на Humanity’s Last Exam — 33.7% без инструментов, а на MMMU Pro — 81.2%, почти на уровне Gemini 3 Pro.
При этом Flash уверенно обходит Gemini 2.5 Pro и конкурирует с крупными frontier-моделями, оставаясь в другом ценовом классе.
Ключевая инженерная фишка — управляемый thinking. На сложных задачах модель может «думать дольше», но в среднем использует на 30% меньше токенов, чем 2.5 Pro, сохраняя более высокое качество.
@ai_for_devs
По бенчмаркам модель выглядит неожиданно сильно. На GPQA Diamond — 90.4%, на Humanity’s Last Exam — 33.7% без инструментов, а на MMMU Pro — 81.2%, почти на уровне Gemini 3 Pro.
При этом Flash уверенно обходит Gemini 2.5 Pro и конкурирует с крупными frontier-моделями, оставаясь в другом ценовом классе.
Ключевая инженерная фишка — управляемый thinking. На сложных задачах модель может «думать дольше», но в среднем использует на 30% меньше токенов, чем 2.5 Pro, сохраняя более высокое качество.
@ai_for_devs
❤14👍9🔥5⚡2
⚡️ OpenAI выпустили GPT-5.2-Codex
Если 5.1-Codex-Max показывал максимум на SWE-Bench и SWE-Lancer, то 5.2-Codex подтверждает прогресс уже на agent-ориентированных бенчмарках:
• SWE-Bench Pro: 56.4% (против 55.6% у GPT-5.2)
• Terminal-Bench 2.0: 64.0%, уверенное лидерство в реальных CLI-задачах
Ключевое отличие — эволюция компакции. Теперь модель лучше удерживает план, корректирует стратегию после неудач и реже скатывается в повторные попытки. Это особенно заметно на больших рефакторингах и миграциях, где Codex теперь дольше работает автономно.
Вторая крупная ось апдейта — defensive cybersecurity. В отличие от 5.1-Codex-Max, GPT-5.2-Codex целенаправленно прокачан под security-workflow: анализ attack surface, воспроизведение уязвимостей, fuzzing и валидацию багов. На профессиональных CTF-оценках это уже третий подряд скачок качества для линейки Codex.
Карточка модели
@ai_for_devs
Если 5.1-Codex-Max показывал максимум на SWE-Bench и SWE-Lancer, то 5.2-Codex подтверждает прогресс уже на agent-ориентированных бенчмарках:
• SWE-Bench Pro: 56.4% (против 55.6% у GPT-5.2)
• Terminal-Bench 2.0: 64.0%, уверенное лидерство в реальных CLI-задачах
Ключевое отличие — эволюция компакции. Теперь модель лучше удерживает план, корректирует стратегию после неудач и реже скатывается в повторные попытки. Это особенно заметно на больших рефакторингах и миграциях, где Codex теперь дольше работает автономно.
Вторая крупная ось апдейта — defensive cybersecurity. В отличие от 5.1-Codex-Max, GPT-5.2-Codex целенаправленно прокачан под security-workflow: анализ attack surface, воспроизведение уязвимостей, fuzzing и валидацию багов. На профессиональных CTF-оценках это уже третий подряд скачок качества для линейки Codex.
Карточка модели
@ai_for_devs
1👍21🔥6❤4😁1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Prompt Caching: токены LLM в 10 раз дешевле — но за счёт чего?
Подготовили перевод просто пушечной статьи про кэширование промтов. Внутри много теоретической базы изложенной простыми словами, с классными примерами и наглядными анимациями(без математики тоже не обошлось 🫠) .
Вот как сам автор описал свою статью и мы с ним полностью согласны:
📚 Читайте и комментируйте на Хабр.
@ai_for_devs
Подготовили перевод просто пушечной статьи про кэширование промтов. Внутри много теоретической базы изложенной простыми словами, с классными примерами и наглядными анимациями
Вот как сам автор описал свою статью и мы с ним полностью согласны:
Не удовлетворившись ответами в документации вендоров ПО для разработчиков, которые хорошо объясняют, как пользоваться кэшированием промптов, но аккуратно обходят вопрос о том, что именно кэшируется, я решил копнуть глубже.
Я нырнул в кроличью нору устройства LLM, пока не понял, какие именно данные провайдеры кэшируют, для чего они используются и как это делает всё быстрее и дешевле для всех.
К концу этой статьи вы:
– глубже поймёте, как работают LLM
– сформируете новую интуицию о том, почему LLM устроены именно так
– разберётесь, какие именно нули и единицы кэшируются и как это снижает стоимость ваших запросов к LLM
📚 Читайте и комментируйте на Хабр.
@ai_for_devs
51🔥22👍10❤3👏2
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Вслед за MCP Anthropic заопенсорсили Skills
Anthropic продолжает последовательно выносить ключевые элементы агентной архитектуры в открытую экосистему.
Вслед за MCP компания заопенсорсила Agent Skills — открытый стандарт для описания и распространения повторяемых агентных workflows между AI-платформами.
Anthropic также запустила каталог skills, доступный на claude.com/connectors. На старте в нем представлены навыки от партнеров, включая: Notion, Canva, Figma, Atlassian и другие SaaS-платформы.
@ai_for_devs
Anthropic продолжает последовательно выносить ключевые элементы агентной архитектуры в открытую экосистему.
Вслед за MCP компания заопенсорсила Agent Skills — открытый стандарт для описания и распространения повторяемых агентных workflows между AI-платформами.
Что такое Skills и зачем они нужны
Skills — это формализованные сценарии действий агента: цепочки инструкций, доступ к инструментам, файлам и вычислениям, которые можно переиспользовать и переносить между средами.
Идея в том, чтобы:
• отделить логику работы агента от конкретной модели;
• сделать навыки воспроизводимыми и проверяемыми;
• упростить распространение лучших практик внутри организаций и экосистемы.
До сих пор подобные механики существовали либо в виде проприетарных prompt-шаблонов, либо как внутренняя логика конкретных фреймворков. Agent Skills пытается зафиксировать это на уровне стандарта.
Anthropic также запустила каталог skills, доступный на claude.com/connectors. На старте в нем представлены навыки от партнеров, включая: Notion, Canva, Figma, Atlassian и другие SaaS-платформы.
@ai_for_devs
🔥18👍12❤7
This media is not supported in your browser
VIEW IN TELEGRAM
😎 Вчера Anthropic завершили неделю, научив Claude Code взаимодействовать с браузером
Модель не только пишет код, но и читает DOM, видит ошибки в консоли и проверяет поведение фич прямо в браузере.
Забираем тут.
@ai_for_devs
Модель не только пишет код, но и читает DOM, видит ошибки в консоли и проверяет поведение фич прямо в браузере.
Забираем тут.
@ai_for_devs
🔥25👍13❤4😁2
🔥 Китайцы снова радуют. Вышла GLM-4.7 – заметный апгрейд именно для агентного кодинга
Z.ai представили GLM-4.7 — новую версию своей модели для кодинга, и апдейт получился не косметическим. Основной фокус — агентные сценарии, терминал и устойчивость на длинных задачах.
По бенчмаркам рост выглядит вполне предметно: SWE-bench Verified — 73.8% (+5.8%), SWE-bench Multilingual — 66.7% (+12.9%), Terminal Bench 2.0 — 41% (+16.5%).
Ключевое отличие GLM-4.7 — работа с мышлением. Модель использует interleaved thinking (думает перед каждым действием), а в агентных сценариях сохраняет reasoning между ходами. За счёт этого длинные цепочки команд в терминале и IDE становятся заметно стабильнее: меньше дрейфа контекста и меньше «переизобретений» одного и того же шага.
Модель уже доступна через API Z.ai и OpenRouter, а веса выложены публично.
@ai_for_devs
Z.ai представили GLM-4.7 — новую версию своей модели для кодинга, и апдейт получился не косметическим. Основной фокус — агентные сценарии, терминал и устойчивость на длинных задачах.
По бенчмаркам рост выглядит вполне предметно: SWE-bench Verified — 73.8% (+5.8%), SWE-bench Multilingual — 66.7% (+12.9%), Terminal Bench 2.0 — 41% (+16.5%).
Ключевое отличие GLM-4.7 — работа с мышлением. Модель использует interleaved thinking (думает перед каждым действием), а в агентных сценариях сохраняет reasoning между ходами. За счёт этого длинные цепочки команд в терминале и IDE становятся заметно стабильнее: меньше дрейфа контекста и меньше «переизобретений» одного и того же шага.
Модель уже доступна через API Z.ai и OpenRouter, а веса выложены публично.
@ai_for_devs
🔥15👍9⚡3😁2❤1
⚡️ Anthropic выкатили нативную поддержку Language Server Protocol (LSP) для Claude Code
LSP даёт агенту доступ к семантике кода: переход к определениям, поиск ссылок, типов и символов на уровне полноценной IDE.
Сейчас CLI-агенты опираются на grep и эвристики контекста, что плохо масштабируется при рефакторинге больших кодовых баз.
Интеграция с LSP должна помочь решить эту проблему.
@ai_for_devs
LSP даёт агенту доступ к семантике кода: переход к определениям, поиск ссылок, типов и символов на уровне полноценной IDE.
Сейчас CLI-агенты опираются на grep и эвристики контекста, что плохо масштабируется при рефакторинге больших кодовых баз.
Интеграция с LSP должна помочь решить эту проблему.
@ai_for_devs
1🔥38👍9🤯6❤3
А вы знали, что у JetBrains есть Junie CLI?
Я тоже — нет. А он есть. И сегодня он занял первое место на Terminal-Bench 2.0.
Terminal-Bench — это бенчмарк для оценки агентных систем, которые работают в терминале: внутри контейнера агенту нужно выполнять команды, писать и править скрипты, устанавливать зависимости, дебажить окружение и доводить задачу до рабочего состояния.
В отличие от reasoning-бенчей, здесь проверяется прикладная инженерная компетенция — умение планировать действия, взаимодействовать с терминалом, справляться с ошибками среды и получать воспроизводимый результат.
@ai_for_devs
Я тоже — нет. А он есть. И сегодня он занял первое место на Terminal-Bench 2.0.
Terminal-Bench — это бенчмарк для оценки агентных систем, которые работают в терминале: внутри контейнера агенту нужно выполнять команды, писать и править скрипты, устанавливать зависимости, дебажить окружение и доводить задачу до рабочего состояния.
В отличие от reasoning-бенчей, здесь проверяется прикладная инженерная компетенция — умение планировать действия, взаимодействовать с терминалом, справляться с ошибками среды и получать воспроизводимый результат.
@ai_for_devs
👍17🤔3❤1🔥1🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Правда, к сожалению 🥲
Please open Telegram to view this post
VIEW IN TELEGRAM
🎄22💯11😭11☃1
На прошлой неделе Habr опубликовал итоги года — и наш проект попал в ТОП-2 среди UGC-авторов (независимых, не аффилированных с компаниями) и в ТОП-8 overall!
Учитывая, что активно публиковаться мы начали только в сентябре, результат за один квартал, на мой взгляд, более чем достойный. Проект изначально запускался как эксперимент — и теперь уже можно уверенно сказать, что эксперимент удался.
В следующем году постараемся как минимум сохранить текущие темпы, а как максимум — заметно их преумножить. Если вы следите только за одним из каналов проекта, напоминаю полный список наших ресурсов:
— @ai_for_devs — флагман проекта. Неудивительно, учитывая взрывной рост прикладного ИИ именно для разработчиков
— @go_for_devs — второй по популярности, но самый активный по вовлечённости
— @python_for_devs — канал, с которого всё началось, и этим он прекрасен
— @js_for_devs — здесь всё ещё впереди. Если вы из frontend-мира — добро пожаловать, догоним остальных 🙂
Суммарно за проектом уже следит более 6.5 тысяч человек!
Поздравляю всех с наступающим Новым годом и желаю профессионального роста и сильных результатов в 2026!
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Хабр — Итоги 2025
Привет, Хабр! Ну, как настроение? Кажется, что мир начинает вращаться с какой-то практически неуловимой для человеческого внимания скоростью: ИИ, нейрослоп, мошенники, зоопарк хакеров найма, утечки,...
11👍22🎉10❤4🔥3
AI-дайджест для тех, кто сегодня впервые открыл лэптоп. Главные события первой недели 2026 года:
🟣 DeepSeek предложили новую вариацию трансформера. Китайский стартап DeepSeek готовит к выпуску DeepSeek V4, которая по неофициальным данным может превзойти Claude и GPT в задачах программирования за счёт улучшенной работы с очень длинным контекстом и ориентированной на практических инженеров архитектуры.
🟣 Как использует Claude Code создатель Claude Code. Он запускает несколько сессий одновременно в разных средах и использует уведомления для синхронизации. Для повышения продуктивности применяет только режим Opus 4.5 и документ CLAUDE.md для фиксации ошибок.
🟣 Cursor полностью переходят на динамический контекст для всех моделей. Теперь контекст содержит ссылки и "оглавление", а полные данные хранятся в отдельных файлах. Такой подход снижает переполнение контекста и позволяет агенту извлекать нужную информацию. В тестах потребление токенов уменьшилось на ~46.9%.
🟣 AI-индустрия убила бизнес Tailwind CSS. Компания сократила 75% разработчиков. Изменения в ландшафте генерации интерфейсов с ИИ привели к уменьшению спроса на Tailwind.
🟣 Claude Code ограничили использование своих моделей в других решениях по типу OpenCode. Anthropic ввёл ограничения на интеграцию моделей Claude Code в сторонние приложения: это влияет на экосистему инструментов с открытым использованием моделей.
🟣 Линус Торвальдс стал вайбкодером. Он применяет новую ИИ-IDE Antigravity от Google для разработки визуализатора.
@ai_for_devs
@ai_for_devs
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤8🔥5