Machinelearning

📌

Anthropic объяснил регрессию Claude Code и предложил обходные пути.

Инженер из AMD опубликовал на GitHub подробный разбор деградации Claude Code на сложных задачах, начавшейся в феврале. Автор сгенерировал отчет силами Opus 4.6, проанализировав 17 тыс. блоков размышлений и 234 тыс. вызовов инструментов в 6 852 локальных сессиях.

Главная метрика - отношение чтений файлов к правкам упала с 6,6 до 2,0. Иначе говоря, модель почти перестала изучать код перед его модификацией: доля правок без предварительного чтения выросла с 6,2% до 33,7%.

Параллельно был зафиксировал рост зацикливаний (с 8,2 до 21,0 на тысячу вызовов), удвоение использования полной перезаписи файлов вместо точечных правок и вспышку поведенческих симптомов (уклонение от ответственности, преждевременные остановки и склонность к простейшему решению).

Специальный stop-hook, ловящий такие фразы, сработал 173 раза за 17 дней после 8 марта, против нуля за весь предыдущий период.

Автор связал регрессию с заголовком redact-thinking-2026-02-12, после появление которого содержимое thinking-блоков перестало приходить клиенту.

Борис Черный, глава команды Claude Code ответил на Hacker News:

Заголовок убирает саммари размышлений из интерфейса, чтобы не гонять их по сети ради снижения латентности, но не трогает ни сам ризонинг, ни бюджеты на него.

Локальный анализ транскриптов поэтому и видит пустые блоки и делает неверный вывод об отсутствии мышления. Если надо, то вернуть отображение можно опцией showThinkingSummaries:true в settings.json.

🟡

Реальных изменений, влияющих на глубину рассуждений, было два:

9 февраля вместе с Opus 4.6 включили adaptive thinking - модель сама выбирает длину размышлений вместо фиксированного бюджета.

3 марта дефолтный уровень усилий для Opus 4.6 подняли до medium (effort=85) как компромисс между интеллектом, латентностью и стоимостью.

В ответ на гипотезу о том, что виноват свежий 1M-контекст и работа без /compact после 200k токенов, Борис предложил решения, которыми можно вернуть прежнее поведение:

🟢

/effort high или /effort max - поднять максимальный бюджет thinking-токенов на задачу;

🟢

CLAUDE_CODE_AUTO_COMPACT_WINDOW=400000 - принудительно укоротить рабочее окно контекста.

🟢

CLAUDE_CODE_SIMPLE=1 - упрощенный режим для проверки гипотезы об интерференции системного промпта.

Дополнительно есть CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1 , он отключает адаптивный режим и возвращает фиксированный бюджет рассуждений.

🟡

Расследование бага продолжается командой Claude Code.

Борис также заверил, что Anthropic протестирует включение high effort по умолчанию для тарифов Teams и Enterprise.

Это приведет к большему расходу токенов и росту латентности, но даст гарантированную глубину рассуждений.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post