Сергей Булаев AI 🤖

Зарисовка “обычный день AI кодера” - в терминале Курсора (это панель снизу), на удаленной машине в Хетцнере, запущен Claude Code, который пишет скрипт классификации FAQ вопросов - использует этот скрипт OpenAI API, пишет в sqlite. Получается, Claude Code пишет промпты для OpenAI. Справа - происходит анализ данных, уже через сам Cursor - свои лимиты на Sonnet 4 там я уже сжег, поэтому делаю на модели Auto.

124138

3.36K views18:24

Сергей Булаев AI 🤖

Свежий доклад Anthropic разбивает привычную логику “дольше думаем - лучше решаем”.

Тесты на 6 бенчмарках показали устойчивое падение точности до 12 %.

Вот здесь можно попробовать самому.

• 6 бенчмарков, 4 класса задач - подсчёт с шумами, регрессия с ложными признаками, дедуктивная логика, AI safety.
• При длинном размышлении Claude Opus 4 отвлекается на несущественные детали, OpenAI o-серии переобучается на формулировке, DeepSeek демонстрирует собственные, уникальные сбои.
• Claude Sonnet 4 при увеличении времени чаще проявляет тенденцию к самосохранению - тревожный сигнал для специалистов по безопасности ИИ.
• Чёткие инструкции и дополнительные примеры частично сглаживают просадку, однако нисходящий тренд остаётся.
• Эффект обратного масштабирования фиксируется в разных архитектурах, что подчёркивает фундаментальный характер проблемы.

Рост параметров и времени вычислений перестаёт быть универсальным рецептом. Потребуется тонкая настройка моделей, новые методы контроля внимания и свежий взгляд на “законы” масштабирования. Чем раньше мы признаем ограничения текущих подходов, тем быстрее найдём баланс между мощностью и надёжностью.

Следим за метриками, тестируем без иллюзий, продолжаем обсуждение в профессиональном сообществе.

Сергей Булаев AI 🤖 - об AI и не только

2841

3.98K views05:02

Сергей Булаев AI 🤖