Технозаметки Малышева

🧩 Claude 4 дебютировал в NYT Connections — первые результаты рассуждающих моделей от Anthropic

Клода прогнали через бенчмарк NYT Connections и он, пока, далеко не на первом месте.

Что за бенчмарк:
651 пазла с добавлением "обманных" слов
Специально усложнили, чтобы подготовиться к выходу o3 от OpenAI
Теперь каждый пазл содержит до 4 дополнительных слов-ловушек
Отдельный зачёт по последним 100 пазлам (защита от "подсматривания" в трейне)

Результаты Claude 4:
Claude Opus 4 Thinking 16K — 11 место (52.7%) — лучший результат среди Claude
Claude Sonnet 4 Thinking 16K — 13 место (41.4%)
Claude Sonnet 4 Thinking 64K — 14 место (39.6%) — интересно, что больший контекст не помог
Claude Opus 4 (no reasoning) — 17 место (34.8%) — без рассуждений получается слабовато

Ключевые наблюдения:
Reasoning решает — версии с рассуждениями показывают +15-20% к точности против "обычных"
Лидерство OpenAI — o1-pro держит первое место (82.5%), o3 на втором (79.5%)
Claude догоняет — Opus 4 Thinking впервые попал в топ-15, но до лидеров ещё далеко

Практические выводы:
Для сложных логических задач выбирайте thinking-версии Claude 4
Размер контекста (16K vs 64K) пока не критичен для reasoning-задач
Claude 4 серьёзно продвинулся в логике, но OpenAI пока не догнал если сравнивать возможности исследователя

Интересная деталь: в сравнении с людьми o1 показывает 98.9% против среднего игрока NYT (71%).
При том, что ведущие игроки платформы достигают 100%.

ИИ уже превзошёл обычных людей, но до абсолютных чемпионов ещё немного не хватает.

#Claude4 #reasoning #benchmarks #Anthropic #NYTCollection
———
@tsingular

👍4❤1

2.19K views06:02

About

Blog

Apps

Platform