🧩 Claude 4 дебютировал в NYT Connections — первые результаты рассуждающих моделей от Anthropic
Клода прогнали через бенчмарк NYT Connections и он, пока, далеко не на первом месте.
Что за бенчмарк:
651 пазла с добавлением "обманных" слов
Специально усложнили, чтобы подготовиться к выходу o3 от OpenAI
Теперь каждый пазл содержит до 4 дополнительных слов-ловушек
Отдельный зачёт по последним 100 пазлам (защита от "подсматривания" в трейне)
Результаты Claude 4:
Claude Opus 4 Thinking 16K — 11 место (52.7%) — лучший результат среди Claude
Claude Sonnet 4 Thinking 16K — 13 место (41.4%)
Claude Sonnet 4 Thinking 64K — 14 место (39.6%) — интересно, что больший контекст не помог
Claude Opus 4 (no reasoning) — 17 место (34.8%) — без рассуждений получается слабовато
Ключевые наблюдения:
Reasoning решает — версии с рассуждениями показывают +15-20% к точности против "обычных"
Лидерство OpenAI — o1-pro держит первое место (82.5%), o3 на втором (79.5%)
Claude догоняет — Opus 4 Thinking впервые попал в топ-15, но до лидеров ещё далеко
Практические выводы:
Для сложных логических задач выбирайте thinking-версии Claude 4
Размер контекста (16K vs 64K) пока не критичен для reasoning-задач
Claude 4 серьёзно продвинулся в логике, но OpenAI пока не догнал если сравнивать возможности исследователя
Интересная деталь: в сравнении с людьми o1 показывает 98.9% против среднего игрока NYT (71%).
При том, что ведущие игроки платформы достигают 100%.
ИИ уже превзошёл обычных людей, но до абсолютных чемпионов ещё немного не хватает.
#Claude4 #reasoning #benchmarks #Anthropic #NYTCollection
———
@tsingular
Клода прогнали через бенчмарк NYT Connections и он, пока, далеко не на первом месте.
Что за бенчмарк:
651 пазла с добавлением "обманных" слов
Специально усложнили, чтобы подготовиться к выходу o3 от OpenAI
Теперь каждый пазл содержит до 4 дополнительных слов-ловушек
Отдельный зачёт по последним 100 пазлам (защита от "подсматривания" в трейне)
Результаты Claude 4:
Claude Opus 4 Thinking 16K — 11 место (52.7%) — лучший результат среди Claude
Claude Sonnet 4 Thinking 16K — 13 место (41.4%)
Claude Sonnet 4 Thinking 64K — 14 место (39.6%) — интересно, что больший контекст не помог
Claude Opus 4 (no reasoning) — 17 место (34.8%) — без рассуждений получается слабовато
Ключевые наблюдения:
Reasoning решает — версии с рассуждениями показывают +15-20% к точности против "обычных"
Лидерство OpenAI — o1-pro держит первое место (82.5%), o3 на втором (79.5%)
Claude догоняет — Opus 4 Thinking впервые попал в топ-15, но до лидеров ещё далеко
Практические выводы:
Для сложных логических задач выбирайте thinking-версии Claude 4
Размер контекста (16K vs 64K) пока не критичен для reasoning-задач
Claude 4 серьёзно продвинулся в логике, но OpenAI пока не догнал если сравнивать возможности исследователя
Интересная деталь: в сравнении с людьми o1 показывает 98.9% против среднего игрока NYT (71%).
При том, что ведущие игроки платформы достигают 100%.
ИИ уже превзошёл обычных людей, но до абсолютных чемпионов ещё немного не хватает.
#Claude4 #reasoning #benchmarks #Anthropic #NYTCollection
———
@tsingular
👍4❤1