Технозаметки Малышева
5.55K subscribers
2.79K photos
927 videos
38 files
3.07K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
🧩 Claude 4 дебютировал в NYT Connections — первые результаты рассуждающих моделей от Anthropic

Клода прогнали через бенчмарк NYT Connections и он, пока, далеко не на первом месте.

Что за бенчмарк:

651 пазла с добавлением "обманных" слов
Специально усложнили, чтобы подготовиться к выходу o3 от OpenAI
Теперь каждый пазл содержит до 4 дополнительных слов-ловушек
Отдельный зачёт по последним 100 пазлам (защита от "подсматривания" в трейне)

Результаты Claude 4:

Claude Opus 4 Thinking 16K — 11 место (52.7%) — лучший результат среди Claude
Claude Sonnet 4 Thinking 16K — 13 место (41.4%)
Claude Sonnet 4 Thinking 64K — 14 место (39.6%) — интересно, что больший контекст не помог
Claude Opus 4 (no reasoning) — 17 место (34.8%) — без рассуждений получается слабовато

Ключевые наблюдения:

Reasoning решает — версии с рассуждениями показывают +15-20% к точности против "обычных"
Лидерство OpenAI — o1-pro держит первое место (82.5%), o3 на втором (79.5%)
Claude догоняет — Opus 4 Thinking впервые попал в топ-15, но до лидеров ещё далеко

Практические выводы:

Для сложных логических задач выбирайте thinking-версии Claude 4
Размер контекста (16K vs 64K) пока не критичен для reasoning-задач
Claude 4 серьёзно продвинулся в логике, но OpenAI пока не догнал если сравнивать возможности исследователя

Интересная деталь: в сравнении с людьми o1 показывает 98.9% против среднего игрока NYT (71%).
При том, что ведущие игроки платформы достигают 100%.

ИИ уже превзошёл обычных людей, но до абсолютных чемпионов ещё немного не хватает.

#Claude4 #reasoning #benchmarks #Anthropic #NYTCollection
———
@tsingular
👍41