Технозаметки Малышева

🔥 EXAONE Deep: LG врывается в гонку рассуждающих ИИ

На арене появился неожиданный игрок из Кореи — LG, как оказалось, умеет не только в холодильники и телевизоры, но и в ИИ.

EXAONE Deep от LG AI Research — новая линейка моделей (32B, 7.8B и 2.4B параметров), заточенных под математику, научное мышление и программирование. И, судя по бенчмаркам, получается вполне сносно.

• 32B версия работает наравне с такими лидерами, как Qwen 32B, QwQ 32B и даже DeepSeek-R1 671B в CSAT Math.

• Уже доступна на Hugging Face — можно пощупать прямо сейчас.

По бенчмаркам:

• AIME 2024/2025 (американские математические олимпиады) — 32B версия набирает 90 баллов, 7.8B — 83.3.

• Китайский экзамен CSAT 2025 по математике — 94.5 балла у 32B версии.

• GPQA Diamond (PhD-уровень задач по физике, химии, биологии) — 66.1 у 32B.

• LiveCodeBench (кодинг) — стабильно высокие результаты у всех версий.

Оптимизирована под корейский язык.
Требует специальную команду для запуска режима рассуждений в промпте: нужно добавлять <thought>\n.

#reasoning #LG #EXAONE
———
@tsingular

🤔4🔥1

828 viewsedited 06:49

🧩 Claude 4 дебютировал в NYT Connections — первые результаты рассуждающих моделей от Anthropic

Клода прогнали через бенчмарк NYT Connections и он, пока, далеко не на первом месте.

Что за бенчмарк:
651 пазла с добавлением "обманных" слов
Специально усложнили, чтобы подготовиться к выходу o3 от OpenAI
Теперь каждый пазл содержит до 4 дополнительных слов-ловушек
Отдельный зачёт по последним 100 пазлам (защита от "подсматривания" в трейне)

Результаты Claude 4:
Claude Opus 4 Thinking 16K — 11 место (52.7%) — лучший результат среди Claude
Claude Sonnet 4 Thinking 16K — 13 место (41.4%)
Claude Sonnet 4 Thinking 64K — 14 место (39.6%) — интересно, что больший контекст не помог
Claude Opus 4 (no reasoning) — 17 место (34.8%) — без рассуждений получается слабовато

Ключевые наблюдения:
Reasoning решает — версии с рассуждениями показывают +15-20% к точности против "обычных"
Лидерство OpenAI — o1-pro держит первое место (82.5%), o3 на втором (79.5%)
Claude догоняет — Opus 4 Thinking впервые попал в топ-15, но до лидеров ещё далеко

Практические выводы:
Для сложных логических задач выбирайте thinking-версии Claude 4
Размер контекста (16K vs 64K) пока не критичен для reasoning-задач
Claude 4 серьёзно продвинулся в логике, но OpenAI пока не догнал если сравнивать возможности исследователя

Интересная деталь: в сравнении с людьми o1 показывает 98.9% против среднего игрока NYT (71%).
При том, что ведущие игроки платформы достигают 100%.

ИИ уже превзошёл обычных людей, но до абсолютных чемпионов ещё немного не хватает.

#Claude4 #reasoning #benchmarks #Anthropic #NYTCollection
———
@tsingular

👍4❤1

2.18K views06:02

Технозаметки Малышева

WebSailor: ИИ-агент с «сверхчеловеческим» рассуждением

Команда Alibaba NLP представила WebSailor — методологию обучения ИИ-агентов для сложных информационных задач. Система использует структурированную выборку, маскировку информации и алгоритм DUPO для усиления способностей рассуждения.

Главная особенность — умение систематически снижать неопределенность при навигации по огромным массивам данных. Результаты: 61.1% на бенчмарке GAIA и 54.6% на WebWalkerQA.

WebSailor сравнялся с проприетарными агентами вроде DeepResearch, которые ранее показывали недостижимые для открытых моделей результаты.

Исходный код: GitHub

#WebSailor #reasoning #agents
------
@tsingular

🔥4🤔1

1.38K viewsedited 14:31

Технозаметки Малышева

Китайская компания Skywork AI выпустила мощную мультимодальную модель R1V3

Skywork AI представила Skywork-R1V3-38B — новую открытую мультимодальную модель с передовыми возможностями визуального рассуждения.
Модель обучена через reinforcement learning и показывает 76.0 баллов на MMMU — это круче, чем Claude Sonnet 3.7, например.

Особенность подхода в том, что модель использует InternVL3-38B как базу, но значительно улучшает reasoning через пост-обучение.
Доступны квантизованные версии от LMStudioCommunity размером от 17 гигов:
https://huggingface.co/lmstudio-community/Skywork-R1V3-38B-GGUF

Полный размер - 80 гигов.

MIT License.
✅ Commercial use permitted
✅ Modification allowed
✅ Distribution allowed

Paper
HuggingFace

Интересно, что китайские разработчики делают акцент именно на chain-of-thought рассуждениях в мультимодальных задачах — это может стать новым стандартом для vision-language моделей.

#Skywork #multimodal #reasoning #Китай
———
@tsingular

🔥6

1.18K viewsedited 12:57

Технозаметки Малышева

NVIDIA выпустила семейство OpenReasoning-Nemotron для решения сложных задач

Четыре модели размером от 1.5B до 32B параметров специально обучены для математики, программирования и естественных наук. Основаны на Qwen2.5 и дообучены на 5 миллионах ответов от DeepSeek R1.

Главная особенность — режим GenSelect, который запускает несколько параллельных генераций и выбирает лучшее решение. В этом режиме 32B модель превосходит O3 (High) на математических и кодовых бенчмарках.

Интересно, что модели обучались только на математических задачах, но способности автоматически перенеслись на код и науку. Все модели доступны под лицензией CC-BY-4.0 для коммерческого и исследовательского использования.

#NVIDIA #reasoning #opensource
------
@tsingular

👍4❤2🔥1

1.16K viewsedited 19:26

About

Blog

Apps

Platform