Эра 1-битных LLM наступила 🫥
🔹 DeepSeek-V3.1, квантованный всего до 1-бита или 3-бит, обошёл Claude Opus 4 и GPT-4.5.
🔹 Unsloth GGUF смог сжать DeepSeek-V3.1 на 75%, при этом модель превзошла топовых конкурентов в бенчмарке Aider Polyglot.
🟠 Подробности: https://docs.unsloth.ai/new/unsloth-dynamic-ggufs-on-aider-polyglot
@data_analysis_ml
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤8🔥4🤣3
И название себя оправдывает — молниеносно быстрый.
Бету можно включить прямо сейчас:
Настройки → Подписка → Включить ранний доступ к моделям
⚡️ Главный апдейт — скорость, которая делает Grok 4 отличеным выбором для задач с большим количеством вычислений.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍5🔥2
🔒 Nano Banana и цифровые водяные знаки
Все изображения, сгенерированные через Nano Banana, автоматически содержат водяной знак synthID.
Это специальная технология, которая встраивает в картинку невидимую метку — её можно обнаружить и подтвердить происхождение изображения.
Подробнее о том, как работает synthID watermarking, можно прочитать здесь:
👉 https://huggingface.co/blog/synthid-text
Все изображения, сгенерированные через Nano Banana, автоматически содержат водяной знак synthID.
Это специальная технология, которая встраивает в картинку невидимую метку — её можно обнаружить и подтвердить происхождение изображения.
Подробнее о том, как работает synthID watermarking, можно прочитать здесь:
👉 https://huggingface.co/blog/synthid-text
🔥8❤3👍2
Интегрируй ML-модель в продакшн без боли и ошибок!
Практикум для разработчиков и ML-инженеров, которые устали от «экспериментов в Jupyter» и хотят переходить к реальным решениям! 16 сентября в 19:00 приглашаем на встречу по интеграции моделей с внешним миром и написанию API вместе с экспертом Игорем Стурейко — разработчиком модели прогнозирования технического состояния газотранспортной системы ПАО Газпром.
На практикуме вы:
👨💻перенесёте модель из Jupyter notebook в полноценный Python-класс
👨💻создадите API и подготовите эндпоинты
👨💻напишете валидатор для входящих параметров
👨💻протестируете работу модели как отдельного сервиса.
Все участники получают 7% скидку на любой курс OTUS + бонус: карьерные треки для ML-специалистов
Записывайся на практикум: https://tglink.io/7f7e67d341e5
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: 2W5zFJF6HRA
Практикум для разработчиков и ML-инженеров, которые устали от «экспериментов в Jupyter» и хотят переходить к реальным решениям! 16 сентября в 19:00 приглашаем на встречу по интеграции моделей с внешним миром и написанию API вместе с экспертом Игорем Стурейко — разработчиком модели прогнозирования технического состояния газотранспортной системы ПАО Газпром.
На практикуме вы:
👨💻перенесёте модель из Jupyter notebook в полноценный Python-класс
👨💻создадите API и подготовите эндпоинты
👨💻напишете валидатор для входящих параметров
👨💻протестируете работу модели как отдельного сервиса.
Все участники получают 7% скидку на любой курс OTUS + бонус: карьерные треки для ML-специалистов
Записывайся на практикум: https://tglink.io/7f7e67d341e5
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963. erid: 2W5zFJF6HRA
❤6
📊 McKinsey: ИИ взорвёт рынок дата-центров
По данным свежего отчёта McKinsey, только искусственный интеллект потребует к 2030 году $5,2 трлн инвестиций в дата-центры.
💡 Ключевые цифры:
- к 2030-му для покрытия спроса на ИИ понадобится 156 ГВт мощностей дата-центров;
- с 2025 по 2030 годы нужно будет добавить 125 ГВт новых мощностей;
- $5,2 трлн — это расчёт на основе сценариев масштабирования вычислений для ИИ.
Этот прогноз подчёркивает: рост ИИ меняет индустрию дата-центров беспрецедентно быстро, а финансовая нагрузка, связанная с обеспечением вычислительных мощностей, станет колоссальной.
🔗 McKinsey Report: https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/the-cost-of-compute-a-7-trillion-dollar-race-to-scale-data-centers
@data_analysis_ml
По данным свежего отчёта McKinsey, только искусственный интеллект потребует к 2030 году $5,2 трлн инвестиций в дата-центры.
💡 Ключевые цифры:
- к 2030-му для покрытия спроса на ИИ понадобится 156 ГВт мощностей дата-центров;
- с 2025 по 2030 годы нужно будет добавить 125 ГВт новых мощностей;
- $5,2 трлн — это расчёт на основе сценариев масштабирования вычислений для ИИ.
Этот прогноз подчёркивает: рост ИИ меняет индустрию дата-центров беспрецедентно быстро, а финансовая нагрузка, связанная с обеспечением вычислительных мощностей, станет колоссальной.
🔗 McKinsey Report: https://www.mckinsey.com/industries/technology-media-and-telecommunications/our-insights/the-cost-of-compute-a-7-trillion-dollar-race-to-scale-data-centers
@data_analysis_ml
👍8❤5🔥2
🔥 Курс по AI-агентам уже стартовал!
Сегодня, 15 сентября, мы начали первую сессии. Но вы всё ещё можете присоединиться и успеть в поток — это ПОСЛЕДНИЙ шанс забронировать место по старой цене.
На курсе:
— разложим LLM по косточкам: токенизация, SFT, PEFT, инференс;
— соберём RAG и научимся оценивать его адекватно;
— построим настоящую мультиагентную систему — архитектуру, которая умеет расти;
— разберём CoPilot, сломаем через prompt injection (спасибо Максу);
— и наконец, посмотрим, как это работает в MCP и реальных кейсах.
📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями.
И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API».
Промокод на 5.000₽: DATAANALYSISML
👉 Курс здесь
Реклама. ИП Дрёмов Артём Сергеевич, ИНН 771391651571. Erid 2VtzqxQEXpY
Сегодня, 15 сентября, мы начали первую сессии. Но вы всё ещё можете присоединиться и успеть в поток — это ПОСЛЕДНИЙ шанс забронировать место по старой цене.
На курсе:
— разложим LLM по косточкам: токенизация, SFT, PEFT, инференс;
— соберём RAG и научимся оценивать его адекватно;
— построим настоящую мультиагентную систему — архитектуру, которая умеет расти;
— разберём CoPilot, сломаем через prompt injection (спасибо Максу);
— и наконец, посмотрим, как это работает в MCP и реальных кейсах.
📍 Это 5 живых вебинаров + раздатка + домашки + чат с преподавателями.
И главное — возможность реально разобраться, как проектировать системы на LLM, а не просто «поиграться с API».
Промокод на 5.000₽: DATAANALYSISML
👉 Курс здесь
Реклама. ИП Дрёмов Артём Сергеевич, ИНН 771391651571. Erid 2VtzqxQEXpY
❤9👍2🔥2😁1
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2🔥1
🚀 Release: TimesFM 2.5
Google Research представила обновлённую версию TimesFM 2.5 на Hugging Face (скоро также в BigQuery и **Model Garden**).
TimesFM (Time Series Foundation Model) - модель от Google для прогнозирования временных рядов.
Что нового:
- Существенное повышение точности по сравнению с TimesFM 2.0
- Увеличенная максимальная длина контекста
- Лидерство на GiFT-Eval — TimesFM 2.5 занимает первое место по всем accuracy-метрикам среди zero-shot foundation-моделей
🟠 Репозиторий: https://github.com/google-research/timesfm)
🟠 HF: https://huggingface.co/google/timesfm-2.5-200m-pytorch
@data_analysis_ml
#AI #ML #TimesFM #forecasting #GoogleResearch
Google Research представила обновлённую версию TimesFM 2.5 на Hugging Face (скоро также в BigQuery и **Model Garden**).
TimesFM (Time Series Foundation Model) - модель от Google для прогнозирования временных рядов.
Что нового:
- Существенное повышение точности по сравнению с TimesFM 2.0
- Увеличенная максимальная длина контекста
- Лидерство на GiFT-Eval — TimesFM 2.5 занимает первое место по всем accuracy-метрикам среди zero-shot foundation-моделей
@data_analysis_ml
#AI #ML #TimesFM #forecasting #GoogleResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥6👍4
🇺🇸🇨🇳 Anthropic призывает США ускорить внедрение ИИ в госструктурах
Компания предупреждает: Китай быстрее продвигает AI в госуслугах, промышленности и интерфейсах для граждан, и США не должны отставать.
📌 Главное:
Уже сотни тысяч федеральных сотрудников используют Claude, но темпы внедрения нужно ускорить.
Anthropic предлагает Claude for Enterprise и Claude for Government всего за $1 на год по программе OneGov.
Аналогичные скидки дают и другие AI-компании, чтобы агентства могли протестировать разные стеки без больших затрат.
Claude уже используют в национальной безопасности, в Lawrence Livermore National Lab и в пилотах с Пентагоном.
Система сертифицирована по FedRAMP High, что позволяет работать с конфиденциальными данными.
Anthropic также предлагает ввести экспортные ограничения и базовые требования к прозрачности — публикацию результатов тестов и оценок моделей.
🛡️ Вся стратегия компании сводится к ускорению рабочих процессов, защищённым путям данных, проверенным контролям безопасности и интеграции ИИ в уже существующие системы.
fedscoop.com/anthropic-makes-its-pitch-to-dc-warning-china-is-moving-even-faster-on-ai/
Компания предупреждает: Китай быстрее продвигает AI в госуслугах, промышленности и интерфейсах для граждан, и США не должны отставать.
📌 Главное:
Уже сотни тысяч федеральных сотрудников используют Claude, но темпы внедрения нужно ускорить.
Anthropic предлагает Claude for Enterprise и Claude for Government всего за $1 на год по программе OneGov.
Аналогичные скидки дают и другие AI-компании, чтобы агентства могли протестировать разные стеки без больших затрат.
Claude уже используют в национальной безопасности, в Lawrence Livermore National Lab и в пилотах с Пентагоном.
Система сертифицирована по FedRAMP High, что позволяет работать с конфиденциальными данными.
Anthropic также предлагает ввести экспортные ограничения и базовые требования к прозрачности — публикацию результатов тестов и оценок моделей.
🛡️ Вся стратегия компании сводится к ускорению рабочих процессов, защищённым путям данных, проверенным контролям безопасности и интеграции ИИ в уже существующие системы.
fedscoop.com/anthropic-makes-its-pitch-to-dc-warning-china-is-moving-even-faster-on-ai/
❤10🤣5👍3🔥3💔2
📊 Fiverr сокращает 250 сотрудников (около 30% штата), чтобы перезапустить платформу как первый AI маркетплейс.
Руководство объясняет: внутренние ИИ-системы уже автоматизируют значительные объёмы задач, позволяя работать быстрее с меньшими затратами.
Примеры:
- поддержка через ботов, которые резюмируют политику и историю тикетов, сокращая время SLA,
- модели для выявления мошенничества на раннем этапе,
- автоматизация процессов, которые раньше были слишком затратны вручную.
Компания уходит в сторону «более лёгкой структуры» — меньше уровней, компактные команды, выше личная продуктивность при поддержке общей AI-инфраструктуры.
Фокус найма смещается к AI-native специалистам. Существующие команды переучивают на задачи: построение дата-пайплайнов, оценка моделей, поддержка стабильных inference-сервисов.
Уже запущенные AI-функции: Neo, Fiverr Go и Dynamic Matching — ускоряют поиск, упрощают старт проектов и улучшают маршрутизацию заказчиков и исполнителей.
Финансово компания стабильна: прогноз выручки 2025 — $425M–$438M, цель по операционной марже — 25% к 2026. Экономия частично пойдёт в реинвестирование, остальное — в рост прибыльности.
Подробнее: finalroundai.com/blog/fiverr-layoffs-2025
Руководство объясняет: внутренние ИИ-системы уже автоматизируют значительные объёмы задач, позволяя работать быстрее с меньшими затратами.
Примеры:
- поддержка через ботов, которые резюмируют политику и историю тикетов, сокращая время SLA,
- модели для выявления мошенничества на раннем этапе,
- автоматизация процессов, которые раньше были слишком затратны вручную.
Компания уходит в сторону «более лёгкой структуры» — меньше уровней, компактные команды, выше личная продуктивность при поддержке общей AI-инфраструктуры.
Фокус найма смещается к AI-native специалистам. Существующие команды переучивают на задачи: построение дата-пайплайнов, оценка моделей, поддержка стабильных inference-сервисов.
Уже запущенные AI-функции: Neo, Fiverr Go и Dynamic Matching — ускоряют поиск, упрощают старт проектов и улучшают маршрутизацию заказчиков и исполнителей.
Финансово компания стабильна: прогноз выручки 2025 — $425M–$438M, цель по операционной марже — 25% к 2026. Экономия частично пойдёт в реинвестирование, остальное — в рост прибыльности.
Подробнее: finalroundai.com/blog/fiverr-layoffs-2025
❤14🤨8🔥4👍2🕊1🥱1🍌1
Grok 5 может стать AGI, считает Илон Маск — и это нельзя недооценивать.
🔹 Модель обучается на огромных массивах данных.
🔹 xAI снабжает её свежей и тщательно отобранной информацией.
🔹 Tesla генерирует данные с камер автопилота FSD.
🔹 В ближайшем будущем робот Optimus начнёт собирать колоссальные объёмы реальных данных из физического мира.
При этом остаётся главный вопрос: что именно считать AGI? Универсальное и согласованное определение всё ещё необходимо.
https://x.com/elonmusk/status/1968202372276163029
🔹 Модель обучается на огромных массивах данных.
🔹 xAI снабжает её свежей и тщательно отобранной информацией.
🔹 Tesla генерирует данные с камер автопилота FSD.
🔹 В ближайшем будущем робот Optimus начнёт собирать колоссальные объёмы реальных данных из физического мира.
При этом остаётся главный вопрос: что именно считать AGI? Универсальное и согласованное определение всё ещё необходимо.
https://x.com/elonmusk/status/1968202372276163029
🤣26🔥8❤5👍2😁2
ИИ-ассистенты уже стали нормой для разработчиков
Свежий отчёт от Yandex B2B Tech и ИТМО:
75 % dev’ов используют AI-помощников для кода, документации и поиска багов 🔥
Несколько цифр:
— лишь 6 % верят, что ИИ сможет полностью автоматизировать задачи;
— 61 % ждут разгрузки рутины, а не полной замены;
— 79 % считают, что влияние сильнее всего на джуниоров.
Появляется новый must-have навык: работа с ассистентами.
Компании планируют вкладывать до 10 % IT-бюджета в инструменты с AI, а интерес к отечественным решениям (например, SourceCraft) растёт — безопасность и независимость стали важнее.
79 % студентов и половина преподавателей уже пользуются AI в обучении.
Свежий отчёт от Yandex B2B Tech и ИТМО:
75 % dev’ов используют AI-помощников для кода, документации и поиска багов 🔥
Несколько цифр:
— лишь 6 % верят, что ИИ сможет полностью автоматизировать задачи;
— 61 % ждут разгрузки рутины, а не полной замены;
— 79 % считают, что влияние сильнее всего на джуниоров.
Появляется новый must-have навык: работа с ассистентами.
Компании планируют вкладывать до 10 % IT-бюджета в инструменты с AI, а интерес к отечественным решениям (например, SourceCraft) растёт — безопасность и независимость стали важнее.
79 % студентов и половина преподавателей уже пользуются AI в обучении.
❤10👍3🔥2
🚀 Техотчёт Meituan — LongCat-Flash
Модель на 560B параметров (из них ~27B активные) с архитектурой MoE, где число активных экспертов динамически подстраивается под контекст.
🔧 Архитектура
- Каждый слой содержит 2 блока внимания + FFN и MoE → коммуникации накладываются и ускоряют обучение.
- Введён «нулевой эксперт» — токен может выбрать «ничего не делать». Это экономит вычисления для простых случаев.
- Балансировка нагрузки через специальный loss с постепенным уменьшением смещения.
📈 Масштабирование
- Инициализация с выравниванием дисперсий для MoE/MLA → модель обучается стабильнее.
- Growth init: сначала тренируется уменьшенная версия (в 2 раза меньше), потом на её основе строят полную модель, просто добавляя слои.
- Передача гиперпараметров через метод SP (вместо muP).
⚖️ Стабильность
- Следят за отношением нормы градиента и схожестью экспертов, чтобы не «завалить» балансировку.
- Для сдерживания активаций используется лёгкий z-loss (альтернатива qk-clip).
- Параметр Adam epsilon снижен до
### 📚 Обучение
- Всего обучено на ~20 трлн токенов + отдельные фазы:
- STEM/код (70% смеси)
- расширение контекста: 80B токенов для 32k и 20B для 128k
- Данные: извлечение контекста → фильтрация → дедупликация.
🧪 Бенчмарки и результаты
- Новые тесты: Meeseeks (многошаговые инструкции) и VitaBench (реальные бизнес-сценарии).
- Отдельно показали:
- какие top_k лучше для разных задач
- как токены распределяются по слоям
- В инфре: оптимизация под inference, speculative decoding, квантизация, параллельные коммуникации.
📌 Репозиторий: github.com/meituan-longcat
Модель на 560B параметров (из них ~27B активные) с архитектурой MoE, где число активных экспертов динамически подстраивается под контекст.
🔧 Архитектура
- Каждый слой содержит 2 блока внимания + FFN и MoE → коммуникации накладываются и ускоряют обучение.
- Введён «нулевой эксперт» — токен может выбрать «ничего не делать». Это экономит вычисления для простых случаев.
- Балансировка нагрузки через специальный loss с постепенным уменьшением смещения.
📈 Масштабирование
- Инициализация с выравниванием дисперсий для MoE/MLA → модель обучается стабильнее.
- Growth init: сначала тренируется уменьшенная версия (в 2 раза меньше), потом на её основе строят полную модель, просто добавляя слои.
- Передача гиперпараметров через метод SP (вместо muP).
⚖️ Стабильность
- Следят за отношением нормы градиента и схожестью экспертов, чтобы не «завалить» балансировку.
- Для сдерживания активаций используется лёгкий z-loss (альтернатива qk-clip).
- Параметр Adam epsilon снижен до
1e-16
, чтобы быть меньше диапазона градиентов. ### 📚 Обучение
- Всего обучено на ~20 трлн токенов + отдельные фазы:
- STEM/код (70% смеси)
- расширение контекста: 80B токенов для 32k и 20B для 128k
- Данные: извлечение контекста → фильтрация → дедупликация.
🧪 Бенчмарки и результаты
- Новые тесты: Meeseeks (многошаговые инструкции) и VitaBench (реальные бизнес-сценарии).
- Отдельно показали:
- какие top_k лучше для разных задач
- как токены распределяются по слоям
- В инфре: оптимизация под inference, speculative decoding, квантизация, параллельные коммуникации.
📌 Репозиторий: github.com/meituan-longcat
🔥6❤5👍4
📊 93,9% специалистов по машинному обучению используют большие языковые модели в работе, более трети (31,5%) доверяют им написание кода, — следует из исследования технологической платформы Авито и Хабра.
📌 Главное:
— LLM применяются не только для программирования, но и для поиска информации, генерации идей, анализа данных.
— Лишь 6,1% разработчиков пока обходятся без таких инструментов.
— Половина респондентов воспринимают ИИ как полезного ассистента, экономящего время.
— ИИ меняет сам подход к разработке: помогает ускорять создание алгоритмов, сокращает барьеры для входа в профессию и в перспективе способен предложить решения, до которых человек не додумался бы самостоятельно.
По словами Константина Мягких, директора по Data Science Авито, мир фактически вступает в эпоху саморазвивающихся систем: каждое новое поколение моделей рождается быстрее предыдущего, открывая путь к революции, где ИИ ускоряет собственное развитие.
Компании, которые смогут безопасно интегрировать ИИ в процессы, получат не просто преимущество в эффективности — они создадут условия для появления принципиально новых технологий. Авито, например, уже активно внедряет искусственный интеллект: компания создает собственную экосистему решений — от чат-бота на основе языковой модели A-Vibe до ИИ-портала для быстрого поиска информации.
📌 Главное:
— LLM применяются не только для программирования, но и для поиска информации, генерации идей, анализа данных.
— Лишь 6,1% разработчиков пока обходятся без таких инструментов.
— Половина респондентов воспринимают ИИ как полезного ассистента, экономящего время.
— ИИ меняет сам подход к разработке: помогает ускорять создание алгоритмов, сокращает барьеры для входа в профессию и в перспективе способен предложить решения, до которых человек не додумался бы самостоятельно.
По словами Константина Мягких, директора по Data Science Авито, мир фактически вступает в эпоху саморазвивающихся систем: каждое новое поколение моделей рождается быстрее предыдущего, открывая путь к революции, где ИИ ускоряет собственное развитие.
Компании, которые смогут безопасно интегрировать ИИ в процессы, получат не просто преимущество в эффективности — они создадут условия для появления принципиально новых технологий. Авито, например, уже активно внедряет искусственный интеллект: компания создает собственную экосистему решений — от чат-бота на основе языковой модели A-Vibe до ИИ-портала для быстрого поиска информации.
👍9❤4🔥1
📘 На Stepik вышел курс — «MLOps с нуля: как довести модель до продакшна»
Начинаете путь в MLOps и хотите понять, как перевести ML-модель из ноутбука в реальный продукт? Этот курс — именно то, что нужно.
🔍 Что вы получите:
• Понимание полного жизненного цикла ML-модели: от обучения до мониторинга
• Практику с современными инструментами: Docker, Kubernetes, CI/CD, MLflow
• Опыт построения воспроизводимых пайплайнов и управления экспериментами
• Навыки автоматизации и работы с инфраструктурой для реального продакшна
🎓 Сертификат по завершении — добавьте его в резюме или профиль LinkedIn
🚀 Сделайте шаг к профессии MLOps-инженера. Начните уже сегодня и получите скидку 30%, которая действительна в течение 24 часов
👉 Пройти курс на Stepik
Начинаете путь в MLOps и хотите понять, как перевести ML-модель из ноутбука в реальный продукт? Этот курс — именно то, что нужно.
🔍 Что вы получите:
• Понимание полного жизненного цикла ML-модели: от обучения до мониторинга
• Практику с современными инструментами: Docker, Kubernetes, CI/CD, MLflow
• Опыт построения воспроизводимых пайплайнов и управления экспериментами
• Навыки автоматизации и работы с инфраструктурой для реального продакшна
🎓 Сертификат по завершении — добавьте его в резюме или профиль LinkedIn
🚀 Сделайте шаг к профессии MLOps-инженера. Начните уже сегодня и получите скидку 30%, которая действительна в течение 24 часов
👉 Пройти курс на Stepik
👍11❤8🔥4
🧠 Представлен новый бенчмарк OptimalThinkingBench — тест, который показывает, когда LLM «думают слишком много» или «слишком мало».
В чём идея
- У reasoning-моделей: болтовня и лишние шаги даже на простых вопросах.
- У быстрых моделей: пропуск шагов и ошибки на сложных задачах.
Как устроен бенчмарк
- 2 части:
1. Простые вопросы → проверка переосмысления (overthinking).
2. Сложные задачи → проверка недоосмысления (underthinking).
- Метрика: точность при разных лимитах токенов, усреднение по бюджетам + точность на сложных задачах.
- Высокий балл возможен только при эффективности и правильности одновременно.
Результаты
- Тестировали 33 модели.
- Ни одна не сбалансировала обе стороны:
- «Думающие» тратили сотни токенов на простяках без прироста качества.
- «Быстрые» — проваливались на сложных задачах.
Попробованные фиксы
- ✂️ Штрафы за длину сокращают токены.
- 🔀 Роутер режимов помогает, но уступает оракулу, который всегда выбирает правильный режим.
- 📝 Подсказка *«do not overthink»* надёжно сокращает ответы на лёгких вопросах без потерь точности.
Доп. наблюдения
- Больше отвлекающих опций → модель думает дольше.
- Числовые формулировки → удлиняют рассуждения.
- Крупные модели → думают больше, но не всегда лучше.
📑 Полный текст: https://arxiv.org/abs/2508.13141
👉 OptimalThinkingBench помогает строить модели, которые экономят вычисления на простых задачах и тратят усилия на сложные.
В чём идея
- У reasoning-моделей: болтовня и лишние шаги даже на простых вопросах.
- У быстрых моделей: пропуск шагов и ошибки на сложных задачах.
Как устроен бенчмарк
- 2 части:
1. Простые вопросы → проверка переосмысления (overthinking).
2. Сложные задачи → проверка недоосмысления (underthinking).
- Метрика: точность при разных лимитах токенов, усреднение по бюджетам + точность на сложных задачах.
- Высокий балл возможен только при эффективности и правильности одновременно.
Результаты
- Тестировали 33 модели.
- Ни одна не сбалансировала обе стороны:
- «Думающие» тратили сотни токенов на простяках без прироста качества.
- «Быстрые» — проваливались на сложных задачах.
Попробованные фиксы
- ✂️ Штрафы за длину сокращают токены.
- 🔀 Роутер режимов помогает, но уступает оракулу, который всегда выбирает правильный режим.
- 📝 Подсказка *«do not overthink»* надёжно сокращает ответы на лёгких вопросах без потерь точности.
Доп. наблюдения
- Больше отвлекающих опций → модель думает дольше.
- Числовые формулировки → удлиняют рассуждения.
- Крупные модели → думают больше, но не всегда лучше.
📑 Полный текст: https://arxiv.org/abs/2508.13141
👉 OptimalThinkingBench помогает строить модели, которые экономят вычисления на простых задачах и тратят усилия на сложные.
👍12❤4🔥3