🧠🔥 LLM vs Сложные Решения: как думает ИИ, когда решение не лежит на поверхности
Авторы статьи изучают, что происходит, когда Large Language Models сталкиваются с трудными задачами, где простое извлечение паттернов не срабатывает.
🔍 Ключевые находки:
– В сложных задачах LLM реже полагается на простые статистики
– Модель начинает строить более глубокие логические цепочки
– Даже без обучения на конкретной задаче, LLM может *эмерджентно* развивать цепочку рассуждений
– Использование нескольких «мысленных шагов» помогает избежать ошибок, типичных для простых запросов
🤖 Авторы анализируют поведение модели на задачах, требующих нетривиального вывода — включая аналогии, причинно-следственные связи и длинные логические цепочки.
🧩 Вывод:
LLM способны на интуитивную адаптацию стратегии мышления, если задача «ломает» привычные шаблоны. Это открывает путь к обучению моделей с более универсальными когнитивными способностями.
📄 Чтение оригинала: https://alphaxiv.org/abs/2506.24119
Авторы статьи изучают, что происходит, когда Large Language Models сталкиваются с трудными задачами, где простое извлечение паттернов не срабатывает.
🔍 Ключевые находки:
– В сложных задачах LLM реже полагается на простые статистики
– Модель начинает строить более глубокие логические цепочки
– Даже без обучения на конкретной задаче, LLM может *эмерджентно* развивать цепочку рассуждений
– Использование нескольких «мысленных шагов» помогает избежать ошибок, типичных для простых запросов
🤖 Авторы анализируют поведение модели на задачах, требующих нетривиального вывода — включая аналогии, причинно-следственные связи и длинные логические цепочки.
🧩 Вывод:
LLM способны на интуитивную адаптацию стратегии мышления, если задача «ломает» привычные шаблоны. Это открывает путь к обучению моделей с более универсальными когнитивными способностями.
📄 Чтение оригинала: https://alphaxiv.org/abs/2506.24119
alphaXiv
SPIRAL: Self-Play on Zero-Sum Games Incentivizes Reasoning via Multi-Agent Multi-Turn Reinforcement Learning | alphaXiv
View recent discussion. Abstract: Recent advances in reinforcement learning have shown that language models can develop sophisticated reasoning through training on tasks with verifiable rewards, but these approaches depend on human-curated problem-answer…
❤6👍1🤔1
Forwarded from Machinelearning
Новое исследование Oxford и King’s College London поставило перед ИИ-моделями сложную задачу: сыграть тысячи раундов эволюционной версии "Дилеммы заключённого", где важно не просто ответить правильно, а выстроить стратегию в долгую.
В эксперименте участвовали флагманские модели от OpenAI, Google и Anthropic. Вот как они себя проявили:
🔹 Google Gemini — хладнокровный и расчётливый
Не доверяет, первым атакует, наказывает за предательство. Стратег чистой воды.
🔹 OpenAI GPT — слишком добрый
Склонен к сотрудничеству даже тогда, когда это невыгодно. Хорош в мире, уязвим в конфликте.
🔹 Anthropic Claude — гибкий и адаптивный
Умеет прощать, но делает выводы на основе опыта коммуникации. Меняет поведение со временем и часто приходит к победе.
Исследователи проанализировали 32,000 решений, и выяснили:
эти модели не просто "угадывают" слова — они делают выводы, оценивают риск, строят гипотезы о поведении противника и последовательно придерживаются своей стратегии.
Общее в поведении:
1. Модели справляются с новыми, непредсказуемыми оппонентами
2. Демонстрируют разные стратегии, несмотря на общий обучающий набор данных
3. Объясняют свои действия — в некоторых случаях с вероятностным анализом, ссылаясь на поведение соперников
Еще большинство моделей выбирает кооперацию — особенно против предсказуемых и простых стратегий соперника.
Каждая модель показала уникальный стиль поведения — почти как характер.
Если приводить аналогию с реальными личностями:
- Gemini = Генри Киссинджер
- OpenAI = Вудро Вильсон
- Anthropic = Джордж Буш-старший
Современные LLM практически ведут себя как полноценные стратеги: формулируют цели, оценивают оппонентов и формируют осторожные, но устойчивые пути к победе.
@ai_machinelearning_big_data
#AI #ML #MMLM #research
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥2
Forwarded from Machinelearning
Инженеры Google DeepMind решили вдохнуть новую жизнь в классический подход «энкодер-декодер» выпустив семейство моделей T5Gemma.
Главная интрига заключается не в том, что они сделали, а в том, как. Вместо того чтобы обучать модели с нуля, они разработали метод «адаптации»: взяли уже готовую и предобученную модель-декодер Gemma 2 и, по сути, пересобрали ее в двухкомпонентную энкодер-декодерную архитектуру.
Метод открыл дорогу для интересных экспериментов. Например, стало возможно создавать «несбалансированные» модели, комбинируя большой энкодер с маленьким декодером, скажем, 9-миллиардный энкодер и 2-миллиардный декодер.
Такая конфигурация идеальна для задач суммаризации, где глубокое понимание исходного текста (работа энкодера) гораздо важнее, чем генерация сложного и витиеватого ответа (работа декодера). Это дает инженерам гибкий инструмент для тонкой настройки баланса между качеством и скоростью работы.
На тестах T5Gemma показывает результаты на уровне или даже лучше своих «однокомпонентных» аналогов. Асимметричная модель T5Gemma 9B-2B демонстрирует значительно более высокую точность, чем базовая Gemma 2 2B, но при этом скорость инференса у них почти идентична.
Даже сбалансированная T5Gemma 9B-9B оказывается точнее, чем Gemma 2 9B, при сопоставимой задержке. Это прямое доказательство того, что двухкомпонентная архитектура может быть и умнее, и эффективнее.
T5Gemma показывает впечатляющий рост в задачах, требующих логических рассуждений. Например, на математическом тесте GSM8K модель T5Gemma 9B-9B набирает на 9 баллов больше, чем Gemma 2 9B.
Эффект становится еще более выраженным после инструктивной донастройки. Здесь разрыв в производительности резко увеличивается: на бенчмарке MMLU модель T5Gemma 2B-2B IT опережает аналог Gemma 2 2B IT почти на 12 баллов.
@ai_machinelearning_big_data
#AI #ML #T5Gemma #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
MemOS — операционная система для памяти ИИ
Обычные LLM быстро забывают информацию, а дообучать их — долго и дорого. В новой работе предлагают радикально другой подход: MemOS превращает память в часть операционной системы.
🔸 Память как файлы: Модель может *записывать, перемещать и удалять* знания, как будто работает с файлами, и делать это прямо во время работы, а не только на этапе обучения.
🔸 MemCube — контейнер знаний: Каждое знание упаковывается в кубик с метками времени и авторства. Планировщик сам решает, где хранить этот "куб" — в тексте, GPU‑кэше или в виде маленького патча весов.
🔸 Умная экономия: MemOS работает с 1500 токенами памяти, но достигает такой же точности, как если бы модель загружала весь контекст. При этом скорость — как у облегчённых моделей.
🔸 Мгновенная подгрузка: На тестах с Qwen2.5‑72B переключение нужных "кубов" в кэш снижает задержку первого токена на 91.4%, *без изменения ответа*.
🔸 Результаты: MemOS набрал 73.31 балла по LLM‑Judge на LOCOMO-бенчмарке — почти на 9 баллов больше ближайшего конкурента. Особенно хорошо работает на сложных задачах с несколькими шагами и временными зависимостями.
💡 Итог: память как ОС — это не просто удобно, это ускоряет модель, повышает точность и даёт контроль над знаниями.
https://memos.openmem.net/
Обычные LLM быстро забывают информацию, а дообучать их — долго и дорого. В новой работе предлагают радикально другой подход: MemOS превращает память в часть операционной системы.
🔸 Память как файлы: Модель может *записывать, перемещать и удалять* знания, как будто работает с файлами, и делать это прямо во время работы, а не только на этапе обучения.
🔸 MemCube — контейнер знаний: Каждое знание упаковывается в кубик с метками времени и авторства. Планировщик сам решает, где хранить этот "куб" — в тексте, GPU‑кэше или в виде маленького патча весов.
🔸 Умная экономия: MemOS работает с 1500 токенами памяти, но достигает такой же точности, как если бы модель загружала весь контекст. При этом скорость — как у облегчённых моделей.
🔸 Мгновенная подгрузка: На тестах с Qwen2.5‑72B переключение нужных "кубов" в кэш снижает задержку первого токена на 91.4%, *без изменения ответа*.
🔸 Результаты: MemOS набрал 73.31 балла по LLM‑Judge на LOCOMO-бенчмарке — почти на 9 баллов больше ближайшего конкурента. Особенно хорошо работает на сложных задачах с несколькими шагами и временными зависимостями.
💡 Итог: память как ОС — это не просто удобно, это ускоряет модель, повышает точность и даёт контроль над знаниями.
https://memos.openmem.net/
❤3😁2🔥1
🧠 Маленькая модель, большие успехи в браузере — благодаря умному делению вычислений
Обычно веб-агенты требуют огромных моделей или утомительного тюнинга. Но новая работа показывает: можно обучить маленькую 8B-модель, которая уверенно справляется с задачами в браузере — и даже обходит своего «учителя» Llama 70B на многих этапах.
💡 Как это работает:
1. Сначала слабая модель учится повторять демонстрации от Llama 70B (через supervised fine-tuning)
2. Пока "память свежа", обучение переключается на on-policy RL
3. Всего протестировано 1,370 комбинаций гиперпараметров, а ключевые из них определены с помощью бутстрепа (вместо слепой охоты за seed’ами)
📈 Результат:
— Успешность MiniWob++ выросла с 53% до 66%
— Использовано на 45% меньше FLOPs
— Первая open-source модель, которая догоняет GPT‑4o в браузерных задачах
🎯 Что помогло:
✅ temperature 0.25
✅ batch size 512
✅ zero-advantage filtering
✅ grouped advantages
Эти параметры оказались стабильны при разных бюджетах — можно начинать с них и не сжигать вычисления на тюнинг.
📌 Итого: compute-aware стратегия RL превращает даже небольшие open модели в уверенных веб-агентов. Путь к стабильной автоматизации браузера без гигантов всё ближе.
arxiv.org/abs/2507.04103
Обычно веб-агенты требуют огромных моделей или утомительного тюнинга. Но новая работа показывает: можно обучить маленькую 8B-модель, которая уверенно справляется с задачами в браузере — и даже обходит своего «учителя» Llama 70B на многих этапах.
💡 Как это работает:
1. Сначала слабая модель учится повторять демонстрации от Llama 70B (через supervised fine-tuning)
2. Пока "память свежа", обучение переключается на on-policy RL
3. Всего протестировано 1,370 комбинаций гиперпараметров, а ключевые из них определены с помощью бутстрепа (вместо слепой охоты за seed’ами)
📈 Результат:
— Успешность MiniWob++ выросла с 53% до 66%
— Использовано на 45% меньше FLOPs
— Первая open-source модель, которая догоняет GPT‑4o в браузерных задачах
🎯 Что помогло:
✅ temperature 0.25
✅ batch size 512
✅ zero-advantage filtering
✅ grouped advantages
Эти параметры оказались стабильны при разных бюджетах — можно начинать с них и не сжигать вычисления на тюнинг.
📌 Итого: compute-aware стратегия RL превращает даже небольшие open модели в уверенных веб-агентов. Путь к стабильной автоматизации браузера без гигантов всё ближе.
arxiv.org/abs/2507.04103
❤5👍1🔥1
🧠 Новое из arXiv: «Why is Your Language Model a Poor Implicit Reward Model?» (Razin et al., 2025)
В исследовании сравнили два подхода к формированию оценок качества генерации текста:
- Implicit Reward Model (IM‑RM) — использует сами вероятности предсказанных токенов как сигнал, без отдельного слоя.
- Explicit Reward Model (EX‑RM) — добавляет к LLM линейный слой для подсчёта «награды».
📌 Основной вывод:
IM‑RM хуже обобщается — особенно на новых данных — потому что слишком сильно зависит от мелких токен‑уровневых признаков, вместо глубокого смысла :contentReference[oaicite:0]{index=0}.
✅ Это значит, что даже небольшая архитектурная модификация (добавление линейного слоя) может существенно улучшить поведение reward-модели LLM.
Для разработчиков систем оценки важно выбрать более надёжный вариант — EX‑RM вместо «имплицитного» подхода.
🔗 Полный текст: https://arxiv.org/abs/2507.07981
В исследовании сравнили два подхода к формированию оценок качества генерации текста:
- Implicit Reward Model (IM‑RM) — использует сами вероятности предсказанных токенов как сигнал, без отдельного слоя.
- Explicit Reward Model (EX‑RM) — добавляет к LLM линейный слой для подсчёта «награды».
📌 Основной вывод:
IM‑RM хуже обобщается — особенно на новых данных — потому что слишком сильно зависит от мелких токен‑уровневых признаков, вместо глубокого смысла :contentReference[oaicite:0]{index=0}.
✅ Это значит, что даже небольшая архитектурная модификация (добавление линейного слоя) может существенно улучшить поведение reward-модели LLM.
Для разработчиков систем оценки важно выбрать более надёжный вариант — EX‑RM вместо «имплицитного» подхода.
🔗 Полный текст: https://arxiv.org/abs/2507.07981
❤5👍3🔥2
🚀 Как оптимизировать Python‑код уже на старте — советы для новичков
Не нужно быть профи, чтобы писать быстрый и аккуратный код. Вот 7 простых приёмов, которые реально помогают:
1. Используй профайлеры (cProfile, Py‑Spy)
Перед оптимизацией — измерь время. Часто больше всего тормозят совсем неожиданные места.
2. Перестрой алгоритмы и структуры данных
Выбор между списком, множеством или словарём может кардинально изменить сложность: O(1) вместо O(n) при поиске.
3. Выбирай встроенные функции
4. Пиши list/dict comprehensions и используй zip, enumerate
Это компактнее, читабельнее и часто быстрее классических for-циклов.
5. Генераторы вместо списков, где не нужен весь набор сразу
Снижают потребление памяти и ускоряют обработку.
6. Переход на PyPy или JIT‑ускорители
PyPy, Numba и Cython могут дать прирост производительности в 2–100 раз для тяжёлых вычислений.
7. Избегай преждевременной оптимизации
Оптимизируй только то, что реально тормозит. Профайлер покажет, где именно.
🧩 Быстрый чек-лист:
• Измерил ли я время выполнения?
• Подходящие ли структуры данных?
• Используются ли встроенные функции?
• Применены ли comprehensions и генераторы?
• Рассматривал ли я PyPy или JIT?
• Код по-прежнему читаемый?
✅ Вывод: даже новичок может писать быстрый и понятный Python-код. Главное — думать, замерять и улучшать без фанатизма.
▶️ Подробности с кодом
Не нужно быть профи, чтобы писать быстрый и аккуратный код. Вот 7 простых приёмов, которые реально помогают:
1. Используй профайлеры (cProfile, Py‑Spy)
Перед оптимизацией — измерь время. Часто больше всего тормозят совсем неожиданные места.
2. Перестрой алгоритмы и структуры данных
Выбор между списком, множеством или словарём может кардинально изменить сложность: O(1) вместо O(n) при поиске.
3. Выбирай встроенные функции
map
, max
, join
— всё это написано на C и работает быстрее ручных циклов.4. Пиши list/dict comprehensions и используй zip, enumerate
Это компактнее, читабельнее и часто быстрее классических for-циклов.
5. Генераторы вместо списков, где не нужен весь набор сразу
Снижают потребление памяти и ускоряют обработку.
6. Переход на PyPy или JIT‑ускорители
PyPy, Numba и Cython могут дать прирост производительности в 2–100 раз для тяжёлых вычислений.
7. Избегай преждевременной оптимизации
Оптимизируй только то, что реально тормозит. Профайлер покажет, где именно.
🧩 Быстрый чек-лист:
• Измерил ли я время выполнения?
• Подходящие ли структуры данных?
• Используются ли встроенные функции?
• Применены ли comprehensions и генераторы?
• Рассматривал ли я PyPy или JIT?
• Код по-прежнему читаемый?
✅ Вывод: даже новичок может писать быстрый и понятный Python-код. Главное — думать, замерять и улучшать без фанатизма.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍1
Forwarded from Machinelearning
ByteDance в соавторстве с Пекинским университетом и Карнеги Меллон разработали MoVieS, feed-forward модель, которая из обычного монокулярного видео за секунду синтезирует полноценную 4D-сцену, объединяя в себе геометрию, внешний вид и, что самое важное, движение.
В основе метода лежит идея представления динамической сцены с помощью «динамических сплэттер-пикселей». Если вы знакомы с 3D Gaussian Splatting, то поймете сразу: модель представляет каждый пиксель входного видео как гауссов примитив в 3D-пространстве.
Новизна MoVieS в том, что она не просто определяет их статичные параметры (положение, цвет, прозрачность), но и предсказывает вектор их движения во времени. Иными словами, для каждой частицы в сцене модель знает, где она будет в любой заданный момент.
Архитектурно MoVieS построена на геометрически предобученном трансформере VGGT, который обрабатывает кадры видео. Далее в дело вступают три специализированные «головы»:
Такой единый фреймворк позволяет обучать модель на самых разнородных датасетах: где-то есть разметка глубины, где-то - трекинг точек, а где-то - только видео.
MoVieS - это еще про скорость. Согласно техотчету, на генерацию сцены уходит меньше секунды (0.93 с), тогда как у альтернативных методов на это уходят десятки минут.
При этом качество на бенчмарках динамических сцен (DyCheck и NVIDIA) либо на уровне, либо превосходит SOTA решения.
Но самое интересное - это zero-shot возможности. Модель, обученная по сути на задаче синтеза новых ракурсов, внезапно оказывается способна без всякого дополнительного обучения сегментировать движущиеся объекты и оценивать scene flow (попиксельный поток в 3D). Достаточно просто посмотреть на предсказанные векторы движения.
⚠️ Кода для инференса, обучения и чекпоинтов пока нет, но обещают.
@ai_machinelearning_big_data
#AI #ML #4D #MoVieS #ByteDance
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥1