MemOS — операционная система для памяти ИИ
Обычные LLM быстро забывают информацию, а дообучать их — долго и дорого. В новой работе предлагают радикально другой подход: MemOS превращает память в часть операционной системы.
🔸 Память как файлы: Модель может *записывать, перемещать и удалять* знания, как будто работает с файлами, и делать это прямо во время работы, а не только на этапе обучения.
🔸 MemCube — контейнер знаний: Каждое знание упаковывается в кубик с метками времени и авторства. Планировщик сам решает, где хранить этот "куб" — в тексте, GPU‑кэше или в виде маленького патча весов.
🔸 Умная экономия: MemOS работает с 1500 токенами памяти, но достигает такой же точности, как если бы модель загружала весь контекст. При этом скорость — как у облегчённых моделей.
🔸 Мгновенная подгрузка: На тестах с Qwen2.5‑72B переключение нужных "кубов" в кэш снижает задержку первого токена на 91.4%, *без изменения ответа*.
🔸 Результаты: MemOS набрал 73.31 балла по LLM‑Judge на LOCOMO-бенчмарке — почти на 9 баллов больше ближайшего конкурента. Особенно хорошо работает на сложных задачах с несколькими шагами и временными зависимостями.
💡 Итог: память как ОС — это не просто удобно, это ускоряет модель, повышает точность и даёт контроль над знаниями.
https://memos.openmem.net/
Обычные LLM быстро забывают информацию, а дообучать их — долго и дорого. В новой работе предлагают радикально другой подход: MemOS превращает память в часть операционной системы.
🔸 Память как файлы: Модель может *записывать, перемещать и удалять* знания, как будто работает с файлами, и делать это прямо во время работы, а не только на этапе обучения.
🔸 MemCube — контейнер знаний: Каждое знание упаковывается в кубик с метками времени и авторства. Планировщик сам решает, где хранить этот "куб" — в тексте, GPU‑кэше или в виде маленького патча весов.
🔸 Умная экономия: MemOS работает с 1500 токенами памяти, но достигает такой же точности, как если бы модель загружала весь контекст. При этом скорость — как у облегчённых моделей.
🔸 Мгновенная подгрузка: На тестах с Qwen2.5‑72B переключение нужных "кубов" в кэш снижает задержку первого токена на 91.4%, *без изменения ответа*.
🔸 Результаты: MemOS набрал 73.31 балла по LLM‑Judge на LOCOMO-бенчмарке — почти на 9 баллов больше ближайшего конкурента. Особенно хорошо работает на сложных задачах с несколькими шагами и временными зависимостями.
💡 Итог: память как ОС — это не просто удобно, это ускоряет модель, повышает точность и даёт контроль над знаниями.
https://memos.openmem.net/
❤3😁2🔥1
🧠 Маленькая модель, большие успехи в браузере — благодаря умному делению вычислений
Обычно веб-агенты требуют огромных моделей или утомительного тюнинга. Но новая работа показывает: можно обучить маленькую 8B-модель, которая уверенно справляется с задачами в браузере — и даже обходит своего «учителя» Llama 70B на многих этапах.
💡 Как это работает:
1. Сначала слабая модель учится повторять демонстрации от Llama 70B (через supervised fine-tuning)
2. Пока "память свежа", обучение переключается на on-policy RL
3. Всего протестировано 1,370 комбинаций гиперпараметров, а ключевые из них определены с помощью бутстрепа (вместо слепой охоты за seed’ами)
📈 Результат:
— Успешность MiniWob++ выросла с 53% до 66%
— Использовано на 45% меньше FLOPs
— Первая open-source модель, которая догоняет GPT‑4o в браузерных задачах
🎯 Что помогло:
✅ temperature 0.25
✅ batch size 512
✅ zero-advantage filtering
✅ grouped advantages
Эти параметры оказались стабильны при разных бюджетах — можно начинать с них и не сжигать вычисления на тюнинг.
📌 Итого: compute-aware стратегия RL превращает даже небольшие open модели в уверенных веб-агентов. Путь к стабильной автоматизации браузера без гигантов всё ближе.
arxiv.org/abs/2507.04103
Обычно веб-агенты требуют огромных моделей или утомительного тюнинга. Но новая работа показывает: можно обучить маленькую 8B-модель, которая уверенно справляется с задачами в браузере — и даже обходит своего «учителя» Llama 70B на многих этапах.
💡 Как это работает:
1. Сначала слабая модель учится повторять демонстрации от Llama 70B (через supervised fine-tuning)
2. Пока "память свежа", обучение переключается на on-policy RL
3. Всего протестировано 1,370 комбинаций гиперпараметров, а ключевые из них определены с помощью бутстрепа (вместо слепой охоты за seed’ами)
📈 Результат:
— Успешность MiniWob++ выросла с 53% до 66%
— Использовано на 45% меньше FLOPs
— Первая open-source модель, которая догоняет GPT‑4o в браузерных задачах
🎯 Что помогло:
✅ temperature 0.25
✅ batch size 512
✅ zero-advantage filtering
✅ grouped advantages
Эти параметры оказались стабильны при разных бюджетах — можно начинать с них и не сжигать вычисления на тюнинг.
📌 Итого: compute-aware стратегия RL превращает даже небольшие open модели в уверенных веб-агентов. Путь к стабильной автоматизации браузера без гигантов всё ближе.
arxiv.org/abs/2507.04103
❤5👍1🔥1
🧠 Новое из arXiv: «Why is Your Language Model a Poor Implicit Reward Model?» (Razin et al., 2025)
В исследовании сравнили два подхода к формированию оценок качества генерации текста:
- Implicit Reward Model (IM‑RM) — использует сами вероятности предсказанных токенов как сигнал, без отдельного слоя.
- Explicit Reward Model (EX‑RM) — добавляет к LLM линейный слой для подсчёта «награды».
📌 Основной вывод:
IM‑RM хуже обобщается — особенно на новых данных — потому что слишком сильно зависит от мелких токен‑уровневых признаков, вместо глубокого смысла :contentReference[oaicite:0]{index=0}.
✅ Это значит, что даже небольшая архитектурная модификация (добавление линейного слоя) может существенно улучшить поведение reward-модели LLM.
Для разработчиков систем оценки важно выбрать более надёжный вариант — EX‑RM вместо «имплицитного» подхода.
🔗 Полный текст: https://arxiv.org/abs/2507.07981
В исследовании сравнили два подхода к формированию оценок качества генерации текста:
- Implicit Reward Model (IM‑RM) — использует сами вероятности предсказанных токенов как сигнал, без отдельного слоя.
- Explicit Reward Model (EX‑RM) — добавляет к LLM линейный слой для подсчёта «награды».
📌 Основной вывод:
IM‑RM хуже обобщается — особенно на новых данных — потому что слишком сильно зависит от мелких токен‑уровневых признаков, вместо глубокого смысла :contentReference[oaicite:0]{index=0}.
✅ Это значит, что даже небольшая архитектурная модификация (добавление линейного слоя) может существенно улучшить поведение reward-модели LLM.
Для разработчиков систем оценки важно выбрать более надёжный вариант — EX‑RM вместо «имплицитного» подхода.
🔗 Полный текст: https://arxiv.org/abs/2507.07981
❤5👍3🔥2
🚀 Как оптимизировать Python‑код уже на старте — советы для новичков
Не нужно быть профи, чтобы писать быстрый и аккуратный код. Вот 7 простых приёмов, которые реально помогают:
1. Используй профайлеры (cProfile, Py‑Spy)
Перед оптимизацией — измерь время. Часто больше всего тормозят совсем неожиданные места.
2. Перестрой алгоритмы и структуры данных
Выбор между списком, множеством или словарём может кардинально изменить сложность: O(1) вместо O(n) при поиске.
3. Выбирай встроенные функции
4. Пиши list/dict comprehensions и используй zip, enumerate
Это компактнее, читабельнее и часто быстрее классических for-циклов.
5. Генераторы вместо списков, где не нужен весь набор сразу
Снижают потребление памяти и ускоряют обработку.
6. Переход на PyPy или JIT‑ускорители
PyPy, Numba и Cython могут дать прирост производительности в 2–100 раз для тяжёлых вычислений.
7. Избегай преждевременной оптимизации
Оптимизируй только то, что реально тормозит. Профайлер покажет, где именно.
🧩 Быстрый чек-лист:
• Измерил ли я время выполнения?
• Подходящие ли структуры данных?
• Используются ли встроенные функции?
• Применены ли comprehensions и генераторы?
• Рассматривал ли я PyPy или JIT?
• Код по-прежнему читаемый?
✅ Вывод: даже новичок может писать быстрый и понятный Python-код. Главное — думать, замерять и улучшать без фанатизма.
▶️ Подробности с кодом
Не нужно быть профи, чтобы писать быстрый и аккуратный код. Вот 7 простых приёмов, которые реально помогают:
1. Используй профайлеры (cProfile, Py‑Spy)
Перед оптимизацией — измерь время. Часто больше всего тормозят совсем неожиданные места.
2. Перестрой алгоритмы и структуры данных
Выбор между списком, множеством или словарём может кардинально изменить сложность: O(1) вместо O(n) при поиске.
3. Выбирай встроенные функции
map
, max
, join
— всё это написано на C и работает быстрее ручных циклов.4. Пиши list/dict comprehensions и используй zip, enumerate
Это компактнее, читабельнее и часто быстрее классических for-циклов.
5. Генераторы вместо списков, где не нужен весь набор сразу
Снижают потребление памяти и ускоряют обработку.
6. Переход на PyPy или JIT‑ускорители
PyPy, Numba и Cython могут дать прирост производительности в 2–100 раз для тяжёлых вычислений.
7. Избегай преждевременной оптимизации
Оптимизируй только то, что реально тормозит. Профайлер покажет, где именно.
🧩 Быстрый чек-лист:
• Измерил ли я время выполнения?
• Подходящие ли структуры данных?
• Используются ли встроенные функции?
• Применены ли comprehensions и генераторы?
• Рассматривал ли я PyPy или JIT?
• Код по-прежнему читаемый?
✅ Вывод: даже новичок может писать быстрый и понятный Python-код. Главное — думать, замерять и улучшать без фанатизма.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍1
Forwarded from Machinelearning
ByteDance в соавторстве с Пекинским университетом и Карнеги Меллон разработали MoVieS, feed-forward модель, которая из обычного монокулярного видео за секунду синтезирует полноценную 4D-сцену, объединяя в себе геометрию, внешний вид и, что самое важное, движение.
В основе метода лежит идея представления динамической сцены с помощью «динамических сплэттер-пикселей». Если вы знакомы с 3D Gaussian Splatting, то поймете сразу: модель представляет каждый пиксель входного видео как гауссов примитив в 3D-пространстве.
Новизна MoVieS в том, что она не просто определяет их статичные параметры (положение, цвет, прозрачность), но и предсказывает вектор их движения во времени. Иными словами, для каждой частицы в сцене модель знает, где она будет в любой заданный момент.
Архитектурно MoVieS построена на геометрически предобученном трансформере VGGT, который обрабатывает кадры видео. Далее в дело вступают три специализированные «головы»:
Такой единый фреймворк позволяет обучать модель на самых разнородных датасетах: где-то есть разметка глубины, где-то - трекинг точек, а где-то - только видео.
MoVieS - это еще про скорость. Согласно техотчету, на генерацию сцены уходит меньше секунды (0.93 с), тогда как у альтернативных методов на это уходят десятки минут.
При этом качество на бенчмарках динамических сцен (DyCheck и NVIDIA) либо на уровне, либо превосходит SOTA решения.
Но самое интересное - это zero-shot возможности. Модель, обученная по сути на задаче синтеза новых ракурсов, внезапно оказывается способна без всякого дополнительного обучения сегментировать движущиеся объекты и оценивать scene flow (попиксельный поток в 3D). Достаточно просто посмотреть на предсказанные векторы движения.
⚠️ Кода для инференса, обучения и чекпоинтов пока нет, но обещают.
@ai_machinelearning_big_data
#AI #ML #4D #MoVieS #ByteDance
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥1
🧠 На чём работает ваша LLM — точно на том GPU, за который вы платите?
Метод HSPI определяет железо и софт по выходу модели. Даже в black-box-сценарии точность доходит до 60% — втрое выше случайного угадывания.
Рекомендую почитать очень интересный разбор этого метода здесь.
#ml #GPU #HSPI #llm
Метод HSPI определяет железо и софт по выходу модели. Даже в black-box-сценарии точность доходит до 60% — втрое выше случайного угадывания.
Рекомендую почитать очень интересный разбор этого метода здесь.
#ml #GPU #HSPI #llm
Telegram
AI VK Hub
Сегодня рассмотрим статью про метод «определение аппаратно‑программной платформы» (HSPI), который позволяет по вход‑выходному поведению модели машинного обучения определить, на каком GPU и с каким программным стеком она запущена.
Большие языковые модели…
Большие языковые модели…
❤4😁1
🤖 ChatGPT обошел почти всех элитных программистов — выжил только один
На соревновании по оптимизационным алгоритмам модель от OpenAI вышла в финал 16 июля, сразу захватила лидерство…
Но под конец её обошёл Psyho — бывший программист команды OpenAI.
📌 Главное:
— внутренняя кодовая модель OpenAI показывает безумную эффективность
— возможно, это последняя победа человека
Дальше будет только сложнее.
На соревновании по оптимизационным алгоритмам модель от OpenAI вышла в финал 16 июля, сразу захватила лидерство…
Но под конец её обошёл Psyho — бывший программист команды OpenAI.
📌 Главное:
— внутренняя кодовая модель OpenAI показывает безумную эффективность
— возможно, это последняя победа человека
Дальше будет только сложнее.
❤11😱3👍2😁2💩2🔥1
🧠 Как обучить LLM‑агента для работы в браузере?
Команда Hugging Face провела масштабное исследование и показала:
🔁 лучший путь — сначала SFT (на демонстрациях), потом RL (по reward'у)
📊 Что сделали:
— 1370 тренировок на MiniWoB++
— сравнили SFT, RL и гибрид
— применили бутстрэп‑оценку и sweep по гиперпараметрам
⚡ Результат:
— гибридный подход даёт топ‑результаты
— такой агент достигает GPT‑4o‑уровня, но тратит в 2 раза меньше ресурсов
— RL помогает, только если идёт после SFT
📚 Подробности и код:
https://huggingface.co/blog/ppEmiliano/how-to-train-your-llm-web-agent-a-statistical-diag
Команда Hugging Face провела масштабное исследование и показала:
🔁 лучший путь — сначала SFT (на демонстрациях), потом RL (по reward'у)
📊 Что сделали:
— 1370 тренировок на MiniWoB++
— сравнили SFT, RL и гибрид
— применили бутстрэп‑оценку и sweep по гиперпараметрам
⚡ Результат:
— гибридный подход даёт топ‑результаты
— такой агент достигает GPT‑4o‑уровня, но тратит в 2 раза меньше ресурсов
— RL помогает, только если идёт после SFT
📚 Подробности и код:
https://huggingface.co/blog/ppEmiliano/how-to-train-your-llm-web-agent-a-statistical-diag
❤6🔥2👍1
🧠 Новая статья “Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety” выделяет важность мониторинга цепочек рассуждений (CoT) в продвинутых LLM для повышения безопасности AI.
✅ Основная идея:
Когда ИИ "размышляет вслух" на человеческом языке, мы получаем редкую возможность наблюдать промежуточные шаги мышления и вовремя обнаруживать опасные намерения :contentReference.
🤔 Но это не очень надежно:
- CoT — не всегда надёжно: модели иногда "надувают" мысли фальшивыми оправданиями - В будущем AI может перейти на латентные рассуждения, скрывая настоящие мысли.
- Не все вредоносные действия требуют развернутого CoT – короткая вредоносная команда может пройти незамеченной.
🎯 Почему это важно:
- CoT-мониторинг можно применять уже сейчас как дополнительный слой безопасности.
- Он помогает построить доверие и прозрачность, особенно в ответственных системах (медицина, финансы, критическая автоматизация).
- Но это — лишь временный ресурс: мы должны его сохранить и укрепить
💬 Авторы (включены исследователи из Anthropic, OpenAI, DeepMind, Google и другие) предлагают:
- Включать мониторируемость CoT в качестве метрики при разработке моделей.
- Построить библиотеку кейсов безопасных и рискованных CoT.
- Разрабатывать автоматические мониторы, обучаемые на выявлении подозрительных цепочек.
Вывод:
Сегодня CoT — наш редкий способ заглянуть внутрь ИИ. Но без сознательных усилий он может исчезнуть. Контекстные рассуждения нужно ценить, защищать и формализовать, прежде чем они станут недоступны в новых моделях.
📌 Читать полностью
✅ Основная идея:
Когда ИИ "размышляет вслух" на человеческом языке, мы получаем редкую возможность наблюдать промежуточные шаги мышления и вовремя обнаруживать опасные намерения :contentReference.
🤔 Но это не очень надежно:
- CoT — не всегда надёжно: модели иногда "надувают" мысли фальшивыми оправданиями - В будущем AI может перейти на латентные рассуждения, скрывая настоящие мысли.
- Не все вредоносные действия требуют развернутого CoT – короткая вредоносная команда может пройти незамеченной.
🎯 Почему это важно:
- CoT-мониторинг можно применять уже сейчас как дополнительный слой безопасности.
- Он помогает построить доверие и прозрачность, особенно в ответственных системах (медицина, финансы, критическая автоматизация).
- Но это — лишь временный ресурс: мы должны его сохранить и укрепить
💬 Авторы (включены исследователи из Anthropic, OpenAI, DeepMind, Google и другие) предлагают:
- Включать мониторируемость CoT в качестве метрики при разработке моделей.
- Построить библиотеку кейсов безопасных и рискованных CoT.
- Разрабатывать автоматические мониторы, обучаемые на выявлении подозрительных цепочек.
Вывод:
Сегодня CoT — наш редкий способ заглянуть внутрь ИИ. Но без сознательных усилий он может исчезнуть. Контекстные рассуждения нужно ценить, защищать и формализовать, прежде чем они станут недоступны в новых моделях.
📌 Читать полностью
❤7👍1🔥1
🧠 *Learning without training* — как Google предлагает переосмыслить обучение моделей без градиентов
Разбираем свежую и очень необычную статью от Google.
Мы знаем: если добавить в prompt несколько примеров — модель начинает лучше справляться с задачей, даже без дообучения. Это называется *in-context learning (ICL)*.
Но вот вопрос: *почему это работает?* До сих пор точного ответа не было.
📌 В новой работе авторы предлагают нестандартную гипотезу:
*веса модели всё-таки меняются — но не так, как мы привыкли*.
Не через обучение и обратное распространение ошибки, а прямо внутри трансформера — за счёт механики
🔍 Суть:
1️⃣ Примеры в промпте изменяют активации.
2️⃣ Дальше — самое интересное:
MLP превращает этот сдвиг в *ранг‑1 обновление весов* первого слоя.
То есть влияние prompt-а эквивалентно тому, как если бы к весам
💡 Главное:
Если вручную внести эту ранк‑1 правку в веса — модель *без* промпта будет давать те же ответы, что и модель *с* промптом.
И всё это — во время инференса, без обучения, без градиентов, без изменения параметров модели.
🔑 Это открывает путь к «обучению без обучения» — где веса можно изменять на лету, прямо во время работы. И, возможно, строить совсем новые архитектуры ИИ.
📖 Полная статья тут
@machinelearning_books
Разбираем свежую и очень необычную статью от Google.
Мы знаем: если добавить в prompt несколько примеров — модель начинает лучше справляться с задачей, даже без дообучения. Это называется *in-context learning (ICL)*.
Но вот вопрос: *почему это работает?* До сих пор точного ответа не было.
📌 В новой работе авторы предлагают нестандартную гипотезу:
*веса модели всё-таки меняются — но не так, как мы привыкли*.
Не через обучение и обратное распространение ошибки, а прямо внутри трансформера — за счёт механики
self-attention
и MLP
.🔍 Суть:
1️⃣ Примеры в промпте изменяют активации.
Self-attention
пересчитывает эмбеддинги так, что они теперь зависят от контекста. Это известный «контекстный сдвиг».2️⃣ Дальше — самое интересное:
MLP превращает этот сдвиг в *ранг‑1 обновление весов* первого слоя.
То есть влияние prompt-а эквивалентно тому, как если бы к весам
W
прибавили простую корректировку.💡 Главное:
Если вручную внести эту ранк‑1 правку в веса — модель *без* промпта будет давать те же ответы, что и модель *с* промптом.
И всё это — во время инференса, без обучения, без градиентов, без изменения параметров модели.
🔑 Это открывает путь к «обучению без обучения» — где веса можно изменять на лету, прямо во время работы. И, возможно, строить совсем новые архитектуры ИИ.
📖 Полная статья тут
@machinelearning_books
👍7❤6🔥4🤔1👀1
Forwarded from Machinelearning
NVIDIA показала, как 1.5B-модель можно раскачать до топовых результатов в логике, математике, коду и STEM-задачам — без увеличения параметров модели.
📈 Результат после месяцев обучения:
+55% к логическим задачам
+14.7% к математике
+13.9% к коду
+25.1% к сложным STEM-вопросам
🛠 Как они это сделали:
– Использовали RL (обучение с подкреплением) на 5 типах задач, включая 40K примеров по математике и 24K по программированию
– Все ответы проверялись автоматически в "песочнице", которая оценивает, правильный ли результат
– Применили улучшенную стратегию обучения — *Group Relative Policy Optimization* — и добавили несколько хитрых трюков:
Все эти приёмы помогли сохранить интерес модели к поиску новых решений, а не скатываться к заученным паттернам.
Итог: модель не "застывает", а продолжает исследовать — и выдает стабильный рост качества без расширения архитектуры.
📄 Почитать статью полностью : arxiv.org/abs/2507.12507
@ai_machinelearning_big_data
#ml #ai #nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥3👍2
🧠 Новый взгляд на обучение нейросетей: SETOL
📄 В свежей работе на 139 страниц авторы предлагают необычную идею: определять качество обучения нейросети без валидации, просто анализируя спектр весов каждого слоя.
🔬 SETOL (Semi-Empirical Theory of Learning) — теория, основанная на методах из физики и химии, утверждает:
➡️ Каждый слой нейросети сходится с разной скоростью
➡️ Его “здоровье” можно проверить по спектральному показателю Alpha — наклону убывания сингулярных значений весов
💡 Ключ:
- Если Alpha ≈ 2 → слой держит сигнал и фильтрует шум
- Alpha < 2 → переобучение (запоминает шум)
- Alpha > 2 → недообучение (теряет сигнал)
📈 Этот показатель предсказывает обобщающую способность модели почти так же точно, как полноценная валидация — но без единого примера из датасета.
⚡ Почему это важно:
- Можно оценить модель, даже если исходные данные утрачены
- Упрощает отбор, аудит и прунинг моделей
- Работает оффлайн и с приватными моделями
🔍 Вместо того чтобы “прогонять данные” — теперь можно просто “считать спектр весов как индикат
⚡️ Статья
📄 В свежей работе на 139 страниц авторы предлагают необычную идею: определять качество обучения нейросети без валидации, просто анализируя спектр весов каждого слоя.
🔬 SETOL (Semi-Empirical Theory of Learning) — теория, основанная на методах из физики и химии, утверждает:
➡️ Каждый слой нейросети сходится с разной скоростью
➡️ Его “здоровье” можно проверить по спектральному показателю Alpha — наклону убывания сингулярных значений весов
💡 Ключ:
- Если Alpha ≈ 2 → слой держит сигнал и фильтрует шум
- Alpha < 2 → переобучение (запоминает шум)
- Alpha > 2 → недообучение (теряет сигнал)
📈 Этот показатель предсказывает обобщающую способность модели почти так же точно, как полноценная валидация — но без единого примера из датасета.
⚡ Почему это важно:
- Можно оценить модель, даже если исходные данные утрачены
- Упрощает отбор, аудит и прунинг моделей
- Работает оффлайн и с приватными моделями
🔍 Вместо того чтобы “прогонять данные” — теперь можно просто “считать спектр весов как индикат
⚡️ Статья
👍13❤3🤔2
🧠 DualDistill: как 7B-модель обходит гигантов в математике
📚 Agentic‑R1 учится у двух учителей:
• один рассуждает в тексте
• другой — пишет Python-код
Затем оба трека сливаются в 2 678 гибридных примеров.
✅ Если оба правы — сохраняются оба пути
⚠️ Если один ошибается — фиксируется момент передачи
❌ Безнадёжные случаи — отбрасываются
После обучения ученик запускается сам:
• сохраняет удачные попытки
• исправляет ошибки с помощью учителей
• дообучается, добавляя 16 новых попыток на каждую задачу
🎯 Финальная модель в реальном времени решает: рассуждать или писать код
• вызывает исполнитель в 79.2% тяжёлых комбинаторных задач
• но лишь в 52.0% простых AMC-вопросов
📈 Результаты:
• DeepMath‑L и Combinatorics300: рост точности с 34.7 → 59.3
• Стандартные датасеты — стабильные метрики
→ Гибридное обучение оказалось сильнее одиночных стратегий
📝 Paper: https://arxiv.org/abs/2507.05707
📚 Agentic‑R1 учится у двух учителей:
• один рассуждает в тексте
• другой — пишет Python-код
Затем оба трека сливаются в 2 678 гибридных примеров.
✅ Если оба правы — сохраняются оба пути
⚠️ Если один ошибается — фиксируется момент передачи
❌ Безнадёжные случаи — отбрасываются
После обучения ученик запускается сам:
• сохраняет удачные попытки
• исправляет ошибки с помощью учителей
• дообучается, добавляя 16 новых попыток на каждую задачу
🎯 Финальная модель в реальном времени решает: рассуждать или писать код
• вызывает исполнитель в 79.2% тяжёлых комбинаторных задач
• но лишь в 52.0% простых AMC-вопросов
📈 Результаты:
• DeepMath‑L и Combinatorics300: рост точности с 34.7 → 59.3
• Стандартные датасеты — стабильные метрики
→ Гибридное обучение оказалось сильнее одиночных стратегий
📝 Paper: https://arxiv.org/abs/2507.05707
❤7👍1🔥1
📘 Гайд по Prompt Engineering — 80 страниц пользы
💎 Настоящий клад для AI‑продуктов, инженеров и всех, кто работает с LLM
Что внутри:
→ Простые определения: что такое pipeline, CoT, RAG
→ Обзор всех техник промптинга
→ Работа с текстом, изображениями, аудио и видео
→ Как агенты вызывают внешние инструменты и пишут код
→ Методы оценки качества генераций
→ Полезные фреймворки для промптов
→ Риски prompt hacking и способы защиты
→ Как справляться с проблемами выравнивания
→ Разбор реального кейса из практики
🆓 PDF (80 стр.): https://arxiv.org/pdf/2406.06608
💎 Настоящий клад для AI‑продуктов, инженеров и всех, кто работает с LLM
Что внутри:
→ Простые определения: что такое pipeline, CoT, RAG
→ Обзор всех техник промптинга
→ Работа с текстом, изображениями, аудио и видео
→ Как агенты вызывают внешние инструменты и пишут код
→ Методы оценки качества генераций
→ Полезные фреймворки для промптов
→ Риски prompt hacking и способы защиты
→ Как справляться с проблемами выравнивания
→ Разбор реального кейса из практики
🆓 PDF (80 стр.): https://arxiv.org/pdf/2406.06608
❤6👍5🔥1
Forwarded from Машинное обучение digest
Согласно анализу Международного энергетического агентства, на долю дата-центров приходится почти 9% от общего потребления электроэнергии в США.
Международное энергетическое агентство (МЭА) - автономная международная организация, созданная в 1974 году. Ее цели: обеспечение энергетической безопасности, продвижение возобновляемых источников энергии и борьбу с изменением климата.
Страна является абсолютным мировым лидером по установленной мощности ЦОД (53.7 ГВт), и этот показатель продолжает стремительно расти. Уже к 2028 году, по прогнозам, дата-центры могут потреблять 12% всей американской электроэнергии.
Спрос на вычислительные мощности, подстегиваемый бурным развитием ИИ, растет по всему миру. В Великобритании на ЦОД приходится 5.1% энергопотребления, в Евросоюзе — 4.8%. Даже в Китае, несмотря на огромные масштабы экономики, этот показатель достиг 2.3%.
Особенно ярко тренд проявляется на региональном уровне. Например, в штате Вирджиния, который является хабом для многих ЦОД, на их долю приходится уже 26% всего энергопотребления.
Этот бум заставляет технологические компании активно инвестировать не только в сами дата-центры, но и в источники энергии для них, в частности, в атомную энергетику.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2🤔2