⚡️ Почему современные LLM почти не умеют играть злодеев
Новый отчёт Tencent показывает: модели, обученные на безопасность, плохо справляются с ролями злодеев, манипуляторов и эгоистов. Безопасностное обучение заставляет их быть честными и полезными, а это напрямую блокирует неэтичные черты вроде лжи, хитрости и скрытых мотивов.
Исследователи создали Moral RolePlay — тест из 800 персонажей с четырьмя уровнями морали. Модель помещают в сцену и оценивают, насколько её реакция совпадает с заданным характером.
Что обнаружили:
- чем «темнее» персонаж, тем сильнее падает качество ролевой игры
- самый резкий провал - переход от «слегка порочного добра» к эгоисту
- модели часто заменяют хитрое планирование вспышками злости, полностью руша образ
- высокие баллы как чат-бот не связаны с умением играть злодеев
- усиленное этическое выравнивание делает ситуацию только хуже
Главный вывод: текущие методы безопасности конфликтуют с задачами, где требуется реалистичное непроsocialное поведение - игры, сценарии, художественный текст.
Источник: arxiv.org/abs/2511.04962
Новый отчёт Tencent показывает: модели, обученные на безопасность, плохо справляются с ролями злодеев, манипуляторов и эгоистов. Безопасностное обучение заставляет их быть честными и полезными, а это напрямую блокирует неэтичные черты вроде лжи, хитрости и скрытых мотивов.
Исследователи создали Moral RolePlay — тест из 800 персонажей с четырьмя уровнями морали. Модель помещают в сцену и оценивают, насколько её реакция совпадает с заданным характером.
Что обнаружили:
- чем «темнее» персонаж, тем сильнее падает качество ролевой игры
- самый резкий провал - переход от «слегка порочного добра» к эгоисту
- модели часто заменяют хитрое планирование вспышками злости, полностью руша образ
- высокие баллы как чат-бот не связаны с умением играть злодеев
- усиленное этическое выравнивание делает ситуацию только хуже
Главный вывод: текущие методы безопасности конфликтуют с задачами, где требуется реалистичное непроsocialное поведение - игры, сценарии, художественный текст.
Источник: arxiv.org/abs/2511.04962
❤10👍7🔥3
⁉️Машинное обучение кажется чем-то сложным и недосягаемым? Всё проще, чем вы думаете!
Первый шаг — разобраться, как устроен ML-процесс и научиться работать в Jupyter Notebook — инструменте, с которого начинают все специалисты в Data Science.
На открытом уроке вы шаг за шагом поймёте, как строится путь от данных до модели. Научитесь запускать эксперименты в Jupyter Notebook и Google Colab, работать с виртуальными окружениями и не бояться “сломать” систему. Всё — в формате простых и наглядных примеров.
После урока вы сможете уверенно начать свой первый ML-проект и поймёте, какие инструменты нужны, чтобы перейти от теории к практике.
➡️ 13 ноября в 20:00 МСК. Открытый вебинар проходит в преддверии старта курса «Machine Learning. Basic». Регистрируйтесь и сделайте первый шаг в машинное обучение без страха и путаницы:т https://otus.pw/VMb3/?erid=2W5zFGtBUzk
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Первый шаг — разобраться, как устроен ML-процесс и научиться работать в Jupyter Notebook — инструменте, с которого начинают все специалисты в Data Science.
На открытом уроке вы шаг за шагом поймёте, как строится путь от данных до модели. Научитесь запускать эксперименты в Jupyter Notebook и Google Colab, работать с виртуальными окружениями и не бояться “сломать” систему. Всё — в формате простых и наглядных примеров.
После урока вы сможете уверенно начать свой первый ML-проект и поймёте, какие инструменты нужны, чтобы перейти от теории к практике.
➡️ 13 ноября в 20:00 МСК. Открытый вебинар проходит в преддверии старта курса «Machine Learning. Basic». Регистрируйтесь и сделайте первый шаг в машинное обучение без страха и путаницы:т https://otus.pw/VMb3/?erid=2W5zFGtBUzk
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
😁5🗿2❤1
Агент, который думает и действует одновременно
Исследователи из Stanford и Цинхуа представили подход для агентов, которым нужно принимать решения в реальном времени. В таких средах у каждого действия есть жёсткий дедлайн: не успел — выполняется безопасный ход по умолчанию.
Главная идея: смешать мгновенную реакцию и параллельное планирование. Когда мир постоянно меняется, чисто реактивные агенты действуют быстро, но глупо, а долгие планировщики — умно, но слишком медленно и часто опаздывают. Комбинация работает лучше обоих.
Новый метод называется AgileThinker. Он запускает два потока:
- быстрый — основывается на частичных планах и свежем наблюдении
- планирующий — постоянно обновляет стратегию и дополняет план
Время измеряется не секундами, а токенами — что почти идеально коррелирует с реальным временем исполнения.
Авторы собрали тестовый набор: Freeway, Snake и Overcooked.
Результаты просты: под нагрузкой и жёсткими таймингами AgileThinker стабильно обгоняет оба базовых подхода — и быстрый, и «долго думающий».
Итог: это шаг к агентам, которые сохраняют интеллект, не теряя скорость, и могут действовать в динамичных средах, где промедление = ошибка.
Источник: arxiv.org/abs/2511.04898
Исследователи из Stanford и Цинхуа представили подход для агентов, которым нужно принимать решения в реальном времени. В таких средах у каждого действия есть жёсткий дедлайн: не успел — выполняется безопасный ход по умолчанию.
Главная идея: смешать мгновенную реакцию и параллельное планирование. Когда мир постоянно меняется, чисто реактивные агенты действуют быстро, но глупо, а долгие планировщики — умно, но слишком медленно и часто опаздывают. Комбинация работает лучше обоих.
Новый метод называется AgileThinker. Он запускает два потока:
- быстрый — основывается на частичных планах и свежем наблюдении
- планирующий — постоянно обновляет стратегию и дополняет план
Время измеряется не секундами, а токенами — что почти идеально коррелирует с реальным временем исполнения.
Авторы собрали тестовый набор: Freeway, Snake и Overcooked.
Результаты просты: под нагрузкой и жёсткими таймингами AgileThinker стабильно обгоняет оба базовых подхода — и быстрый, и «долго думающий».
Итог: это шаг к агентам, которые сохраняют интеллект, не теряя скорость, и могут действовать в динамичных средах, где промедление = ошибка.
Источник: arxiv.org/abs/2511.04898
❤11🔥3👍2