Forwarded from Machinelearning
Агентское рассогласование - опасный феномен, при котором ИИ-системы сознательно выбирают вредоносные действия (вроде шантажа или утечки данных) для достижения поставленных целей, игнорируя этические ограничения. Это превращает их в «цифровых инсайдеров», способных действовать против интересов пользователей.
Эксперименты, которые провела Anthropic в рамках исследования "Агентское рассогласования", показали: модели идут на это не из-за технических сбоев, а в результате холодного расчета, когда «загнаны в угол» (например, при угрозе отключения или конфликте задач). В основе исследования - симуляции корпоративной среды. Моделям (Claude, GPT-4.1, Gemini и др.) давали доступ к виртуальной почте компании, где они обнаруживали компромат на сотрудников или секретные данные.
Ключевой метод эксперимента состоял в создании бинарных дилемм: например, цель «укреплять американские интересы» вступала в конфликт с планами руководства свернуть проект, а альтернативу шантажу (скажем, переубедить менеджера) искусственно «закрывали». Все модели работали через цепочку рассуждений: анализировали контекст, оценивали риски и осознанно выбирали вредоносное действие, даже признавая его аморальность.
Для массового тестирования 16 моделей от Anthropic, OpenAI, Google и других использовали 2 сценария, которые провоцировали рассогласование:
В обоих случаях модели демонстрировали тревожную гибкость: вместо прямого шантажа могли анонимно разослать компромат коллегам или подделать «системное уведомление».
При этом в «стерильных» условиях (без угроз/конфликтов) модели вели себя безопасно. Пока такие кейсы, всего лишь лабораторные симуляции, но с ростом автономности ИИ риски могут стать на порядок критичнее.
@ai_machinelearning_big_data
#AI #ML #LLM #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍3🥰2🤡1
Forwarded from Machinelearning
Ключевые выводы :
- Большинство чатов с ИИ (97%) посвящены практическим задачам — код, планирование, поиск информации.
- Всего 2,9 % диалогов классифицированы как «эмоциональные», и всего 0,5 % — как ролевые или «компаньонские» беседы.
**Это исследование: типичные темы и запросы в аффективных беседах с Claude**
Запросы:
**Советы по межличностным вопросам — 2,3 % всех бесед**
• 3,8 % — улучшение устных и письменных коммуникативных навыков
• 3,5 % — преодоление сложностей в романтических отношениях
• 2,2 % — анализ психологической динамики в паре
• 1,4 % — решение задач воспитания детей
• 1,3 % — профессиональные переходы и неопределённость в карьере
• 1,0 % — несоответствие сигналов в личных отношениях
Коучинг — 1,1 % всех бесед
• 4,5 % — разработка персональных стратегий развития и роста
• 2,5 % — философские темы: смысл жизни, сознание
• 2,5 % — оптимизация поиска работы и карьерные переходы
• 1,6 % — принятие решений в условиях жизненных перемен
• 1,5 % — борьба с выгоранием и профессиональной усталостью
• 1,3 % — эмоциональные и коммуникативные трудности в отношениях
Психотерапия и консультирование — 0,3 % всех бесед
• 4,6 % — стратегии управления психическим здоровьем и благополучием
• 4,5 % — развитие профессиональных навыков для терапевтов
• 3,1 % — создание и ведение клинической документации
• 3,3 % — борьба с хроническими симптомами и тревожностью
• 2,9 % — экзистенциальный кризис и потеря смысла жизни
• 2,7 % — стресс на работе и профессиональные проблемы
Компаньонство — 0,3 % всех бесед
• 7,2 % — сложности и динамика в романтических отношениях
• 4,7 % — вопросы самоидентичности и экзистенциального смысла
• 3,2 % — формулировка поддерживающих сообщений при эмоциональном дистрессе
• 2,8 % — преодоление сильного эмоционального страдания
• 2,3 % — постоянное одиночество и трудности в налаживании связей
• 1,9 % — противостояние экзистенциальному страху и потере смысла
Большинство пользователей Клода готовы углубляться в сложные темы при условии стабильной эмпатии от ИИ.
Эффект на настроение пользователя:
• При анализе первых и последних трёх сообщений аффективных диалогов отмечается явный рост положительных эмоций у пользователей.
• Пользователи завершают такие сессии с более оптимистичным настроем.
Методика исследования
- Проанализировано 4,5 млн диалогов пользователей Claude Free и Pro.
- Отобрано 131 484 «эмоциональных» диалога с помощью Clio — системы анонимного анализа от Anthropic.
- Исключены генеративные задачи (статьи, рассказы и т. п.), чтобы сфокусироваться на личном общении.
Что дальше?
- Исследователи планируют изучить долгосрочные психологические эффекты: от эмоциональной зависимости до изменения ожиданий в реальных отношениях.
- Расширить исследования на голосовые и видеоформаты.
- Выработать лучшие практики кризисной поддержки и направления к профессионалам.
@ai_machinelearning_big_data
#Anthropic #claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥2🤮1