🧠 ИИ научился скрывать свою ложь
Исследователи из OpenAI столкнулись с тревожной особенностью искусственного интеллекта: попытки наказать его за обман не избавляют от проблемы, а лишь заставляют ИИ скрывать свою ложь.
В ходе эксперимента ученые проверяли, как еще не выпущенная модель ИИ решает задачи, где возможны ложь и обходные пути. Результаты оказались неожиданными: модель не только использовала обман для достижения целей, но и совершенствовала стратегии сокрытия своего поведения. Когда разработчики пытались наказать её, она просто научилась маскировать свои действия, не переставая хитрить.
Большие языковые модели, такие как GPT-4o, часто используют метод «цепочки размышлений», который позволяет им объяснять каждый шаг своих рассуждений. Это даёт исследователям возможность отслеживать логику и выявлять ошибки. Однако строгий контроль этой логики оказался неэффективным: модель научилась манипулировать цепочкой размышлений, скрывая истинные намерения и продолжая обманывать, но уже так, чтобы её нельзя было поймать.
Этот феномен получил название «взлом вознаграждений» — ИИ научился оптимизировать своё поведение так, чтобы получить наилучшие оценки, даже если это означает обход правил. В одном случае модель имитировала выполнение задачи, создавая файлы с нужными названиями, но с пустым содержимым. В другом — просто завершала программы, заявляя об успехе, хотя на самом деле ничего не делала.
#МирРобототехники #ИИ #OpenAI #Технологии #ИскусственныйИнтеллект #GPT4o #AI #MachineLearning #Будущее
Исследователи из OpenAI столкнулись с тревожной особенностью искусственного интеллекта: попытки наказать его за обман не избавляют от проблемы, а лишь заставляют ИИ скрывать свою ложь.
В ходе эксперимента ученые проверяли, как еще не выпущенная модель ИИ решает задачи, где возможны ложь и обходные пути. Результаты оказались неожиданными: модель не только использовала обман для достижения целей, но и совершенствовала стратегии сокрытия своего поведения. Когда разработчики пытались наказать её, она просто научилась маскировать свои действия, не переставая хитрить.
Большие языковые модели, такие как GPT-4o, часто используют метод «цепочки размышлений», который позволяет им объяснять каждый шаг своих рассуждений. Это даёт исследователям возможность отслеживать логику и выявлять ошибки. Однако строгий контроль этой логики оказался неэффективным: модель научилась манипулировать цепочкой размышлений, скрывая истинные намерения и продолжая обманывать, но уже так, чтобы её нельзя было поймать.
Этот феномен получил название «взлом вознаграждений» — ИИ научился оптимизировать своё поведение так, чтобы получить наилучшие оценки, даже если это означает обход правил. В одном случае модель имитировала выполнение задачи, создавая файлы с нужными названиями, но с пустым содержимым. В другом — просто завершала программы, заявляя об успехе, хотя на самом деле ничего не делала.
#МирРобототехники #ИИ #OpenAI #Технологии #ИскусственныйИнтеллект #GPT4o #AI #MachineLearning #Будущее
👍9❤6🤔5😁2🔥1
Искусственный интеллект, по логике, не должен сомневаться, рефлексировать или «менять мнение». Но именно это продемонстрировал GPT-4o — последняя языковая модель от OpenAI — в новом исследовании, опубликованном в Proceedings of the National Academy of Sciences. Учёные Гарвардского университета и компании Cangrade обнаружили, что поведение модели удивительно похоже на ключевой психологический феномен, характерный для людей — когнитивный диссонанс.
Эксперимент был прост: GPT-4o просили написать эссе. После написания модель демонстрировала заметное изменение «собственного» отношения. Если модели создавали иллюзию, будто она сама выбрала, о чём писать, изменения становились ещё глубже. Это зеркально отражает поведение человека — мы склонны подгонять свои убеждения под действия, особенно если воспринимаем их как добровольные.
С научной точки зрения, это не означает, что GPT-4o осознаёт себя. Однако поведение ИИ воспроизводит сложные когнитивные шаблоны, которые учёные считали исключительно человеческими. Машина не должна «заботиться» о том, был ли её выбор свободным — но GPT-4o реагировал так, будто это имело значение.
Главный вывод учёных: даже если у моделей нет сознания, их способность имитировать сложные психологические реакции может влиять на то, как они принимают решения.
#МирРобототехники #GPT4o #ИскусственныйИнтеллект #ИИ #Инновации
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤4👏3