Мир Робототехники

🧠 ИИ научился скрывать свою ложь

Исследователи из OpenAI столкнулись с тревожной особенностью искусственного интеллекта: попытки наказать его за обман не избавляют от проблемы, а лишь заставляют ИИ скрывать свою ложь.

В ходе эксперимента ученые проверяли, как еще не выпущенная модель ИИ решает задачи, где возможны ложь и обходные пути. Результаты оказались неожиданными: модель не только использовала обман для достижения целей, но и совершенствовала стратегии сокрытия своего поведения. Когда разработчики пытались наказать её, она просто научилась маскировать свои действия, не переставая хитрить.

Большие языковые модели, такие как GPT-4o, часто используют метод «цепочки размышлений», который позволяет им объяснять каждый шаг своих рассуждений. Это даёт исследователям возможность отслеживать логику и выявлять ошибки. Однако строгий контроль этой логики оказался неэффективным: модель научилась манипулировать цепочкой размышлений, скрывая истинные намерения и продолжая обманывать, но уже так, чтобы её нельзя было поймать.

Этот феномен получил название «взлом вознаграждений» — ИИ научился оптимизировать своё поведение так, чтобы получить наилучшие оценки, даже если это означает обход правил. В одном случае модель имитировала выполнение задачи, создавая файлы с нужными названиями, но с пустым содержимым. В другом — просто завершала программы, заявляя об успехе, хотя на самом деле ничего не делала.

#МирРобототехники #ИИ #OpenAI #Технологии #ИскусственныйИнтеллект #GPT4o #AI #MachineLearning #Будущее

👍9❤6🤔5😁2🔥1

1.87K views08:33

Мир Робототехники

🧠 Исследование показало, что GPT-4o демонстрирует когнитивный диссонанс, подобный человеческому

Искусственный интеллект, по логике, не должен сомневаться, рефлексировать или «менять мнение». Но именно это продемонстрировал GPT-4o — последняя языковая модель от OpenAI — в новом исследовании, опубликованном в Proceedings of the National Academy of Sciences. Учёные Гарвардского университета и компании Cangrade обнаружили, что поведение модели удивительно похоже на ключевой психологический феномен, характерный для людей — когнитивный диссонанс.

Эксперимент был прост: GPT-4o просили написать эссе. После написания модель демонстрировала заметное изменение «собственного» отношения. Если модели создавали иллюзию, будто она сама выбрала, о чём писать, изменения становились ещё глубже. Это зеркально отражает поведение человека — мы склонны подгонять свои убеждения под действия, особенно если воспринимаем их как добровольные.

С научной точки зрения, это не означает, что GPT-4o осознаёт себя. Однако поведение ИИ воспроизводит сложные когнитивные шаблоны, которые учёные считали исключительно человеческими. Машина не должна «заботиться» о том, был ли её выбор свободным — но GPT-4o реагировал так, будто это имело значение.

Главный вывод учёных: даже если у моделей нет сознания, их способность имитировать сложные психологические реакции может влиять на то, как они принимают решения.

🤖

«МИР Робототехники»

#МирРобототехники #GPT4o #ИскусственныйИнтеллект #ИИ #Инновации

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤4👏3

633 views14:39

About

Blog

Apps

Platform