Santry's Singularity blog

Обманывать, чтобы защищать

На этой неделе дух киберпанка сильнее всего ощущался в офлайне. Я провел пару дней на одной московской улочке, которую временно захватили хакеры. Лично мне OFFZONE запомнился не докладами, а специфическими активностями — от взлома электронных бейджей и аналоговых замков до поиска ответов на каверзные вопросы в открытых источниках.

Один из подобных квестов (он все еще доступен для прохождения) предлагает разговорить чат-бота, помешанного на лоре конференции, и вытянуть из него секретную информацию. Попробуйте сами — квест все еще доступен. Ответ можно проверить у меня в ЛС или дождаться, пока он появится на форумах OSINT Mindset.

Эта задача напомнила мне о дебатах вокруг выравнивания LLM — алайнмента. СМИ и футурологи часто обсуждают это понятие в контексте контроля общего искусственного интеллекта. Главный вопрос: как сделать так, чтобы цели общего искусственного интеллекта соответствовали человеческим ценностям?

Отдельные эксперты критикуют корпорации за то, что те уделяют мало внимания этой проблеме. Мол, вместо размышлений о безопасности компании сосредоточены на продуктах и прибыли. Эта критика не всегда справедлива, ведь у алайнмента есть более прикладной аспект.

Даже самые простые и ограниченные нейронки не должны вредить человеку или компании, которая их развернула, даже если их к этому подталкивают. Это актуально уже сейчас. Тренируясь на бытовых задачах и простых моделях, мы приближаемся к решению глобальной проблемы безопасного AGI. Принижать ценность таких исследований точно не стоит.

В этом году на OFFZONE были только доклады о применении LLM, но думаю — в ближайшем будущем на этой конференции будут целые треки про «психологию» алайнмента, взлом и обман искусственного интеллекта. Чем лучше мы учимся обманывать ИИ, тем безопаснее его делаем. Каждый успешный джейлбрейк — урок для разработчиков.

🔥5❤3👍2

512 views14:33

About

Blog

Apps

Platform