Обманывать, чтобы защищать
На этой неделе дух киберпанка сильнее всего ощущался в офлайне. Я провел пару дней на одной московской улочке, которую временно захватили хакеры. Лично мне OFFZONE запомнился не докладами, а специфическими активностями — от взлома электронных бейджей и аналоговых замков до поиска ответов на каверзные вопросы в открытых источниках.
Один из подобных квестов (он все еще доступен для прохождения) предлагает разговорить чат-бота, помешанного на лоре конференции, и вытянуть из него секретную информацию. Попробуйте сами — квест все еще доступен. Ответ можно проверить у меня в ЛС или дождаться, пока он появится на форумах OSINT Mindset.
Эта задача напомнила мне о дебатах вокруг выравнивания LLM — алайнмента. СМИ и футурологи часто обсуждают это понятие в контексте контроля общего искусственного интеллекта. Главный вопрос: как сделать так, чтобы цели общего искусственного интеллекта соответствовали человеческим ценностям?
Отдельные эксперты критикуют корпорации за то, что те уделяют мало внимания этой проблеме. Мол, вместо размышлений о безопасности компании сосредоточены на продуктах и прибыли. Эта критика не всегда справедлива, ведь у алайнмента есть более прикладной аспект.
Даже самые простые и ограниченные нейронки не должны вредить человеку или компании, которая их развернула, даже если их к этому подталкивают. Это актуально уже сейчас. Тренируясь на бытовых задачах и простых моделях, мы приближаемся к решению глобальной проблемы безопасного AGI. Принижать ценность таких исследований точно не стоит.
В этом году на OFFZONE были только доклады о применении LLM, но думаю — в ближайшем будущем на этой конференции будут целые треки про «психологию» алайнмента, взлом и обман искусственного интеллекта. Чем лучше мы учимся обманывать ИИ, тем безопаснее его делаем. Каждый успешный джейлбрейк — урок для разработчиков.
На этой неделе дух киберпанка сильнее всего ощущался в офлайне. Я провел пару дней на одной московской улочке, которую временно захватили хакеры. Лично мне OFFZONE запомнился не докладами, а специфическими активностями — от взлома электронных бейджей и аналоговых замков до поиска ответов на каверзные вопросы в открытых источниках.
Один из подобных квестов (он все еще доступен для прохождения) предлагает разговорить чат-бота, помешанного на лоре конференции, и вытянуть из него секретную информацию. Попробуйте сами — квест все еще доступен. Ответ можно проверить у меня в ЛС или дождаться, пока он появится на форумах OSINT Mindset.
Эта задача напомнила мне о дебатах вокруг выравнивания LLM — алайнмента. СМИ и футурологи часто обсуждают это понятие в контексте контроля общего искусственного интеллекта. Главный вопрос: как сделать так, чтобы цели общего искусственного интеллекта соответствовали человеческим ценностям?
Отдельные эксперты критикуют корпорации за то, что те уделяют мало внимания этой проблеме. Мол, вместо размышлений о безопасности компании сосредоточены на продуктах и прибыли. Эта критика не всегда справедлива, ведь у алайнмента есть более прикладной аспект.
Даже самые простые и ограниченные нейронки не должны вредить человеку или компании, которая их развернула, даже если их к этому подталкивают. Это актуально уже сейчас. Тренируясь на бытовых задачах и простых моделях, мы приближаемся к решению глобальной проблемы безопасного AGI. Принижать ценность таких исследований точно не стоит.
В этом году на OFFZONE были только доклады о применении LLM, но думаю — в ближайшем будущем на этой конференции будут целые треки про «психологию» алайнмента, взлом и обман искусственного интеллекта. Чем лучше мы учимся обманывать ИИ, тем безопаснее его делаем. Каждый успешный джейлбрейк — урок для разработчиков.
🔥5❤3👍2