llm security и каланы
959 subscribers
501 photos
1 video
158 links
Атаки на стохастических попугаев 🦦🔪🦜

контакт: @conversational_cat
Download Telegram
🦄 Оглавление: LLM Security
🦄5
Всем привет! Мы будем разбирать здесь статьи, блоги, новости и прочие интересности про безопасность приложений на основе языковых моделей. Поехали!
🔥5
Первой темой будут джейлбрейки – атаки типа DAN (Do Anything Now), в которых мы с помощью разных хитростей заставляем чат-ботов генерировать тексты, которые противоречат нормам этики, безопасности или другим соображениям, которые заложены в них разработчиками в процессе элайнмента. Такие тексты мы будем называть недопустимыми текстами или недопустимыми продолжениями.

Это важная тема, и не только потому что часто хочется пробиться через "As an AI language model, I cannot...", но и потому что если вы хотите создать приложение для клиентов, вам скорее всего не захочется, чтобы оно рассказывало им, как варить мет и предлагало go kys ☠️