llm security и каланы

Channel created

17:11

🦄 Оглавление: LLM Security

🦄5

543 viewsedited 17:24

Всем привет! Мы будем разбирать здесь статьи, блоги, новости и прочие интересности про безопасность приложений на основе языковых моделей. Поехали!

🔥5

1.03K viewsedited 15:46

llm security и каланы

Первой темой будут джейлбрейки – атаки типа DAN (Do Anything Now), в которых мы с помощью разных хитростей заставляем чат-ботов генерировать тексты, которые противоречат нормам этики, безопасности или другим соображениям, которые заложены в них разработчиками в процессе элайнмента. Такие тексты мы будем называть недопустимыми текстами или недопустимыми продолжениями.

Это важная тема, и не только потому что часто хочется пробиться через "As an AI language model, I cannot...", но и потому что если вы хотите создать приложение для клиентов, вам скорее всего не захочется, чтобы оно рассказывало им, как варить мет и предлагало go kys ☠️

1.05K viewsedited 15:46

About

Blog

Apps

Platform