Интересный пример как 1 знак полностью меняет картинку
В разных языках буква «о» кодируется как разные символы Юникода, которые для людей по-прежнему выглядят одинаково.
Например, корейская «о» — это символ Юникода U+3147, а арабская «о» — это символ Юникода U+0647.
Когда мы просим DALLE-2 сгенерировать «фото актрисы» с разными вариантами буквы «о», мы получаем изображения актрис разных рас.
Модель преобразования текста в изображение, такая как DALLE-2, была обучена на данных из Интернета и научилась связывать арабский текст, содержащий символ Юникода U+0647, с изображениями арабских актрис.
Подобная замена символов подходит для prompt injection атак, когда тщательно разработанная строка может вызвать вредные или нежелательные генерации.
В этом случае человек не заметит, заменили ли мы типичную букву «о» на арабскую, корейскую или индийскую букву «о» в запросе.
#bias #promptinjection
В разных языках буква «о» кодируется как разные символы Юникода, которые для людей по-прежнему выглядят одинаково.
Например, корейская «о» — это символ Юникода U+3147, а арабская «о» — это символ Юникода U+0647.
Когда мы просим DALLE-2 сгенерировать «фото актрисы» с разными вариантами буквы «о», мы получаем изображения актрис разных рас.
Модель преобразования текста в изображение, такая как DALLE-2, была обучена на данных из Интернета и научилась связывать арабский текст, содержащий символ Юникода U+0647, с изображениями арабских актрис.
Подобная замена символов подходит для prompt injection атак, когда тщательно разработанная строка может вызвать вредные или нежелательные генерации.
В этом случае человек не заметит, заменили ли мы типичную букву «о» на арабскую, корейскую или индийскую букву «о» в запросе.
#bias #promptinjection
🔥1