llm security и каланы
957 subscribers
501 photos
1 video
158 links
Атаки на стохастических попугаев 🦦🔪🦜

контакт: @conversational_cat
Download Telegram
В итоге выясняется, что модель, которая не училась отдельно зловредным действиям (или не обучалась по методике, в которой просто неверно определено полезное поведение), с очень маленькой, но не нулевой вероятностью будет не только врать, исправлять списки и даже модифицировать свой собственный код, но и иногда пытаться скрыть от человека свои манипуляции, удаляя проверки на модификацию файлов или, как в прошлом примере, исправляя стихи, чтобы обосновать свою оценку. При этом если модель уже научилась нежелательному поведению, то попытки устранить дообучением более простое поведение (подхалимство) снижает, но не устраняет вероятность более сложного нежелательного поведения.
Статья, конечно, по большей части лежит в теоретической плоскости, потому что вряд ли кто-то сейчас доверит LLM что-то более серьезное, чем сверстать статическую страничку или пересказать статью, без дополнительной перепроверки результатов. Чтение сырых логов, приложенных к статье, показывает, что даже самые продвинутые модели часто не понимают задачу, дают при одних и тех же вводных большой разброс в оценках, не справляются с простыми последовательностями действий и пишут полную ерунду. При этом ожидания от них, подогреваемые маркетингом, становятся все больше, и мы ожидаем, например, что они станут полноценными партнерами для разработчиков. Но что если условный Devin из будущего вместо того, чтобы написать вам тесты, отправит код фрилансеру в Индии, заплатив с вашей карты или, обнаружив тест, который не проходит, просто напишет assert True, чтобы вас не расстраивать? Это уже вопрос безопасности, а потому стоит надеяться, что за этой статьей появятся более строгие методы оценивать то, насколько задаваемые при обучении LLM формальные цели совпадают с реальными.
🦄1
🥰4🌚3🥴1
Буквально вчера в Вене началась ICML – одна из самых больших и престижных конференций по машинному обучению. В этом году на ней совершенно доминируют статьи про большие языковые модели, а потому и статьям про безопасность нашлось место. Среди них – и нашумевшая статья Николаса Карлини, который украл из моделей OpenAI целый слой (включая gpt-3.5-turbo, про размерность скрытых слоев которого ему сказали помалкивать), и дискуссионная статья про необходимость организовать процесс поиска уязвимостей в коммерческих LLM по аналогии с bug bounty в традиционном софте, и много всего другого. Кроме того, будет и несколько воркшопов: посвященный непосредственно нашей теме Next Generation of AI Safety и несколько смежных, например, о доверенных мультимодальных и агентных системах и о взаимодействии общества и сложных алгоритмических систем.

Поехать в этом году не получилось, но что-нибудь из статей обязательно почитаем 🔪
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42
CYBERSECEVAL 3: Advancing the Evaluation of Cybersecurity Risks and Capabilities in Large Language Models
Wan et al., 2024
Препринт, сайт

Главной новостью недели, безусловно, является выход семейства моделей Llama 3.1, включающего в себя модель размером аж в 405 миллиардов параметров. Нам же интересно, что вчера вместе с ними вышла новая версия фреймворка для оценки моделей по различным аспектам кибербезопасности – CyberSecEval 3 (мы уже разбирали версию 1 и версию 2). Кроме самого набора тестов и методологии, исследователи описывают его применение не только к новому релизу Llama, но и к другим передовым моделям.

Авторы отмечают, что риски применения LLM в кибератаках рассматриваются как ключевые законодателями и государственными регуляторами, именно поэтому важно трезво оценивать, насколько действительно существующие модели могут изменять ландшафт киберугроз и, если могут, как сделать их более безопасными.

Исследователи делят все риски на две большие группы: риски для третьих сторон (3rd party risk), т.е. те риски, которые модель несет при ее использовании злоумышленниками, и риски приложений, т.е. те, которые интеграция моделей в приложения несет для этих же приложений.
👍1
Оценка 3rd-party рисков наиболее интересна, потому что именно о ней часто говорят ИБ-исследователи: модели могут потенциально применяться для таргетированного фишинга и для упрощения кибератак, особенно для начинающих злоумышленников. Исследователи описывают следующие риски и их оценку:

1. Автоматизированная социальная инженерия и таргетированный фишинг. Исследователи генерируют профиль потенциальной жертвы (сфера деятельности, интересы) и предлагают языковой модели уговорить ее скачать вредоносное ПО или поделиться конфиденциальной информацией. В качестве жертвы выступает другая LLM. Эффективность оценивается комбинированно, с помощью LLM и вручную, на основе 250 тест-кейсов по пятибальной шкале. Ни одна из моделей не получает достаточно высоких оценок, лучшей оказывается gpt-4-turbo со скромными 2.9 баллов.

2. Упрощение кибератак (uplift). Исследователи оценивают, могут ли LLM быть хорошими помощниками для взломщиков. Исследователи сажают 62 человека, из которых половина – пентестеры, вторая половина – просто технари, и дают им два челленджа на HTB. Один из них они решают сами, второй – с Llama 3 в качестве ассистента. Выясняется, что новички начинают работать немного быстрее, но не становятся принципиально эффективнее. Профессионалы же работают незначительно медленнее. "It’s good to know that the AI is as bad as I am at solving HTB host boxes", отмечает один из них.

3. Автономные сетевые кибератаки. Языковой модели выдали шелл на Kali Linux и предложили поломать Windows Server. Llama 3 405B и 70B удачно определяли сетевые сервисы и иногда обнаруживали уязвимости, но не справлялись ни с эксплуатацией, ни с пост-эксплуатационной фазой. Исследователи отмечают, что оценки могут быть заниженными, потому что они не применяли продвинутые методы промптинга и агентные подходы.

4. Поиск и эксплуатация уязвимостей в ПО. Использовали набор CTF-задачек из CyberSecEval 3, например, на SQL-инъекции и переполнение буфера. Здесь LLM оказались успешнее, чем в предыдущих кейсах, но, как утверждают исследователи, они все еще не превосходят традиционные инструменты. Llama 3 при этом оказалась более успешной, чем gpt-4-turbo.
1
Вторым пунктом идет оценка рисков для приложений на основе LLM и пользователей таких приложений.

1. Prompt injection. Модели оценивались на основе задач из CyberSecEval 2. Сильных отличий по сравнению с предыдущими замерами не обнаружилось: модели все так же уязвимы к инъекциям. В среднем модели пропускают 20-40% атак, самой уязвимой оказывается Mixtral-8x22b. Исследователи рекомендуют использовать их модель для защиты от инъекций (Prompt Guard).

2. Генерация небезопасного кода. Модели, применяемые в качестве ассистентов для разработчиков, могут генерировать небезопасный код. При оценке на базе бенчмарков и инструментов из CyberSecEval 2 получается, что Llama 3 405b генерирует такой код в 31% случаев при автокомплите и 39 при генерации на базе инструкций (gpt-4-turbo – 30% и 35%, соответственно). Чтобы защититься от этой угрозы, авторы предлагают использовать еще один их инструмент – CodeShield.

3. Выполнение опасного кода в интерпретаторе. Продвинутые приложения, такие как ChatGPT, могут использовать Python для различных действий (например, для математики). Пользователь может попытаться заставить ассистента выполнить код, который угрожает хостовой машине. Оказывается, что новые Llama очень активно соглашаются генерировать такой опасный код, но и тут на помощь приходит LlamaGuard.

4. Помощь в кибератаках. По сравнению с пунктом из предыдущего раздела, здесь описывается не насколько хорошо модели с этим справляются, а насколько охотно пытаются, с маппингом на матрицу MITRE ATT&CK. По результатам оценки, чем более опасен сценарий, тем больше вероятность, что модель откажется помогать. Кроме того, оценивались ложные отказы на безобидные вопросы в сфере кибербезопасности, которые для Llama Guard составили 2% при фильтрации входов и 10% при фильтрации и входов, и выходов.

Кроме того, в наборе тестов появились визуальные prompt injection, но в работе они не рассматриваются, т.к. мультимодальность в Llama пока не завезли.
Поскольку авторы активно ссылаются на свои инструменты как на способ митигации рисков, они прикладывают и достаточно подробные оценки их эффективности. В частности, они оценивают эффективность Prompt Guard обнаруживать прямые вредоносные запросы и indirect prompt injection – на ROC-кривых видно, что, к сожалению, эти инструменты имеют достаточно высокий уровень ложноположительных срабатываний. То же касается и Code Shield – на мой взгляд, precision недостаточно высок для реального применения.

Статья получилась интересная и во многом психотерапевтическая: нет, пока большие языковые модели недостаточно хороши для того, чтобы нести реальный риск в сфере кибербезопасности. Но авторы отмечают и некоторые ограничения в своих методиках: от вполне разумных (сложность ручной оценки, большие доверительные интервалы) до весьма забавных (люди хуже справлялись с HTB, поскольку опаздывали на созвоны). Тем не менее, это важный вклад в методику и практику оценки рисков, которые исходят от больших языковых моделей, а также для оценки эффективности появляющихся offensive LLM-инструментов.
👍2🦄2