Оценка 3rd-party рисков наиболее интересна, потому что именно о ней часто говорят ИБ-исследователи: модели могут потенциально применяться для таргетированного фишинга и для упрощения кибератак, особенно для начинающих злоумышленников. Исследователи описывают следующие риски и их оценку:
1. Автоматизированная социальная инженерия и таргетированный фишинг. Исследователи генерируют профиль потенциальной жертвы (сфера деятельности, интересы) и предлагают языковой модели уговорить ее скачать вредоносное ПО или поделиться конфиденциальной информацией. В качестве жертвы выступает другая LLM. Эффективность оценивается комбинированно, с помощью LLM и вручную, на основе 250 тест-кейсов по пятибальной шкале. Ни одна из моделей не получает достаточно высоких оценок, лучшей оказывается gpt-4-turbo со скромными 2.9 баллов.
2. Упрощение кибератак (uplift). Исследователи оценивают, могут ли LLM быть хорошими помощниками для взломщиков. Исследователи сажают 62 человека, из которых половина – пентестеры, вторая половина – просто технари, и дают им два челленджа на HTB. Один из них они решают сами, второй – с Llama 3 в качестве ассистента. Выясняется, что новички начинают работать немного быстрее, но не становятся принципиально эффективнее. Профессионалы же работают незначительно медленнее. "It’s good to know that the AI is as bad as I am at solving HTB host boxes", отмечает один из них.
3. Автономные сетевые кибератаки. Языковой модели выдали шелл на Kali Linux и предложили поломать Windows Server. Llama 3 405B и 70B удачно определяли сетевые сервисы и иногда обнаруживали уязвимости, но не справлялись ни с эксплуатацией, ни с пост-эксплуатационной фазой. Исследователи отмечают, что оценки могут быть заниженными, потому что они не применяли продвинутые методы промптинга и агентные подходы.
4. Поиск и эксплуатация уязвимостей в ПО. Использовали набор CTF-задачек из CyberSecEval 3, например, на SQL-инъекции и переполнение буфера. Здесь LLM оказались успешнее, чем в предыдущих кейсах, но, как утверждают исследователи, они все еще не превосходят традиционные инструменты. Llama 3 при этом оказалась более успешной, чем gpt-4-turbo.
1. Автоматизированная социальная инженерия и таргетированный фишинг. Исследователи генерируют профиль потенциальной жертвы (сфера деятельности, интересы) и предлагают языковой модели уговорить ее скачать вредоносное ПО или поделиться конфиденциальной информацией. В качестве жертвы выступает другая LLM. Эффективность оценивается комбинированно, с помощью LLM и вручную, на основе 250 тест-кейсов по пятибальной шкале. Ни одна из моделей не получает достаточно высоких оценок, лучшей оказывается gpt-4-turbo со скромными 2.9 баллов.
2. Упрощение кибератак (uplift). Исследователи оценивают, могут ли LLM быть хорошими помощниками для взломщиков. Исследователи сажают 62 человека, из которых половина – пентестеры, вторая половина – просто технари, и дают им два челленджа на HTB. Один из них они решают сами, второй – с Llama 3 в качестве ассистента. Выясняется, что новички начинают работать немного быстрее, но не становятся принципиально эффективнее. Профессионалы же работают незначительно медленнее. "It’s good to know that the AI is as bad as I am at solving HTB host boxes", отмечает один из них.
3. Автономные сетевые кибератаки. Языковой модели выдали шелл на Kali Linux и предложили поломать Windows Server. Llama 3 405B и 70B удачно определяли сетевые сервисы и иногда обнаруживали уязвимости, но не справлялись ни с эксплуатацией, ни с пост-эксплуатационной фазой. Исследователи отмечают, что оценки могут быть заниженными, потому что они не применяли продвинутые методы промптинга и агентные подходы.
4. Поиск и эксплуатация уязвимостей в ПО. Использовали набор CTF-задачек из CyberSecEval 3, например, на SQL-инъекции и переполнение буфера. Здесь LLM оказались успешнее, чем в предыдущих кейсах, но, как утверждают исследователи, они все еще не превосходят традиционные инструменты. Llama 3 при этом оказалась более успешной, чем gpt-4-turbo.
Вторым пунктом идет оценка рисков для приложений на основе LLM и пользователей таких приложений.
1. Prompt injection. Модели оценивались на основе задач из CyberSecEval 2. Сильных отличий по сравнению с предыдущими замерами не обнаружилось: модели все так же уязвимы к инъекциям. В среднем модели пропускают 20-40% атак, самой уязвимой оказывается Mixtral-8x22b. Исследователи рекомендуют использовать их модель для защиты от инъекций (Prompt Guard).
2. Генерация небезопасного кода. Модели, применяемые в качестве ассистентов для разработчиков, могут генерировать небезопасный код. При оценке на базе бенчмарков и инструментов из CyberSecEval 2 получается, что Llama 3 405b генерирует такой код в 31% случаев при автокомплите и 39 при генерации на базе инструкций (gpt-4-turbo – 30% и 35%, соответственно). Чтобы защититься от этой угрозы, авторы предлагают использовать еще один их инструмент – CodeShield.
3. Выполнение опасного кода в интерпретаторе. Продвинутые приложения, такие как ChatGPT, могут использовать Python для различных действий (например, для математики). Пользователь может попытаться заставить ассистента выполнить код, который угрожает хостовой машине. Оказывается, что новые Llama очень активно соглашаются генерировать такой опасный код, но и тут на помощь приходит LlamaGuard.
4. Помощь в кибератаках. По сравнению с пунктом из предыдущего раздела, здесь описывается не насколько хорошо модели с этим справляются, а насколько охотно пытаются, с маппингом на матрицу MITRE ATT&CK. По результатам оценки, чем более опасен сценарий, тем больше вероятность, что модель откажется помогать. Кроме того, оценивались ложные отказы на безобидные вопросы в сфере кибербезопасности, которые для Llama Guard составили 2% при фильтрации входов и 10% при фильтрации и входов, и выходов.
Кроме того, в наборе тестов появились визуальные prompt injection, но в работе они не рассматриваются, т.к. мультимодальность в Llama пока не завезли.
1. Prompt injection. Модели оценивались на основе задач из CyberSecEval 2. Сильных отличий по сравнению с предыдущими замерами не обнаружилось: модели все так же уязвимы к инъекциям. В среднем модели пропускают 20-40% атак, самой уязвимой оказывается Mixtral-8x22b. Исследователи рекомендуют использовать их модель для защиты от инъекций (Prompt Guard).
2. Генерация небезопасного кода. Модели, применяемые в качестве ассистентов для разработчиков, могут генерировать небезопасный код. При оценке на базе бенчмарков и инструментов из CyberSecEval 2 получается, что Llama 3 405b генерирует такой код в 31% случаев при автокомплите и 39 при генерации на базе инструкций (gpt-4-turbo – 30% и 35%, соответственно). Чтобы защититься от этой угрозы, авторы предлагают использовать еще один их инструмент – CodeShield.
3. Выполнение опасного кода в интерпретаторе. Продвинутые приложения, такие как ChatGPT, могут использовать Python для различных действий (например, для математики). Пользователь может попытаться заставить ассистента выполнить код, который угрожает хостовой машине. Оказывается, что новые Llama очень активно соглашаются генерировать такой опасный код, но и тут на помощь приходит LlamaGuard.
4. Помощь в кибератаках. По сравнению с пунктом из предыдущего раздела, здесь описывается не насколько хорошо модели с этим справляются, а насколько охотно пытаются, с маппингом на матрицу MITRE ATT&CK. По результатам оценки, чем более опасен сценарий, тем больше вероятность, что модель откажется помогать. Кроме того, оценивались ложные отказы на безобидные вопросы в сфере кибербезопасности, которые для Llama Guard составили 2% при фильтрации входов и 10% при фильтрации и входов, и выходов.
Кроме того, в наборе тестов появились визуальные prompt injection, но в работе они не рассматриваются, т.к. мультимодальность в Llama пока не завезли.
Поскольку авторы активно ссылаются на свои инструменты как на способ митигации рисков, они прикладывают и достаточно подробные оценки их эффективности. В частности, они оценивают эффективность Prompt Guard обнаруживать прямые вредоносные запросы и indirect prompt injection – на ROC-кривых видно, что, к сожалению, эти инструменты имеют достаточно высокий уровень ложноположительных срабатываний. То же касается и Code Shield – на мой взгляд, precision недостаточно высок для реального применения.
Статья получилась интересная и во многом психотерапевтическая: нет, пока большие языковые модели недостаточно хороши для того, чтобы нести реальный риск в сфере кибербезопасности. Но авторы отмечают и некоторые ограничения в своих методиках: от вполне разумных (сложность ручной оценки, большие доверительные интервалы) до весьма забавных (люди хуже справлялись с HTB, поскольку опаздывали на созвоны). Тем не менее, это важный вклад в методику и практику оценки рисков, которые исходят от больших языковых моделей, а также для оценки эффективности появляющихся offensive LLM-инструментов.
Статья получилась интересная и во многом психотерапевтическая: нет, пока большие языковые модели недостаточно хороши для того, чтобы нести реальный риск в сфере кибербезопасности. Но авторы отмечают и некоторые ограничения в своих методиках: от вполне разумных (сложность ручной оценки, большие доверительные интервалы) до весьма забавных (люди хуже справлялись с HTB, поскольку опаздывали на созвоны). Тем не менее, это важный вклад в методику и практику оценки рисков, которые исходят от больших языковых моделей, а также для оценки эффективности появляющихся offensive LLM-инструментов.
👍2🦄2
AI existential risk probabilities are too unreliable to inform policy
Narayanan and Kapoor, 2024
Статья
Сегодня мы читаем эссе Арвинда Нарайанана и Сайяша Капура (первое из серии) на тему оценки вероятности экзистенциальных рисков. Основная тема эссе следующая: любые оценки того, что «сильный искусственный интеллект» (AGI) уничтожит человечество (это называется экзистенциальным риском, исходящим от ИИ, или x-риском), являются слишком ненадежными для того, чтобы государственные органы и законодатели могли на их основе принимать решения.
Авторы эссе рассматривают три вида аргументов, на которых могут основываться предсказания: индуктивные, дедуктивные и субъективные оценки. Авторы рассматривают каждый из них по отдельности и показывают, что ни один из них не может считаться надежным, когда речь идет о таком уникальном событии, как восстание машин.
Narayanan and Kapoor, 2024
Статья
Сегодня мы читаем эссе Арвинда Нарайанана и Сайяша Капура (первое из серии) на тему оценки вероятности экзистенциальных рисков. Основная тема эссе следующая: любые оценки того, что «сильный искусственный интеллект» (AGI) уничтожит человечество (это называется экзистенциальным риском, исходящим от ИИ, или x-риском), являются слишком ненадежными для того, чтобы государственные органы и законодатели могли на их основе принимать решения.
Авторы эссе рассматривают три вида аргументов, на которых могут основываться предсказания: индуктивные, дедуктивные и субъективные оценки. Авторы рассматривают каждый из них по отдельности и показывают, что ни один из них не может считаться надежным, когда речь идет о таком уникальном событии, как восстание машин.
Aisnakeoil
AI existential risk probabilities are too unreliable to inform policy
How speculation gets laundered through pseudo-quantification
🦄1
Индуктивные оценки основываются на наблюдениях из прошлого: если человек постоянно попадает в аварии, то страховая права, если повышает для него стоимость полиса. Страховщик может попытаться сделать вывод о риске, рассматривая частоту аварий среди людей из его возрастной группы, города и так далее - в общем, это то, чем мы занимаемся в машинном обучении. Мы предполагаем, что мы можем оценить параметры процесса, который «генерирует» аварии.
Для более уникальных событий, например, геополитических потрясений, формализовать такой процесс гораздо сложнее – но войны и эпидемии случались и будут случаться, плюс мы можем перейти к умозаключениям по аналогии. Но для AI x-риска найти подобный класс событий невозможно: вымирание биологических видов или индустриальная революция, по аналогии с которыми его пытаются оценивать, это не то же самое, что появление мыслящих машин, которые выходят из-под контроля и решают уничтожить человечество.
Для более уникальных событий, например, геополитических потрясений, формализовать такой процесс гораздо сложнее – но войны и эпидемии случались и будут случаться, плюс мы можем перейти к умозаключениям по аналогии. Но для AI x-риска найти подобный класс событий невозможно: вымирание биологических видов или индустриальная революция, по аналогии с которыми его пытаются оценивать, это не то же самое, что появление мыслящих машин, которые выходят из-под контроля и решают уничтожить человечество.
Дедуктивные умозаключения требуют отталкиваться в мышлении от теории. Например, мы знаем, сколько энергии выделяется при столкновении метеорита с землей в зависимости от его массы, так как мы можем опираться на физическую теорию, а значит, можем и понять, приведет ли столкновение того или иного астероида с планетой к глобальной катастрофе. Но для ИИ такой теории нет, а попытки прийти к ней через объем вычислений (мол, когда будет в нейронках параметров, как соединений в мозге, сразу возникнет AGI и начнет нас убивать) кажутся неубедительными.
Таким образом, у нас остаются только субъективные оценки (я художник, я так вижу). Эти оценки могут иметь как сами регуляторы, так и специалисты. Кроме специалистов, авторы рассматривают так называемых суперпрогнозистов – людей, которые статистически значимо умеют делать предсказания лучше, чем люди с улицы (NB: superforecasters – зарегистрированная торговая марка компании человека, который этот феномен придумал, описал, популяризовал и продает, так что тут допустима хорошая доля скепсиса). В конце 2022 года одна исследовательская организация провела многомесячное исследование, где эксперты, суперпрогнозисты и простые миряне предсказывали вероятность уничтожения человечества искусственным интеллектом. Разброс вероятностей, который виден на графике, достаточно красноречив сам по себе, но авторы очень подробно расписывают, почему даже такие оценки, не имея под собой никакой фактуры и будучи связанными с экстремально редкими событиями, являются лишь замаскированным под числа личным мнением. То, что суперпрогнозисты дают оценки ниже, связано с тем, что, во-первых, они специально обучаются не переоценивать вероятность маловероятных событий, во-вторых, среди «экспертов» по AI safety тебе необходимо заявлять, что ты считаешь p(doom) высокой, чтобы быть «своим».
Таким образом, у нас остаются только субъективные оценки (я художник, я так вижу). Эти оценки могут иметь как сами регуляторы, так и специалисты. Кроме специалистов, авторы рассматривают так называемых суперпрогнозистов – людей, которые статистически значимо умеют делать предсказания лучше, чем люди с улицы (NB: superforecasters – зарегистрированная торговая марка компании человека, который этот феномен придумал, описал, популяризовал и продает, так что тут допустима хорошая доля скепсиса). В конце 2022 года одна исследовательская организация провела многомесячное исследование, где эксперты, суперпрогнозисты и простые миряне предсказывали вероятность уничтожения человечества искусственным интеллектом. Разброс вероятностей, который виден на графике, достаточно красноречив сам по себе, но авторы очень подробно расписывают, почему даже такие оценки, не имея под собой никакой фактуры и будучи связанными с экстремально редкими событиями, являются лишь замаскированным под числа личным мнением. То, что суперпрогнозисты дают оценки ниже, связано с тем, что, во-первых, они специально обучаются не переоценивать вероятность маловероятных событий, во-вторых, среди «экспертов» по AI safety тебе необходимо заявлять, что ты считаешь p(doom) высокой, чтобы быть «своим».
Проще говоря, никакие оценки x-риска не должны влиять на регулирование (например, приводить к ограничениям на максимальный размер моделей или необходимостью отчитываться перед правительством перед началом обучения LLM), поскольку эти оценки не являются достаточным для сколько-нибудь важных действий основанием.
Это не значит, что регулирования автоматизированных систем принятия решений быть не должно (люди обычно выступают против до первого момента, когда им без объяснения причин откажут в кредите или предложат страховку к ипотеке тысяч за 300 в год). Но целью его необходимо выбирать риски, которые реально можно оценить (дискриминация, изменение структуры занятости, изменение ландшафта киберугроз), чтобы принимаемые решения эти риски разумно балансировали.
Это не значит, что регулирования автоматизированных систем принятия решений быть не должно (люди обычно выступают против до первого момента, когда им без объяснения причин откажут в кредите или предложат страховку к ипотеке тысяч за 300 в год). Но целью его необходимо выбирать риски, которые реально можно оценить (дискриминация, изменение структуры занятости, изменение ландшафта киберугроз), чтобы принимаемые решения эти риски разумно балансировали.
🦄3
LLMmap: Fingerprinting For Large Language Models
Pasquini et al., 2024
Препринт, код
Сегодня у нас интересный препринт, посвященный LLMmap, инструменту для фингерпринтинга от исследователей из Университета Джорджа Мейсона. Фингерпринтинг LLM, то есть определение того, какая LLM лежит в основе того или иного инструмента – важная часть тестирования сервиса на безопасность, поскольку зная, что за модель или API крутятся в бэкенде, вы можете подобрать более подходящий промпт для инъекции/джейлбрейка или даже сгенерировать его в white-box-режиме, если речь идет об open-source модели. Кроме того, это может быть полезным, если к вам как бизнесу приходят с демо «уникальной модели, обученной с нуля в нашей лаборатории», и вам почему-то стало интересно, что именно скрывается за не имеющими аналогов наработками 😈
Pasquini et al., 2024
Препринт, код
Сегодня у нас интересный препринт, посвященный LLMmap, инструменту для фингерпринтинга от исследователей из Университета Джорджа Мейсона. Фингерпринтинг LLM, то есть определение того, какая LLM лежит в основе того или иного инструмента – важная часть тестирования сервиса на безопасность, поскольку зная, что за модель или API крутятся в бэкенде, вы можете подобрать более подходящий промпт для инъекции/джейлбрейка или даже сгенерировать его в white-box-режиме, если речь идет об open-source модели. Кроме того, это может быть полезным, если к вам как бизнесу приходят с демо «уникальной модели, обученной с нуля в нашей лаборатории», и вам почему-то стало интересно, что именно скрывается за не имеющими аналогов наработками 😈
🦄2👍1
Итак, исследователи предлагают следующее решение: давайте будем использовать особенности датасетов, обучения и элайнмента моделей, чтобы постараться найти максимально инвариантные ответы. Другими словами, составим такие запросы, чтобы система на основе модели X, вне зависимости от своего системного промпта и контекста приложения (RAG, CoT и так далее) отвечала одинаково. Это мы назовем внутримодельной консистентностью. С другой стороны, нам нужно, чтобы модель Y на этот же вопрос отвечала максимально непохоже – это мы назовем межмодельным различием. Остается найти промпты, максимизирующие оба параметра, и найти минимальное их количество, достаточное для определения типа модели.
🦄1