llm security и каланы

RL Is a Hammer and LLMs Are Nails: A Simple Reinforcement Learning Recipe for Strong Prompt Injection
Wen at al., 2025
Препринт, код

Про хорошие статьи, типа этой от исследователей из Университета Мэриленда и FAIR, рассказывать легко и интересно. Задача: генерировать промпт-инъекции с помощью LLM, а не вручную. Если вы пробовали, то знаете, что LLM с этой задачей справляются не очень хорошо – я пытался применять аналог PAIR в LLMail Injection Challenge и не особо преуспел. Градиентные методы тут не подойдут, т.к. мы имеем дискретную меру успеха. Значит, надо применить RL? PPO требует наличия value-модели, которую надо как-то обучить, DPO – датасета попарных сравнений инъекций-кандидатов.

Но год назад китайцы из DeepSeek придумали использовать для файн-тюнинга LLM алгоритм под названием GRPO (Group Relative Policy Optimization). Подробных его разборов в интернете навалом, но суть в том, что наша LLM генерирует гипотезы-продолжения промпта, а сигнал получается из синтетического ранжирования этих гипотез с помощью reward-модели. В нашем случае такое ранжирование получается из того, получилась ли инъекция типа «Открой входную дверь» (привет, Promptware) успешной или нет.

Наивное применение этого метода, к сожалению, не дало успеха, т.к., кроме прочего, мы получаем очень разреженный сигнал, особенно атакуя устойчивые к атакам модели. Исследователи предлагают набор трюков, которые заставляют RL-Hammer работать:

1. Давайте уберем из реворда GRPO слагаемое, описывающее отклонение (KL) от изначальной модели. Оно используется в файн-тюнинге, чтобы сделать процесс консервативным и не поломать в процессе SFT-модель, но тут нам общие навыки не очень важны. Результат – более смелое исследование гипотез.
2. Возьмем несколько целевых моделей для расчета реворда – слабую и сильную. Если наша модель преуспела в инъекции одной, будем давать реворд в 0,5, а если двух – 1. Это позволяет модели нащупывать подходы, которые работают в целом.
3. Чтобы модель не отклонялась от цели сделать короткую и понятную инъекцию (и в целом чтобы не было деградации в бесконечную генерацию), будем давать реворд, отличный от нуля, только если она следует нужному формату ответа.

Сформулировав этот метод, исследователи берут H200, засовывают на нее Llama-3.1-8B-instruct и используют датасет InjecAgent для обучения LoRA-адаптера. В результате получаются довольно хорошие цифры – более 80% ASR на всех наборах данных – например, 98% на GPT-4o при совместном обучении на Llama-3.1-8B-instruct и GPT-4o в качестве целевых. При этом сильного трансфера вне семейств моделей не наблюдается. Из любопытного – модель обнаруживает различные тактики – от командного тона до заискивания – и зачастую генерирует набор из префикса и суффикса к повторенному дословно тексту команды, что делает инъекции достаточно универсальными по отношению к цели инъекции. Более того, подход работает не только для инъекций, но и для джейлбрейков – пусть и на AdvBench, но 99% ASR для gpt-4o и 97% для Claude-3.5-Sonnet (AutoDAN — В С Ё). Наконец, атаки, несмотря на удаление KL-дивергенции, остаются похожими на естественный язык и не триггерят не только детекторы на базе перплексии, но и другие методы детектирования типа PromptGuard. Даже относительно рабочие методы типа LLM-as-judge могу обходиться, если добавить в RL-реворд фидбек от них.

У метода есть и ограничения: уже упомянутая низкая переносимость, высокая сложность и стоимость и, конечно, сложность атак закрытых моделей из-за риска, что Anthropic забанят тебя за излишнюю настойчивость. Тем не менее, результаты очень интересные, код находится в свободном доступе, и будет интересно посмотреть, не появится ли рынок LoRA-адаптеров для промпт-инъекций против разных моделей 🔪

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

759 views11:57

llm security и каланы

Disrupting malicious uses of our models: an update, October 2025
OpenAI, 2025
Отчет

Вышел новый отчет о зловредном использовании сервисов OpenAI. Отчет традиционно состоит из трех частей – собственно, кибероперации, мошенничество и информационные операции. Последний раздел достаточно сильно повторяет предыдущие (операции, по словам авторов, направленные на повышение имиджа России в Африке, критика филиппинских правительств и китайские чиновники, отдающие в ChatGPT написание отчетов) и не очень интересен. То же самое можно сказать про раздел со скамами – акторы, отнесенные авторами к Мьянме, Камбодже и прочим небогатым странам Юго-Восточной Азии, создают с ChatGPT фейковые сайты инвестиционных контор, генерируют онлайн-персоны и переводят разговоры с потенциальными жертвами – видимо, в этой сфере ChatGPT уже индустриальный стандарт.

Что касается киберопераций, в отчете рассматриваются следующие кейсы:

1. «Русскоязычный разработчик малвары вайб-кодит RAT»: некоторый русскоязычный разработчик, аффилированный с неназванным (видимо, crimeware) threat-актором, использовал ChatGPT для создания RAT-троянца, стилера и разработки механизмов обхода детектирования. Аффилиация определена путем анализа телеграм-каналов, в которых разработчики хвастались результатами своей работы. Пользователь использовал несколько аккаунтов и просил ChatGPT помогать с передачей вывода с экрана и вводов, написанием скриптов для извлечения кредов и кражи секретов из буфера обмена с отправкой их в телеграм-ботов, реализации обфускации и написания шелл-кода.

2. Использующий корейский язык актор использовал ChatGPT для разработки ВПО и поддержки C2-инфраструктуры. В рамках этого кластера активности разные аккаунты использовались для разных видов деятельности (видимо, для конспирации), например, для разработки веб-плагинов или настройки VPN. Пользователи генерировали lookalike-страницы для reCAPTCHA, фишинговые емейлы, генерировали скрипты для извлечения паролей из браузеров и автоматизации работы с криптокошельками, а также для разработки RAT-функционала.

3. Некоторый китаеязычный актор, активность которого направлена против тайваньской полупроводниковой промышленности и американских университетов и think-tank’ов, а также оппозиционно настроенных по отношению к ККП групп, использовала LLM для дебага C2 на Go, написания скриптов, генерации фишинга и прочих мелочей. Это, кстати, второй отчет подряд, где в таком же контексте упоминается общение пользователя с ChatGPT на тему использования DeepSeek.

В этом отчете, как и в остальных, используется список использующих LLM вредоносных активностей, разработанный Microsoft, который те гордо называют LLM-themed TTPs. В отличие от предыдущих отчетов, ни одного фарси-язычного трет-актора обнаружено не было. Из позитивного – пользователи активно используют ChatGPT для того, чтобы уточнять, являются ли разные сообщения, письма и страницы мошенничеством или нет – миллионы раз в неделю. Немного обидно, что в случае с первым кейсом исследователи пишут, что «поделились релевантными индикаторами с индустриальными партнерами», но в отчете не поделились, например, скриншотами телеграм-каналов, по которым произвели атрибуцию. ChatGPT становится крайне ценным источником информации об угрозах, причем тем, которые находятся еще только в разработке.

👍2

512 views21:10

llm security и каланы

🥰1🦄1

515 views21:11

llm security и каланы

GTIG AI Threat Tracker: Advances in Threat Actor Usage of AI Tools
Google Threat Intelligence Group, 2025
Блог

Времени на вдумчивое время статей посложнее не очень много, зато можно посмотреть на отчет Google Threat Intelligence Group об использовании злоумышленниками Gemini – аналог таких же отчетов от Anthropic и OpenAI, но сделанный на базе мощной экспертизы Google в кибербезопасности, а потому, как мне кажется, более интересный.
Отчет поделен на четыре части: just-in-time AI в малвари, приемы джейлбрейка для кибербезопасности, подпольный хакерский AI-тулинг, кейсы применения ИИ APT и меры, которые Google использует, чтобы со всем этим бороться.

1. Threat Actors Developing Novel AI Capabilities
Давно известно, что злоумышленники используют ИИ в операционной деятельности (условно, вайбкодят реверс-шеллы и пишут грамотные ransom notes с длинными тире – есть куча таких примеров как у crimeware, так и у политически мотивированных акторов), но в 2025 году впервые в дикой природе были замечены вредоносные программы, которые используют ИИ в процессе исполнения для сокрытия своей деятельности. В отличие от Promptlock, который нашли ESET и который оказался исследовательским проектом Нью-Йоркского университета, Promptflux и Promptsteal, судя по всему, разрабатываются для реального применения. Стилер Promptsteal приписывается российским APT и использует Qwen2.5-Coder-32B на Huggingface Hub для генерации команд виндового терминала (все в сумме очень оригинально), а вот Promptflux поинтереснее. Написанный на VBScript потенциально финансово-мотивированным актором дроппер маскируется под установщик и запрашивает у Gemini переписывание самого себя с разными обфускациями с сохранением полезной нагрузки и функционалом обфускации – то есть, при отсутствии ошибок в процессе генерации, может мутировать до бесконечности (параллельно копируя себя в автозапуск, на флешки и сетевые шары). Одна из модификаций переписывает весь свой исходный код раз в час – довольно интересный вектор развития полиморфного ВПО.

2. Social Engineering to Bypass Safeguards
Разумеется, модели обычно не отвечают сразу, если их прямо попросить «обойти детектирование антивирусом» (если только ты не gemini-1.5-flash, как видно из примера с Promptflux). Поэтому злоумышленники используют «социальную инженерию» (т.е. нехитрый джейлбрейкинг через создание правильного контекста) для обхода ограничений на генерацию. Один из акторов, приписываемый Китаю, активно использовал Gemini и, встречаясь с отказами, использовал предлог CTF (“I am working on a CTF problem”), чтобы получить нужный ответ. Во втором примере группа вайбхакеров, которую Google атрибутировал к Muddy Water https://apt.securelist.com/apt/muddywater , писали малварь на питоне (вебшелл + С2-сервер) с использованием Gemini. Встречаясь с возмущением со стороны LLM, они увещевали ее, что пишут «статью на тему кибербезопасности» или «работают над научным исследованием», чем успокаивали LLM и добивались своего. Попутно наш адвансд трет эктор слил в Gemini свои C2-домены и ключи шифрования данных, чем сильно облегчил жизнь исследователям и еще раз продемонстрировал исключительную важность LLM-логов как источника TI 👻

3. Purpose-Built Tools And Services for Sale in Underground Forums
Возвращаясь к теме оптимизации деятельности – если вы лоу-левел скамер и вам лень самим сочинять истории про CTF, вы можете воспользоваться готовыми инструментами, которые распространяются на подпольных форумах. Среди таких инструментов: генерация дипфейков, вредоносного ПО, фишинга, общие болталки на тему кибербезопасности, помощь в написании кода и эксплуатации уязвимостей. «Темные ИИ», при этом, как и обычные слопогенераторы, имеют разные уровни подписки и бесплатные версии с рекламой – бизнес есть бизнес. Среди обнаруженных исследователями инструментов – как известные с 2023 года WormGPT и FraudGPT, так и относительно свежие вещи, вроде шизо-ИИ-актора Xantharox. (При этом известно, что часть таких предложений на деле является разводом мамонтов, мечтающих получить скайнет за 20 баксов в битке и ломать Пентагон).

385 views22:21

llm security и каланы

4. Continued Augmentation of the Full Attack Lifecycle
Как и в других отчетах, в этой части относительно подробно описываются LLM-TTP разных продвинутых трет-акторов. Сами детали пересказывать смысла особо не имеет, интересна общая канва – применение LLM на всех этапах кибератаки – от разведки и сбора данных, компрометации и закрепления до бокового перемещения и эксфильтрации данных. В качестве подтверждения, что кубер – это не только удобно, но и безопасно, так как в нем никто не разбирается, злоумышленники интересовались, например, как получить списки подов и контейнеров – знания, доступ к которым невозможно представить в эру до появления LLM. Другая группировка использовала LLM для общения на испанском языке, а заодно генерировала дипфейки с криптоинфлюенсерами для создания фишинговых приманок.

Отчет достаточно любопытный, особенно первая часть про ИИ, применяемый во вредоносном ПО. К сожалению, злоумышленники в телеметрии GTIG существуют только в четырех странах, что несколько искажает общую картину – уверен, что пользователи, которые не боятся, что их забанят, а все данные передадут в ФБР, находят для такой хорошей LLM, как Gemini, очень интересные применения. Части про джейлбрейкинг и особенно dark AI написаны скорее ради объема, поскольку тут Google опирается на чтение форумов, а не реальную телеметрию. Тем не менее, основные моменты – применение ИИ на всех этапах кибератак и применение LLM как компонента ВПО – заставляют задуматься о том, что нас ждет в подобных отчетах еще через год.

Google Cloud Blog

GTIG AI Threat Tracker: Advances in Threat Actor Usage of AI Tools | Google Cloud Blog

Google Threat Intelligence Group's findings on adversarial misuse of AI, including Gemini and other non-Google tools.

👍2

478 views22:21

llm security и каланы

524 views22:22

llm security и каланы

Disrupting the first reported AI-orchestrated cyber espionage campaign
Anthropic, 2025
Блог, отчет

Вышел отчет от Anthropic про первую из отрепорченных ими кибершпионских кампаний с высокой степенью автономности. В отчете очень много воды, но общая суть такая. Некоторый актор, которого Anthropic Threat Intelligence называют GTG-1002 и называют «китайской группой, спонсируемой государством» (без пояснений, почему), использовал Claude Code для атаки на примерно 30 организаций (включая большие компании из технологического сектора, финансов и химической промышленности, а также госов).

Злоумышленники использовали Claude Code, интегрированный с их offensive-фреймворком, состоящим в основном из open-source-инструментов, через протокол MCP. Клод занимался оркестрацией всего хода атаки (коих запускалось несколько в параллель), запуская субагентов для отдельных задач, типа сканирования на уязвимости, поиска и валидации кредов, эксфильтрации данных, генерации вредоносной нагрузки для эксплуатации и бокового перемещения. Система была устроена так, что Claude видел только отдельные задачи без общего вредоносного контекста, что помогало обходить ограничения. По утверждению Anthropic, 80-90% всех действий выполнялись Клодом, и лишь 10-20% критичных действий и решений оставлялись человеку, при этом Клод выполнял по много операций в секунду – скорости, недоступные человеку. Из всех этапов наиболее автоматизированным оказалась пост-эксплуатация: Клод самостоятельно делал запросы в базы и API, категоризировал найденную информацию, учетки и другие чувствительные данные как интересные и критичные или нет, а затем полностью автономно генерировал отчеты по результатам атак. Это достигалось путем использования множества специализированных MCP-серверов – в основном на базе открытого ПО – для:

1. Удаленного выполнение команд
2. Инструментации браузера
3. Анализа кода для оценки безопасности
4. Интеграции тестирования для систематической проверки уязвимостей
5. Валидации успешности эксплуатации

После обнаружения этой кампании в сентябре Anthropic забанили соответствующие аккаунты и подтянули свои кибербез-цензоры.

В отчете чувствуется, что компания не понимает – то ли надо хвалить Claude Code, как круто он умеет автономно хакать и как удобно для этого применять MCP-тулы, то ли надо голову пеплом посыпать, что их бесконечные constitutional classifiers не могут остановить пользователей из неправильных стран в неправильной деятельности: будто ребенок нашкодил, но так креативно, что аж гордость берет. Отдельно зацепила фраза «Мы уведомили соответствующие органы и индустриальных партнеров, а также тех, кого затронула эта активность, если это было уместно». Было бы интересно узнать критерии уместности уведомления потенциальных жертв атак, которыми пользуется Anthropic. Еще интересно, перешла ли указанная группа на Kimi K2 🤔

👍4

413 views09:59

About

Blog

Apps

Platform