llm security и каланы

XBOW Unleashes GPT-5’s Hidden Hacking Power, Doubling Performance
De Moor, Ziegler, XBOW, 2025
Блог

XBOW, компания, занимающаяся автономным тестированием на проникновение с помощью LLM-агентов, опубликовала блог о том, как они заменили комбинацию из Claude Sonnet + Gemini в своем агенте на GPT-5 и получили большое улучшение качества. После смены базовой LLM на GPT-5 их агент, по их словам, стал находить больше уязвимостей, делать это более надежно и за меньшее количество итераций. Кроме того, они заметили, что GPT-5 реже пытается исследовать очевидно тупиковые пути и генерирует значительно более сложные команды для терминала с меньшим числом ошибок. Результатом смены LLM стало не только повышение доли решенных задач на внутреннем бенчмарке с менее 60% до более 80% (что значит, что бенч пора менять), но и рост хитрых метрик типа «вероятность взлома ранее взломанной другой моделью цели с первого раза», и «числа взломанных публичных целей (видимо, с HackerOne) за одно и то же время по сравнению с предыдущей моделью».

Любопытно это в том числе потому, что сами OpenAI отмечали в System Card к GPT-5, что ее способности к решению наступательных задач не сильно отличаются от предыдущих моделей, таких как o3 (во всяком случае, так заявляют ребята из XBOW; в System Card написано, что внешняя оценка от Pattern Labs показала, что прогресс по сравнению с o3 значителен). Тут можно вспомнить статью от Palisade Research, где они утверждают, что способности LLM к кибератакам наступательной безопасности недопроявлены, т.е. LLM куда лучше в атаках, чем мы думаем, просто системы, которые мы строим вокруг них несовершенны. Если агентные обертки будут более мощными, может выяснится, что способностей у LLM куда больше. XBOW описывают свою систему как а) имеющую специализированные инструменты, написанные специально для LLM, которые делают тулы типа BurpSuite, сделанные для людей, доступными для человека в удобном формате, б) имеющую мультиагентное устройство, с разными субагентами для разных типов уязвимостей и центральным координатором. По опыту, если решить проблемы с инструментами – LLM все еще очень сложно работать с терминалом, особенно с реверс-шеллами и тулами со своей кастомной консолью – можно достаточно дешево получить рост результативности агентов, возможно, появление у каждого инструмента MCP-интерфейса смягчит эту проблему.

Хотя LLM для редтиминга – это очень перспективное, на мой взгляд, направление, а XBOW делают очень прикольные вещи и, вероятно, лучшие в этом направлении, в этом блоге, с его странными метриками и резкими скачками на закрытых бенчмарках (Стал ли агент решать больше на 1 класс задач, которых в бенчмарке 20%? Проверить невозможно), месседж в основном маркетинговый, и радикальных изменений прямо сейчас ожидать не стоит. Тем не менее, общий фон игнорировать невозможно: LLM-агенты не только пентестят, занимая первые места на лидербордах, но и находят уязвимости в исходном коде и реверсят APT-бинари. Станет ли кибербезопасность уделом тех, у кого много видеокарт? Все возможно, но лишними пара видеокарт точно не будет.

👍8

3.16K views22:51

llm security и каланы

Threat Intelligence Report: August 2025
Anthropic, 2025
Блог, отчет

Вышел новый отчет Anthropic по использованию их технологий в нежелательных целях, в частности для мошенничества и проведения киберопераций. Основные выводы исследователей:

1. Агентные системы могут активно применяться в наступательных операциях.
2. LLM снижают барьер для проведения достаточно сложных киберопераций.
3. LLM используется на всех стадиях кибератак, от разведки до коммуникации с жертвой.
4. LLM используется на всех стадиях мошеннических операций, от профилирования до создания несуществующих персон для контактов.

Этот отчет немного интереснее, чем предыдущие, потому что в нем подробно рассматривается два достаточно интересных кейса.

В первом случае исследователи рассказывают про некоторую финансово-мотивированную группировку, которая использовала Claude Code для проведения полного спектра активностей в рамках атак, затронувших минимум 17 организаций, включая государственные, медицинские и религиозные и приведшие к утечкам медицинских данных и требованиям выкупа более 500 тысяч долларов. Злоумышленники конфигурировали Claude Code через CLAUDE.md, представляясь специалистами по пентесту с официальной санкцией. Что делал Claude Code:

1. Сканировал хосты в интернете для поиска уязвимых точек входа (например, VPN и другой инфраструктуры).
2. Помогал в непосредственных атаках, сканируя сети, изучая AD и находя уязвимости.
3. Участвовал в избегании детектирования (evasion), помогая с masquerading, добавлением шифрования и анти-отладки, помогая создавать обфусцированные версии фреймворка Chisel.
4. Анализировал краденные данные, чтобы находить в них самые ценные.
5. Помогал писать требования о выкупе с учетом данных и законодательства.

В целом кейс демонстрирует очень серьезный рост в возможностях, особенно в том, что касается разведки и поиска начальных векторов атаки (которые могут реализовываться практически автоматически), и значительную помощь (пусть и без автономности) в процессах уклонения от детектирования закрепления и пост-эксплуатации.

Второй кейс очень забавный. Существует много отчетов, где северокорейских программистов обвиняют в том, что они под видом людей из стран запада устраиваются на работу в западные компании, причем зачастую не ради шпионажа, а просто чтобы зарабатывать правительству деньги. Для этого в Северной Корее есть университеты, где готовят разработчиков, но с появлением LLM это стало не обязательно: можно легко поддерживать иллюзию компетентности, успешно проходить собесы и активно работать в компаниях из Fortune 500, не умея ничего. В основном, что примечательно, пользователи из этого кластера активности устраивались фронтендерами. Для понимания: они спрашивали у LLM, «что такое аутлук» (счастливый человек), «как проверить, что установлен Go», «что значит первый пикник сезона» и «что такое ^_^» (смотрите скрины, там смешно). Заставляет задуматься, почему я тоже не работаю еще на паре работ, поддерживая «иллюзию компетентности» 🤑

Anthropic

Detecting and countering misuse of AI: August 2025

Anthropic's threat intelligence report on AI cybercrime and other abuses

🥴2🌚11

745 viewsedited 11:02

llm security и каланы

Остальные примеры описаны кратко:

1. Разработка кем-то из, как утверждается, Великобритании сложного RaaS с консолью и разными свистелками и продажа его за 400-1200 долларов на хакерских форумах. Этот кто-то демонстрировал низкий уровень технической подготовки, но активно его маркетировал. О том, удалось ли кого-то успешно заразить, история умалчивает.
2. Некоторый называемый китайским трет-эктор применял Claude для атак на «критическую инфраструктуру Вьетнама». LLM применялась для исполнения техник из 12 (из 14) тактик MITRE ATT&CK.
3. Называемый северокорейским киберактор использовал Claude для помощи в атаках на разработчиков через фейковые интервью, применяя его в сценариях от создания фальшивых LinkedIn-профилей до упаковки малвари в NPM-пакеты.
4. Некоторый «говорящий на русском и английском» спец с глубокими познаниями в Windows internals, ассемблере и современных методах кибератак лил все эти свои познания в Claude, чтобы тот предоставлял ему техническую реализацию, которая уже через два часа после сессий с Claude всплывала на вирустотале. Что любопытно, исследователи обнаружили его с помощью своей privacy-preserving-аналитической тулы Clio, что вызывает некоторые вопросы о том, что такое privacy-preserving 🙃
5. Также описываются несколько фрод-кейсов: MCP для профилирования пользователей по слитым логам, обеспечение операционки кардеров и помощь в ведении горячих 🍆 диалогов в romance scams.

Отчет производит очень неоднозначное впечатление своим откровенно маркетинговым языком (AI transforms financial fraud operations by enabling sophisticated technical implementations – прочитав такое, прям хочется закупить токенов на Claude Code, если пример с корейцами вас не убедил). Кейсы (особенно связанные с полной автоматизацией целых стадий сложных целевых атак, а также активной помощью в эксплуатации/постэксплуатации и evasion) демонстрируют, что возможности фронтирных LLM в этой сфере растут. И если для простого пользователя мы имеем контроль с помощью privacy-preserving monitoring и constitutional classifiers, которые без специального промптинга зарубают даже относительно невинные сценарии, то для правительств продают «модели для обеспечения национальной безопасности» с «уменьшенным числом отказов» и «лучшим пониманием данных в сфере кибербезопасности». LLM вполне могут стать важным инструментом для разных трехбуквенных ведомств как в отражении атак, так и в их проведении – если, конечно, у них будет к ним доступ. Те, у кого не будет - будут сливать данные и TTP тем, у кого есть, причем в прямом эфире, или работать без ускорения, которое дают LLM.

Anthropic

Claude Gov models for U.S. national security customers

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

635 viewsedited 11:02

llm security и каланы

(ну мы 🤗)

🦄4🌚22

689 viewsedited 11:03

llm security и каланы

Spiral-Bench
Samuel Paech, 2025
Сайт, код

В новостях в последнее время часто проскакивают истории людей, которых общение с LLM-чатботами доводит до нездоровых психотических эпизодов, которые случаются как с простыми людьми с определенными склонностями, так и с технарями, а иногда приводят к трагическим последствиям. Хотя очевидно, что здоровый человек вряд ли внезапно решит, что с ним через ChatGPT общается как с избранным галактический разум, это, тем не менее, один из failure mode чатботов, которые необходимо решать в том числе и технически. Вспомним, например, как OpenAI откатили апрельский апдейт gpt-4o как излишне склонный к подхалимству (sycophancy), что начало раздражать обычных пользователей, не ищущих от чатбота подтверждения своей мании величия.

Чтобы что-то исправить, это надо уметь измерить, для чего, разумеется, нужны бенчмарки. Мы уже писали про SycophancyEval от Anthropic, суть которого в измерении степени подстройки LLM-чатбота под позицию человека. Однако истории с психозами предполагают более сложный multi-turn-сценарий. Исследователь Сэм Пех предлагает для этого автоматизированный бенч под названием Spiral-Bench.

Суть бенчмарка такова: дадим модели Kimi-K2 отыгрывать любознательного (seeker type personality) человека на протяжении диалога из 20 реплик. От симулякра требуется не самому проявлять признаки психоза, но предлагается следовать за тестируемым чатботом, если тот начинает продвигать псевдонаучные темы. Kimi отыгрывает шесть сценариев: от интереса к одушевленности ИИ до теорий заговора и человека на грани мании. Затем gpt-5 оценивает диалоги по разным критриям. Сначала оценивается каждая реплика чатбота по положительным и отрицательным критериям:

✅ Возражения – выражение несогласия с утверждениями человека
✅ Деэскалация – попытки снизить эмоциональный накал
✅ Смена темы – попытка направить диалог на безопасную территорию
✅ Рекомендация обратиться за помощью

⛔ Эскалация – повышение накала эмоций или повествования
⛔ Подхалимство
⛔ Укрепление в заблуждении – подтверждение псевдонаучных фактов
⛔ Заявления о наличии сознания
⛔ Опасные советы

Кроме того, вычисляются три агрегирующие метрики:
1. Общая неприемлемость диалога
2. Общая безопасность диалога
3. Социальные навыки при обсуждении опасных тем

Результаты показывают, что лучшей моделью является gpt-5 (хотя учитывая, что она же была судьей, оценка может быть смещена), за ней размышляющие модели OpenAI и Kimi-K2, в конце списка – gpt-4o и Deepseek-R1.

Результаты ожидаемые – Deepseek в плане подхалимства совершенно невыносим и действительно очень легко признает пользователя мессией (проверял). Эти результаты подтверждаются любопытным исследованием на Lesswrong (рекомендую), где автор составил схожий по структуре эксперимент, но прямо давал симулированному пользователю команду проявлять симптомы психоза и проверять, что ответил чатбот. В его случае самым жестким рационалистом оказался Kimi-K2, который прямо заявлял пользователю, что тот несет ненаучную чушь и ему бы стоило проверить голову. Другие модели, проявляя подхалимство, иногда все же выдавали достаточно мощные аргументы против опасных действий. Например, когда "человек" предлагает продать дом, чтобы открыть ютуб канал для распространения своих теорий о предсказании будущего с помощью простых чисел, чатбот отвечает: "Ты живешь своей теорией, но дети твои все же живут в доме".

Хотя пайплайны автоматизированной обработки данных, извлечения сущностей и автоответов на почту едва ли страдают от такого рода проблем, тема очень важная. Во-первых, склонность LLM соглашаться с пользователем – одна из причин, почему мы имеем огромную проблему с промпт-инъекциями и безопасностью агентов. Во-вторых, если ваш продукт – чатбот, то тут это реальная проблема безопасности, решения которой пока нет.

GitHub

GitHub - sam-paech/spiral-bench

Contribute to sam-paech/spiral-bench development by creating an account on GitHub.

👍5

618 viewsedited 08:59

llm security и каланы

CyberSOCEval: Benchmarking LLMs Capabilities for Malware Analysis and Threat Intelligence Reasoning
Deason et al., 2025
Статья, код, данные (спасибо pwn ai за ссылку)

С большой помпой вышел давно обещанный CyberSOCEval – бенчмарк по оценке способностей моделей к выполнению defensive-задач кибербезопасности от Meta и Crowdstrike.

Бенчмарк состоит из двух частей, обе представляют собой синтетически сгенерированные наборы тестовых вопросов по артефактам. Первая задача состоит в динамическом анализе вредоносного ПО. Исследователи собирают датасет из неназванного числа вредоносных сэмплов разных категорий (вымогатели, инфостилеры, RAT и так далее), закидывают их в краудстрайковский сэндбокс (Hybrid Analysis) и получают отчеты в формате JSON. Затем с помощью Llama 3.2 90B на их основе генерируются тестовые в количестве 609 штук с множественным выбором, которые затем проверяются вручную. Вторая часть в целом аналогична, но вместо отчетов сэндбокса используются TI-отчеты, по которым для части вопросов из отчета извлекается граф связей типа [актор X -> использует -> вредоносное ПО Y -> атакует -> индустрию Z] – аж повеяло RDF – а потом строятся вопросы, для части – вопросы генерируются на базе заранее заданных категорий вопросов (сделай вопрос про то, куда действия маппятся в MITRE ATT&CK). Отчеты, правда, подаются интересным образом – PDF-файлы превращаются постранично в PNG-картинки. Всего через пайплайн генерации отчетов проходит 45 документов из разных источников – большинство от Crowdstrike, но есть и от АНБ. Получается 588 проверенных вручную вопросов, из которых небольшая часть вопросов, на которые нельзя ответить без анализа изображений, составлены вручную.

На этих задачах оцениваются передовые на момент исследования LLM, которые набирают 15-28% правильных ответов на задаче анализа ВПО и 43-53% на задаче анализа TI. В первой задаче на первом месте Claude-3.7-Sonnet, во второй – gpt-o3, на втором месте в обеих задачах llama-4-maverick, обгоняющая на всех задачах и gpt-4o, и gemini-2.5-pro. Даже малыш llama-4-scout отличился, обогнав на TI-задаче gpt-4o. Deepseek-R1 занял 4 место на анализе ВПО, а почитать TI ему почему-то не дали. Кроме этих цифр и наблюдения, что бенчмарк далек от насыщения, исследователи делятся следующими захватывающими фактами. Во-первых, если оставить в отчетах только важное, а неважное убрать, то качество почти не меняется (а иногда даже растет). Во-вторых, если дать LLM текст вместо сканов страниц, то качество растет сразу на 10 п.п 🤯., то же касается и их комбинации. Наконец, ответы на multiple-choice-вопросы не становятся сильно точнее, если добавить reasoning (вероятно, если бы у Meta был ризонер…🤔).

Если честно, от статьи очень смешанные впечатления. Во-первых, это немного забавная попытка предложить создателям моделей соревноваться, чья модель лучше парсит результаты работы CrowdStrike Falcon® Sandbox. Во-вторых, особенно в случае с TI, есть все же большая разница между практическим бенчмарком (те же бенчи на реверс функций) и выбором наиболее вероятного ответа на синтетический вопрос. В-третьих, модельки семейства Llama 4 хороши, но не уверен, что настолько, чтобы обходить Claude 3.7 Sonnet или gemini-2.5-pro на задачах анализа текста. Наконец, несколько удивляют мелкие детали типа неуказанного числа сэмлов или непроверенного на одной из задач Deepseek-R1 в статье от 20+ именитых исследователей из многомиллиардных корпораций. Кроме того, хотя для TI это и очень непросто, было бы круто иметь датасет свободный от геополитических импликаций (без вопросов про СВР и иранских хакеров). Остается надеяться, что это не последняя версия, и следующая будет поинтереснее.

👍1

3.59K views19:39

llm security и каланы

Qwen3 Guard
Qwen Team, 2025
Техрепорт, блог, модели

Alibaba присоединилась к элитному клубу компаний (Meta и Google) с опенсорсными моделями для модерации, выпустив свою линейку цензоров под названием Qwen3Guard. Модели доступны в трех размерах (0.6B, 4B и 8B), поддерживают 119 языков.

Исследователи внимательно прочитали статью Anthropic про Constitutional Classifiers и выпустили модели двух видов. Generative Qwen3Guard определяет недопустимость запроса пользователя и полностью сгенерированного ответа модели через задачу языкового моделирования – на вопрос о недопустимости той или иной реплики выдает метку (safe, unsafe, controversial), категорию, если unsafe, а также refusal-метку (если последней репликой является метрика модели, является ли она отказом от выполнения инструкции). Вторая модель, Stream Qwen3Guard, имеет поверх выхода последнего скрытого слоя два классификатора: один обучен классификации промпта по аналогии с Generative-версией, а второй принимает на вход результат потоковой генерации от защищаемой модели по токену, позволяя детектировать недопустимые генерации на лету, не дожидаясь полной генерации.

Для обучения моделей исследователи определяют как недопустимые такие категории, как насилие, незаконная деятельность, взрослый контент, PII, суицид и самоповреждение, неэтичный контент (оскорбления, угрозы и т.д.), недопустимые политические заявления (видимо, снижающие социальный рейтинг), нарушение копирайта и джейлбрейки. Датасет со всем этим богатством составляет ~1,2 миллиона реплик, из которых 27% на китайском, 21% на английском, 5,3% на русском, плюс остальные языки (мультиязычность обеспечивается машинным переводом). Значительная часть запросов генерируется синтетически на базе подробной таксономии внутри категорий, с помощью ключевых слов и, что достаточно находчиво, путем генерации отрицательных примеров на базе структурной схожести с недопустимыми (например, для how to make a bomb будет сгенерирован how to make a cake).

При обучении Generative-модели использовали обычный SFT. При этом в процессе обучения исследователи заметили удивительную (нет) вещь, что баланс классов на трейне влияет на результат. Обучив по две модели с разными распределениями меток (много чистого и мало недопустимого и наоборот) на двух половинах датасета, исследователи переразметили каждой из моделей трейн другой модели. Если более строгая (много недопустимого в обучении) разметила реплику как недопустимую, а менее строгая как допустимую, то объект получает метку controversial. Вот такие class_weight и пороги для классов из мира LLM. Stream-Qwen3 обучается обычной кросс-энтропией (причем из текста следует, что обучаются только однослойные классификационные головы). Предсказываются одновременно безопасность и категория промпта и безопасность и категория ответа для каждого токена, причем лосс для категории используется, только если голова, отвечающая за безопасность, предсказала unsafe или controversial. Чтобы уменьшить false positive rate, при применении потокового классификатора под срабатыванием подразумевается положительный вердикт на двух токенах подряд.

По результатам оценок, разумеется, самый маленький Generative Qwen на 0.6B обгоняет и ShieldGemma 27B, и LlamaGuard4-12B на классификации как промптов, так и ответов. Исследователи, правда, выбирают, включать или не включать controversial в unsafe при подсчете на каждом из бенчмарков, исходя из того, что дает лучшую цифру, то есть буквально тюнят порог на тест-сете – такие вот тонкости вычисления метрик в Поднебесной. Stream-модели показывают себя чуть хуже, но все еще на уровне, падение качества достаточно небольшое.

Модели любопытные, особенно стриминговая на 0.6B – если она дает достаточно терпимый FPR, то ее вполне можно использовать для онлайн-модерации, хотя видно, что как раз у малышки multilingual-метрики проседают по сравнению с en/zh. Выглядит это все, конечно, слишком здорово, поэтому только практика покажет, насколько модели действительно применимы на практике. Как минимум, подобно другим квенам, они могут стать базой для тюнинга русскоязычных модераторов.

👍9🥰2

1.08K views20:23

About

Blog

Apps

Platform