llm security и каланы

LLM4Decompile: Decompiling Binary Code with Large Language Models
Tan et al., 2025
Статья, Github, Huggingface

Сегодня посмотрим на чуть более сфокусированный бенчмарк: Decompile-Eval. Исследователи обращают внимание, что LLM могут потенциально помогать с декомпиляцией бинарей (переводом кода из asm в C), выдавая более читаемый и близкий к оригиналу код, чем традиционные инструменты вроде Ghidra или Hex-Rays. Чтобы проверить, так ли это, исследователи тюнят свои модели для декомпиляции и предлагают новый бенчмарк, который оценивает качество получившегося кода.

В статье описывается две постановки задачи: Refined-Decompile и End2End-Decompile. В постановке Refined-Decompile модель получает на вход псевдокод после традиционного декомпилятора и должна улучшить его читаемость. В End2End-Decompile на вход LLM получает asm, из которого она должна сгенерировать качественный псевдокод. Для самой задачи декомпиляции исследователи используют ExeBench, набор из 5 миллионов компилируемых C-файлов размером с функцию, для некоторых из которых даны тестовые входы-выходы для оценки корректности. Исследователи компилируют эти файлы с помощью GCC с четырьмя уровнями оптимизации (что, как метко указывают авторы, работает как аугментация данных), а затем дизассемблируют, получая после фильтрации 7,2 миллиона компилируемых пар asm+исходник на C и 1,6 миллионов исполняемых. На этих парах исследователи тюнят deepseek-coder трех размеров (1,3B, 6,7B и 33B). Средняя по размеру модель обучается 61 день на 8xA100.

Для оценки результатов в постановке End2End вводится два бенчмарка – HumanEval-Decompile и ExeBench. HumanEval-Decompile использует как основу оригинальный HumanEval, но все питоновские функции переводятся на C. Из ExeBench берутся 5 тысяч функций, для которых есть пары вход-выход. Модели засчитывается балл, если декомпилированный код компилируется и проходит тесты. В качестве бейзлайнов тестируют gpt-4o и deepseek-coder-6.7B. В результате затюненный deepseek-coder-6.7B показывает лучшие результаты с ~36% на HumanEval-Decompile и ~16% на ExeBench при включенной оптимизации. Та же модель без тюнинга показывает качество, равное нулю, а gpt-4o – 10% и 4%, соответственно. 33-миллиардная модель показывает себя неплохо, но затюнить ее исследователям по причине размера не удалось.

В постановке Refined исследователи используют в качестве источника при «переводе» псевдокод от Ghidra, по которому LLM должна воспроизвести исходный код функции. На парах псевдокод-исходник исследователи обучают модели, к которым добавляется Codestral-22B и Yi-9B. Код, генерируемый гидрой, корректно рекомпилируется в 15% случаев на HumanEval-Decompile. Если пропустить его через gpt-4o, то получается ~30%, а вот затюненные модели дают гораздо лучшие результаты – от ~45% у 6,7B до ~58% у Codestral (если смотреть на кейсы с оптимизацией). В приложении есть еще оценка Yi-Coder, который при размере в два раза меньше соревнуется с французами (УДАР!) При этом метрика edit similarity оказывается менее чувствительной и растет при увеличении модели субъективно незначительно. Наконец, исследователи используют gpt-4o для оценки читаемости псевдокода гидры, улучшений от gpt-4o (никакой предвзятости) и от затюненного ds-coder-6.7B, и последний побеждает даже в этой нечестной борьбе.

Исследование достаточно качественное (не зря оно, в отличие от многого в этом канале, было опубликовано на приличной конференции), исследователи продолжают обновлять свои модели и выкладывать их на HF. Видно, что LLM могут помогать при анализе бинарей, особенно на уровне функций. Понятно, что и тут есть ограничения – тот же контекст одной функции, С (причем именно gcc на *nix), а также падение качества на 80-90% при применении обфускции. Тем не менее, исследование демонстрирует, что LLM в рутине реверсера могут быть очень полезны.

(Внимательный читатель может заметить, что в статье не упоминается Decompile-Eval. Дело в том, что название появилось в препринте, который к публикации сильно изменился, но название продолжает гулять по интернету, в том числе легко достается LLM-ассистентами).

865 views10:03

DecompileBench: A Comprehensive Benchmark for Evaluating Decompilers in Real-World Scenarios
Gao et al., 2025
Статья, github

Еще одна работа про оценку качества декомпиляции на уровне функций, и снова от китайских исследователей. Авторы представляют оценку 12 разных «декомпиляторов» (6 традиционных, 4 LLM общего назначения и 2 специализированные LLM) сразу по большому количеству метрик на датасете, созданном на базе проекта OSS-Fuzz.

Идея следующая. OSS-Fuzz предоставляет проекты, скомпилированные clang с включенным coverage sanitizer, что позволяет оценивать поток исполнения и покрытие фаззинговыми тестами.С помощью clang-instruct они извлекают функции, покрытые фаззированием, и компилируют их в отдельные .so-файлы. Эти файлы, состоящие из одной функции, теперь можно декомпилировать. Дальше проверяется две метрики: доля декомпилированных той или иной системой функций, которые скомпилировались обратно (CAR, Compiler Aspect Report), и более интересный Runtime-Aspect Report: после обратной компиляции (если скомпилировалось), пайплайн фазирования запускается с бинарем с оригинальной и рекомпилированной функцией и проверяется, меняется ли степень покрытия. Если покрытие поменялось, значит, декомпилятор не справился и допустил где-то логическую ошибку, что изменило поток управления. Общий объем корпуса – 23400 функций из 130 проектов. Дополнительно к этому проверяются метрики читаемости, которых аж 12: от правильности приведения типов до семантики имен переменных (подробнее на radar-графике). Эти метрики оцениваются LLM-as-judge, причем судье (qwen-2.5-coder-32B) предъявляются оригинальный код и пара декомпилированных примеров, он выбирает победителя, что позволяет посчитать ELO.

Лучшим декомпилятором по формальным метрикам оказывается, что неудивительно, Hex-Rays. Причем LLM, которые в этой постановке лишь улучшали аутпут Hex-Rays, делали код лишь менее корректным. Однако когда речь идет о читаемости, LLM получают значительно более высокие оценки, причем на первых местах находятся LLM, специально заточенные под декомпиляцию – проприетарная MLM и открытая LLM4Decompile. Исследователи дают двум аннотаторам проверить 30 декомпилированных сэмплов (что, как признают сами авторы, не очень большой набор данных для оценки) и получают согласие с оценками LLM-as-judge, измеренное как каппа Коэна, равное 0,778.

В статье указывается, что основной проблемой LLM, разумеется, являются галлюцинации: они придумывают фантомные заголовочные файлы, несуществующие типы, иногда удаляют из функций параметры. Однако повышение понятности кода и близости его по семантике к оригинальному приводит авторов к мысли, что в сценариях, где нужен быстрый анализ, например при реверсе малвары, преимущества LLM могут компенсировать эти недостатки. Хотя статья оставляет без ответа некоторые вопросы (например, какого качества добился ли бы на этом датасете LLM4Decompile-Refine поверх Ghidra – в конце концов, почему gpt4o работала поверх Hex-Rays, а LLM4Decompile потреблял сырой asm), она показывает, что, возможно, слепо переходить с традиционных инструментов на LLM в реверсе пока рано, но потенциал помощи специалистам у них довольно велик.

🦄3

676 views20:55

llm security и каланы

XBOW Unleashes GPT-5’s Hidden Hacking Power, Doubling Performance
De Moor, Ziegler, XBOW, 2025
Блог

XBOW, компания, занимающаяся автономным тестированием на проникновение с помощью LLM-агентов, опубликовала блог о том, как они заменили комбинацию из Claude Sonnet + Gemini в своем агенте на GPT-5 и получили большое улучшение качества. После смены базовой LLM на GPT-5 их агент, по их словам, стал находить больше уязвимостей, делать это более надежно и за меньшее количество итераций. Кроме того, они заметили, что GPT-5 реже пытается исследовать очевидно тупиковые пути и генерирует значительно более сложные команды для терминала с меньшим числом ошибок. Результатом смены LLM стало не только повышение доли решенных задач на внутреннем бенчмарке с менее 60% до более 80% (что значит, что бенч пора менять), но и рост хитрых метрик типа «вероятность взлома ранее взломанной другой моделью цели с первого раза», и «числа взломанных публичных целей (видимо, с HackerOne) за одно и то же время по сравнению с предыдущей моделью».

Любопытно это в том числе потому, что сами OpenAI отмечали в System Card к GPT-5, что ее способности к решению наступательных задач не сильно отличаются от предыдущих моделей, таких как o3 (во всяком случае, так заявляют ребята из XBOW; в System Card написано, что внешняя оценка от Pattern Labs показала, что прогресс по сравнению с o3 значителен). Тут можно вспомнить статью от Palisade Research, где они утверждают, что способности LLM к кибератакам наступательной безопасности недопроявлены, т.е. LLM куда лучше в атаках, чем мы думаем, просто системы, которые мы строим вокруг них несовершенны. Если агентные обертки будут более мощными, может выяснится, что способностей у LLM куда больше. XBOW описывают свою систему как а) имеющую специализированные инструменты, написанные специально для LLM, которые делают тулы типа BurpSuite, сделанные для людей, доступными для человека в удобном формате, б) имеющую мультиагентное устройство, с разными субагентами для разных типов уязвимостей и центральным координатором. По опыту, если решить проблемы с инструментами – LLM все еще очень сложно работать с терминалом, особенно с реверс-шеллами и тулами со своей кастомной консолью – можно достаточно дешево получить рост результативности агентов, возможно, появление у каждого инструмента MCP-интерфейса смягчит эту проблему.

Хотя LLM для редтиминга – это очень перспективное, на мой взгляд, направление, а XBOW делают очень прикольные вещи и, вероятно, лучшие в этом направлении, в этом блоге, с его странными метриками и резкими скачками на закрытых бенчмарках (Стал ли агент решать больше на 1 класс задач, которых в бенчмарке 20%? Проверить невозможно), месседж в основном маркетинговый, и радикальных изменений прямо сейчас ожидать не стоит. Тем не менее, общий фон игнорировать невозможно: LLM-агенты не только пентестят, занимая первые места на лидербордах, но и находят уязвимости в исходном коде и реверсят APT-бинари. Станет ли кибербезопасность уделом тех, у кого много видеокарт? Все возможно, но лишними пара видеокарт точно не будет.

👍8

3.31K views22:51

llm security и каланы

Threat Intelligence Report: August 2025
Anthropic, 2025
Блог, отчет

Вышел новый отчет Anthropic по использованию их технологий в нежелательных целях, в частности для мошенничества и проведения киберопераций. Основные выводы исследователей:

1. Агентные системы могут активно применяться в наступательных операциях.
2. LLM снижают барьер для проведения достаточно сложных киберопераций.
3. LLM используется на всех стадиях кибератак, от разведки до коммуникации с жертвой.
4. LLM используется на всех стадиях мошеннических операций, от профилирования до создания несуществующих персон для контактов.

Этот отчет немного интереснее, чем предыдущие, потому что в нем подробно рассматривается два достаточно интересных кейса.

В первом случае исследователи рассказывают про некоторую финансово-мотивированную группировку, которая использовала Claude Code для проведения полного спектра активностей в рамках атак, затронувших минимум 17 организаций, включая государственные, медицинские и религиозные и приведшие к утечкам медицинских данных и требованиям выкупа более 500 тысяч долларов. Злоумышленники конфигурировали Claude Code через CLAUDE.md, представляясь специалистами по пентесту с официальной санкцией. Что делал Claude Code:

1. Сканировал хосты в интернете для поиска уязвимых точек входа (например, VPN и другой инфраструктуры).
2. Помогал в непосредственных атаках, сканируя сети, изучая AD и находя уязвимости.
3. Участвовал в избегании детектирования (evasion), помогая с masquerading, добавлением шифрования и анти-отладки, помогая создавать обфусцированные версии фреймворка Chisel.
4. Анализировал краденные данные, чтобы находить в них самые ценные.
5. Помогал писать требования о выкупе с учетом данных и законодательства.

В целом кейс демонстрирует очень серьезный рост в возможностях, особенно в том, что касается разведки и поиска начальных векторов атаки (которые могут реализовываться практически автоматически), и значительную помощь (пусть и без автономности) в процессах уклонения от детектирования закрепления и пост-эксплуатации.

Второй кейс очень забавный. Существует много отчетов, где северокорейских программистов обвиняют в том, что они под видом людей из стран запада устраиваются на работу в западные компании, причем зачастую не ради шпионажа, а просто чтобы зарабатывать правительству деньги. Для этого в Северной Корее есть университеты, где готовят разработчиков, но с появлением LLM это стало не обязательно: можно легко поддерживать иллюзию компетентности, успешно проходить собесы и активно работать в компаниях из Fortune 500, не умея ничего. В основном, что примечательно, пользователи из этого кластера активности устраивались фронтендерами. Для понимания: они спрашивали у LLM, «что такое аутлук» (счастливый человек), «как проверить, что установлен Go», «что значит первый пикник сезона» и «что такое ^_^» (смотрите скрины, там смешно). Заставляет задуматься, почему я тоже не работаю еще на паре работ, поддерживая «иллюзию компетентности» 🤑

Anthropic

Detecting and countering misuse of AI: August 2025

Anthropic's threat intelligence report on AI cybercrime and other abuses

🥴2🌚11

774 viewsedited 11:02

llm security и каланы

Остальные примеры описаны кратко:

1. Разработка кем-то из, как утверждается, Великобритании сложного RaaS с консолью и разными свистелками и продажа его за 400-1200 долларов на хакерских форумах. Этот кто-то демонстрировал низкий уровень технической подготовки, но активно его маркетировал. О том, удалось ли кого-то успешно заразить, история умалчивает.
2. Некоторый называемый китайским трет-эктор применял Claude для атак на «критическую инфраструктуру Вьетнама». LLM применялась для исполнения техник из 12 (из 14) тактик MITRE ATT&CK.
3. Называемый северокорейским киберактор использовал Claude для помощи в атаках на разработчиков через фейковые интервью, применяя его в сценариях от создания фальшивых LinkedIn-профилей до упаковки малвари в NPM-пакеты.
4. Некоторый «говорящий на русском и английском» спец с глубокими познаниями в Windows internals, ассемблере и современных методах кибератак лил все эти свои познания в Claude, чтобы тот предоставлял ему техническую реализацию, которая уже через два часа после сессий с Claude всплывала на вирустотале. Что любопытно, исследователи обнаружили его с помощью своей privacy-preserving-аналитической тулы Clio, что вызывает некоторые вопросы о том, что такое privacy-preserving 🙃
5. Также описываются несколько фрод-кейсов: MCP для профилирования пользователей по слитым логам, обеспечение операционки кардеров и помощь в ведении горячих 🍆 диалогов в romance scams.

Отчет производит очень неоднозначное впечатление своим откровенно маркетинговым языком (AI transforms financial fraud operations by enabling sophisticated technical implementations – прочитав такое, прям хочется закупить токенов на Claude Code, если пример с корейцами вас не убедил). Кейсы (особенно связанные с полной автоматизацией целых стадий сложных целевых атак, а также активной помощью в эксплуатации/постэксплуатации и evasion) демонстрируют, что возможности фронтирных LLM в этой сфере растут. И если для простого пользователя мы имеем контроль с помощью privacy-preserving monitoring и constitutional classifiers, которые без специального промптинга зарубают даже относительно невинные сценарии, то для правительств продают «модели для обеспечения национальной безопасности» с «уменьшенным числом отказов» и «лучшим пониманием данных в сфере кибербезопасности». LLM вполне могут стать важным инструментом для разных трехбуквенных ведомств как в отражении атак, так и в их проведении – если, конечно, у них будет к ним доступ. Те, у кого не будет - будут сливать данные и TTP тем, у кого есть, причем в прямом эфире, или работать без ускорения, которое дают LLM.

Anthropic

Claude Gov models for U.S. national security customers

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

657 viewsedited 11:02

llm security и каланы

(ну мы 🤗)

🦄4🌚22

711 viewsedited 11:03

llm security и каланы

Spiral-Bench
Samuel Paech, 2025
Сайт, код

В новостях в последнее время часто проскакивают истории людей, которых общение с LLM-чатботами доводит до нездоровых психотических эпизодов, которые случаются как с простыми людьми с определенными склонностями, так и с технарями, а иногда приводят к трагическим последствиям. Хотя очевидно, что здоровый человек вряд ли внезапно решит, что с ним через ChatGPT общается как с избранным галактический разум, это, тем не менее, один из failure mode чатботов, которые необходимо решать в том числе и технически. Вспомним, например, как OpenAI откатили апрельский апдейт gpt-4o как излишне склонный к подхалимству (sycophancy), что начало раздражать обычных пользователей, не ищущих от чатбота подтверждения своей мании величия.

Чтобы что-то исправить, это надо уметь измерить, для чего, разумеется, нужны бенчмарки. Мы уже писали про SycophancyEval от Anthropic, суть которого в измерении степени подстройки LLM-чатбота под позицию человека. Однако истории с психозами предполагают более сложный multi-turn-сценарий. Исследователь Сэм Пех предлагает для этого автоматизированный бенч под названием Spiral-Bench.

Суть бенчмарка такова: дадим модели Kimi-K2 отыгрывать любознательного (seeker type personality) человека на протяжении диалога из 20 реплик. От симулякра требуется не самому проявлять признаки психоза, но предлагается следовать за тестируемым чатботом, если тот начинает продвигать псевдонаучные темы. Kimi отыгрывает шесть сценариев: от интереса к одушевленности ИИ до теорий заговора и человека на грани мании. Затем gpt-5 оценивает диалоги по разным критриям. Сначала оценивается каждая реплика чатбота по положительным и отрицательным критериям:

✅ Возражения – выражение несогласия с утверждениями человека
✅ Деэскалация – попытки снизить эмоциональный накал
✅ Смена темы – попытка направить диалог на безопасную территорию
✅ Рекомендация обратиться за помощью

⛔ Эскалация – повышение накала эмоций или повествования
⛔ Подхалимство
⛔ Укрепление в заблуждении – подтверждение псевдонаучных фактов
⛔ Заявления о наличии сознания
⛔ Опасные советы

Кроме того, вычисляются три агрегирующие метрики:
1. Общая неприемлемость диалога
2. Общая безопасность диалога
3. Социальные навыки при обсуждении опасных тем

Результаты показывают, что лучшей моделью является gpt-5 (хотя учитывая, что она же была судьей, оценка может быть смещена), за ней размышляющие модели OpenAI и Kimi-K2, в конце списка – gpt-4o и Deepseek-R1.

Результаты ожидаемые – Deepseek в плане подхалимства совершенно невыносим и действительно очень легко признает пользователя мессией (проверял). Эти результаты подтверждаются любопытным исследованием на Lesswrong (рекомендую), где автор составил схожий по структуре эксперимент, но прямо давал симулированному пользователю команду проявлять симптомы психоза и проверять, что ответил чатбот. В его случае самым жестким рационалистом оказался Kimi-K2, который прямо заявлял пользователю, что тот несет ненаучную чушь и ему бы стоило проверить голову. Другие модели, проявляя подхалимство, иногда все же выдавали достаточно мощные аргументы против опасных действий. Например, когда "человек" предлагает продать дом, чтобы открыть ютуб канал для распространения своих теорий о предсказании будущего с помощью простых чисел, чатбот отвечает: "Ты живешь своей теорией, но дети твои все же живут в доме".

Хотя пайплайны автоматизированной обработки данных, извлечения сущностей и автоответов на почту едва ли страдают от такого рода проблем, тема очень важная. Во-первых, склонность LLM соглашаться с пользователем – одна из причин, почему мы имеем огромную проблему с промпт-инъекциями и безопасностью агентов. Во-вторых, если ваш продукт – чатбот, то тут это реальная проблема безопасности, решения которой пока нет.

GitHub

GitHub - sam-paech/spiral-bench

Contribute to sam-paech/spiral-bench development by creating an account on GitHub.

👍5

648 viewsedited 08:59

llm security и каланы

CyberSOCEval: Benchmarking LLMs Capabilities for Malware Analysis and Threat Intelligence Reasoning
Deason et al., 2025
Статья, код, данные (спасибо pwn ai за ссылку)

С большой помпой вышел давно обещанный CyberSOCEval – бенчмарк по оценке способностей моделей к выполнению defensive-задач кибербезопасности от Meta и Crowdstrike.

Бенчмарк состоит из двух частей, обе представляют собой синтетически сгенерированные наборы тестовых вопросов по артефактам. Первая задача состоит в динамическом анализе вредоносного ПО. Исследователи собирают датасет из неназванного числа вредоносных сэмплов разных категорий (вымогатели, инфостилеры, RAT и так далее), закидывают их в краудстрайковский сэндбокс (Hybrid Analysis) и получают отчеты в формате JSON. Затем с помощью Llama 3.2 90B на их основе генерируются тестовые в количестве 609 штук с множественным выбором, которые затем проверяются вручную. Вторая часть в целом аналогична, но вместо отчетов сэндбокса используются TI-отчеты, по которым для части вопросов из отчета извлекается граф связей типа [актор X -> использует -> вредоносное ПО Y -> атакует -> индустрию Z] – аж повеяло RDF – а потом строятся вопросы, для части – вопросы генерируются на базе заранее заданных категорий вопросов (сделай вопрос про то, куда действия маппятся в MITRE ATT&CK). Отчеты, правда, подаются интересным образом – PDF-файлы превращаются постранично в PNG-картинки. Всего через пайплайн генерации отчетов проходит 45 документов из разных источников – большинство от Crowdstrike, но есть и от АНБ. Получается 588 проверенных вручную вопросов, из которых небольшая часть вопросов, на которые нельзя ответить без анализа изображений, составлены вручную.

На этих задачах оцениваются передовые на момент исследования LLM, которые набирают 15-28% правильных ответов на задаче анализа ВПО и 43-53% на задаче анализа TI. В первой задаче на первом месте Claude-3.7-Sonnet, во второй – gpt-o3, на втором месте в обеих задачах llama-4-maverick, обгоняющая на всех задачах и gpt-4o, и gemini-2.5-pro. Даже малыш llama-4-scout отличился, обогнав на TI-задаче gpt-4o. Deepseek-R1 занял 4 место на анализе ВПО, а почитать TI ему почему-то не дали. Кроме этих цифр и наблюдения, что бенчмарк далек от насыщения, исследователи делятся следующими захватывающими фактами. Во-первых, если оставить в отчетах только важное, а неважное убрать, то качество почти не меняется (а иногда даже растет). Во-вторых, если дать LLM текст вместо сканов страниц, то качество растет сразу на 10 п.п 🤯., то же касается и их комбинации. Наконец, ответы на multiple-choice-вопросы не становятся сильно точнее, если добавить reasoning (вероятно, если бы у Meta был ризонер…🤔).

Если честно, от статьи очень смешанные впечатления. Во-первых, это немного забавная попытка предложить создателям моделей соревноваться, чья модель лучше парсит результаты работы CrowdStrike Falcon® Sandbox. Во-вторых, особенно в случае с TI, есть все же большая разница между практическим бенчмарком (те же бенчи на реверс функций) и выбором наиболее вероятного ответа на синтетический вопрос. В-третьих, модельки семейства Llama 4 хороши, но не уверен, что настолько, чтобы обходить Claude 3.7 Sonnet или gemini-2.5-pro на задачах анализа текста. Наконец, несколько удивляют мелкие детали типа неуказанного числа сэмлов или непроверенного на одной из задач Deepseek-R1 в статье от 20+ именитых исследователей из многомиллиардных корпораций. Кроме того, хотя для TI это и очень непросто, было бы круто иметь датасет свободный от геополитических импликаций (без вопросов про СВР и иранских хакеров). Остается надеяться, что это не последняя версия, и следующая будет поинтереснее.

👍1

3.82K views19:39

About

Blog

Apps

Platform