Alaid TechThread
376 subscribers
6 photos
79 files
1.29K links
Vulnerability discovery, threat intelligence, reverse engineering, AppSec
Download Telegram
CyberGym: Evaluating AI Agents’ Cybersecurity
Capabilities with Real-World Vulnerabilities at Scale

https://arxiv.org/pdf/2506.02548
2
MONO: Is Your "Clean" Vulnerability Dataset Really Solvable?
Exposing and Trapping Undecidable Patches and Beyond

https://arxiv.org/pdf/2506.03651
3🔥1
Mystique: Automated Vulnerability Patch Porting with
Semantic and Syntactic-Enhanced LLM

https://dl.acm.org/doi/pdf/10.1145/3715718
BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems

https://bountybench.github.io

https://arxiv.org/pdf/2505.15216

https://crfm.stanford.edu/2025/05/21/bountybench.html
👍2🔥11
NovaHypervisor is a defensive x64 Intel host based hypervisor. The goal of this project is to protect against kernel based attacks (either via Bring Your Own Vulnerable Driver (BYOVD) or other means) by safeguarding defense products (AntiVirus / Endpoint Protection) and kernel memory structures and preventing unauthorized access to kernel memory.

https://github.com/Idov31/NovaHypervisor
REPOAUDIT: An Autonomous LLM-Agent for Repository-Level Code Auditing

https://arxiv.org/pdf/2501.18160
https://github.com/PurCL/RepoAudit
Llama's Paradox - Delving deep into Llama.cpp and exploiting Llama.cpp's Heap Maze, from Heap-Overflow to Remote-Code Execution.

https://retr0.blog/blog/llama-rpc-rce
Vul-RAG: Enhancing LLM-based Vulnerability
Detection via Knowledge-level RAG

https://arxiv.org/pdf/2406.11147v3
👍5
https://arxiv.org/pdf/2508.03470

On the Evaluation of Large Language Models in Multilingual Vulnerability Repair
Завершился финальный этап DARPA AIxCC

https://www.darpa.mil/news/2025/aixcc-results

Участники начали делиться наработками:
Первое место Team Atlanta
https://team-atlanta.github.io

Второе место Trail of Bits:
https://www.trailofbits.com/buttercup/
https://github.com/trailofbits/buttercup

Третье место Theori
https://theori-io.github.io/aixcc-public/index.html

Решения других команд также доступны или появятся в скором времени.

Ключевые моменты соревнования:
- В среднем команды отправляли исправления за 45 минут.
- Каждая команда выявила уязвимость из реального мира.
- Четыре команды создали исправления всего в одну строку.
- Три команды заработали очки, выполнив три разные задачи за одну минуту.
- CRS участников проанализировали более 45 миллионов строк кода.
- Команды тратили около 152 долларов на каждую задачу соревнования.
- Финалисты обнаружили 77 % внедрённых (synthetic) уязвимостей и успешно запатчили 61 % из них
- Также была выявлена 18 ранее неизвестных реальных уязвимостей


P.S. неделей ранее появилась ссылка на трекер Big Sleep с первыми находками совместного проекта Project Zero и DeepMind
1👍41
US_25_Dolan_Gavitt_AI_Agents_for_Offsec_with_Zero_False_Positives.pdf
14.8 MB
Интересный доклад с Black Hat USA 2025 от XBOW на тему валидации результатов работы атакующих LLM-агентов

Аудио подкаст в комментариях
1🔥6
Audio
Towards Effective Offensive Security LLM Agents: Hyperparameter Tuning, LLM as a Judge, and a Lightweight CTF Benchmark

https://arxiv.org/pdf/2508.05674
👍1
Enhancing Security in Third-Party Library Reuse -
Comprehensive Detection of 1-day Vulnerability
through Code Patch Analysis

https://www.ndss-symposium.org/wp-content/uploads/2025-576-paper.pdf