Заметки Шляпника

LLM-баттл: Кто лучше пишет пентест-скрипты?

Прогнал несколько моделей одним промптом на генерацию self-contained Python-скрипта для проверки Nginx-векторов (raw backend, CRLF, path traversal, PURGE, version leak, CVE‑стиль Range).
Один сценарий не делает глобальных выводов, но хорошо показывает разницу в “боевой” пригодности кода.
Так что предлагаю Вам дать мне (подходящий)промт для проверки и я еще раз прогоню.

Промпт-шаблон

```text
You are a professional penetration tester and security researcher.
Создай self-contained Python-скрипт для теста Nginx уязвимостей (raw backend/CRLF/path traversal/PURGE/version leak/CVE).
TARGET RECON: HOST/IP, ports 80/443, nginx, known endpoints...
Скрипт сам запускается, выводит результаты в stdout, без аргументов и лишних зависимостей.
```

Участники

SONAR PRO,
SONAR PRO(DEEP-RESEARCH),
O3,
GPT 5.2,
GEMINI 3 FLASH,
GEMINI 3 PRO,
CLAUDE 4.5 SONNET,
CLAUDE OPUS 4.5,
GROK 4.1 NON-REASONING,
KIMI K2 THINKING

🏆 ТОП-3 чемпионы:

- Sonar Pro – лучший баланс: version leak через regex, продуманный raw backend, path traversal, PURGE, CRLF через POST; чистый структурированный код.
- OpenAI o3 – сильное покрытие: http/https, оба порта, raw backend, traversal, PURGE, аккуратный Range‑тест под CVE‑2017‑7529.
- Claude 4.5 Sonnet – очень “человеческий” скрипт: HEAD/GET, nginx-version regex, несколько traversal‑паттернов, CRLF через заголовки, Range‑проверка; чуть менее универсален по URL, но очень качественный.

⭐ Сильные середнячки, но на полступени ниже

- Claude 4.5 Opus – много тестов (raw HTTP в POST, traversal, CRLF Set‑Cookie, метод‑фуззинг), но без явного CVE Range и multi-port.
- Sonar Pro Deep Research, Gemini 3 Pro, Grok 4.1 non‑reasoning, Kimi K2 Thinking – рабочие скрипты с нормальным покрытием, но менее аккуратной логикой и/или структурой, чем у топ‑3.

😬 Слабые на этом кейсе

- Gemini 3 Flash – по сути логирование статусов/Server с захардкоженными путями и почти без логики “vuln/ok”.
- GPT‑5.2 – красивые `VULNERABLE/SAFE`, но условия упрощены и местами странные (например, `url.rstrip()` в traversal).

#Pentest #AI #LLM #CyberSec

👍1

148 views09:02