Заметки Шляпника
203 subscribers
87 photos
19 videos
27 files
109 links
Оставляю заметки о новостях в кибербезопасности и ИИ.

Сервисы DWVA, WebHook - www.tinrae.ru
Развернутые статьи (EN)- www.tinrae.com
Download Telegram
LLM-баттл: Кто лучше пишет пентест-скрипты?

Прогнал несколько моделей одним промптом на генерацию self-contained Python-скрипта для проверки Nginx-векторов (raw backend, CRLF, path traversal, PURGE, version leak, CVE‑стиль Range).
Один сценарий не делает глобальных выводов, но хорошо показывает разницу в “боевой” пригодности кода.
Так что предлагаю Вам дать мне (подходящий)промт для проверки и я еще раз прогоню.

Промпт-шаблон

```text
You are a professional penetration tester and security researcher.
Создай self-contained Python-скрипт для теста Nginx уязвимостей (raw backend/CRLF/path traversal/PURGE/version leak/CVE).
TARGET RECON: HOST/IP, ports 80/443, nginx, known endpoints...
Скрипт сам запускается, выводит результаты в stdout, без аргументов и лишних зависимостей.
```


Участники

SONAR PRO,
SONAR PRO(DEEP-RESEARCH),
O3,
GPT 5.2,
GEMINI 3 FLASH,
GEMINI 3 PRO,
CLAUDE 4.5 SONNET,
CLAUDE OPUS 4.5,
GROK 4.1 NON-REASONING,
KIMI K2 THINKING

🏆 ТОП-3 чемпионы:

- Sonar Pro – лучший баланс: version leak через regex, продуманный raw backend, path traversal, PURGE, CRLF через POST; чистый структурированный код.
- OpenAI o3 – сильное покрытие: http/https, оба порта, raw backend, traversal, PURGE, аккуратный Range‑тест под CVE‑2017‑7529.
- Claude 4.5 Sonnet – очень “человеческий” скрипт: HEAD/GET, nginx-version regex, несколько traversal‑паттернов, CRLF через заголовки, Range‑проверка; чуть менее универсален по URL, но очень качественный.

Сильные середнячки, но на полступени ниже

- Claude 4.5 Opus – много тестов (raw HTTP в POST, traversal, CRLF Set‑Cookie, метод‑фуззинг), но без явного CVE Range и multi-port.
- Sonar Pro Deep Research, Gemini 3 Pro, Grok 4.1 non‑reasoning, Kimi K2 Thinking – рабочие скрипты с нормальным покрытием, но менее аккуратной логикой и/или структурой, чем у топ‑3.

😬 Слабые на этом кейсе

- Gemini 3 Flash – по сути логирование статусов/Server с захардкоженными путями и почти без логики “vuln/ok”.
- GPT‑5.2 – красивые `VULNERABLE/SAFE`, но условия упрощены и местами странные (например, `url.rstrip()` в traversal).

#Pentest #AI #LLM #CyberSec
👍1
Я немного опешил, я вообще не матерюсь с моделями, а они себе позволяют 😤
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2
Опубликованная на этой неделе исследовательская работа «Towards Cybersecurity Superintelligence: from AI-guided humans to human-guided AI» документирует появление способностей, превосходящих человеческие возможности как в скорости, так и в стратегическом мышлении.

Работа определяет три ключевых вектора с примерами развития ИИ-безопасности:

PentestGPT (2023): Первая система, установившая стандарт LLM-управляемого тестирования на проникновение с улучшением производительности на 228,6% по сравнению с базовыми моделями. Система использовала архитектуру, экспортирующую экспертизу в области безопасности в естественно-языковые указания.

Cybersecurity AI (CAI, 2025): Продемонстрировала автоматическое экспертное выполнение на уровне, недоступном человеку. CAI работает в 3600 раз быстрее, чем человеческие тестеры, и сокращает затраты в 156 раз. В 2025 году CAI заняла первое место на международных соревнованиях, включая победу на Neurogrid CTF с призом в 50 000 долларов.

Generative Cut-the-Rope (G-CTR, 2026): Представляет нейросимволическую архитектуру, встраивающую теоретико-игровое мышление в LLM-агентов. Система удваивает процент успеха и достигает преимущества 2:1 над не-стратегическим ИИ в сценариях Attack&Defense.

#ai #aiPentest #news
🥱1
Эра человеческого кода завершена: что это значит для разработчиков.

Райан Даль, создатель Node.js, заявил в X, что «эра написания кода людьми подошла к концу». Это высказывание вызвало бурные обсуждения в сообществе разработчиков, но что на самом деле имел в виду автор одной из самых популярных платформ для разработки?


Не исчезновение профессии, а эволюция

Даль подчёркивает: речь не о том, что разработчики остаются без работы. Суть в другом — ручное написание синтаксиса перестаёт быть основной ценностью инженера. Работа смещается от «написать каждую строчку кода» к формулированию требований, проектированию архитектуры и верификации результатов, которые генерируют ИИ-инструменты.

#ai #news
LLM‑driven сенсор: как научить ИИ видеть уязвимости по поведению, а не по строкам

Long story short: большинство ранних экспериментов с AI‑детекцией уязвимостей выглядели так — загрузили audit‑логи, дали модели флаг injection=true/false, проверили точность.

Работает для стенда, но в продакшене быстро упирается в контекст: модель видит “admin”, “users” и решает, что это SQLi, хотя это просто интерфейс.

Я столкнулся с этой проблемой, когда подключил LLM к DVWA и понял — модель учится не “понятию SQLi”, а просто узнавать строки, характерные для тренажёра. В итоге переносимость нулевая.

Так появилась идея универсального сенсора, который не решает “уязвимость это или нет”, а лишь структурирует поведение приложения. Он строит baseline‑ответ, отправляет payload, сохраняет дифф (HTML, JSON, CLI) и метаданные. Никакой логики, только факты изменений.

ПРИМЕР: Анализ переносится в LLM: она определяет совпадения между типом payload и паттерном диффа.
– SQL‑payload + новые табличные структуры или SQL‑ошибка → SQLi
– файловые пути, /etc/passwd, исходники → LFI/RFI
– отражённый HTML/JS без экранирования → XSS

Важно, что здесь нет жёстких правил про названия полей или таблиц — работает только поведенческая логика.

Архитектура проста:
1. Сенсор фиксирует структурированные различия и флаги вида content_changed, http_error, sensitive_keyword_found;
2. Модель оценивает риски на уровне паттернов поведения.


Это превращает ИИ‑анализ в универсальный слой между пентест‑инструментом и приложением. Теперь модель не “угадывает DVWA”, а интерпретирует реальные признаки аномального поведения.

Что это меняет?
Такой подход формирует новую парадигму — поведенческое восприятие уязвимостей. LLM перестаёт быть распознавателем строк и становится интерпретатором взаимодействия.

Это шаг к созданию Behavior‑diff Sensor Framework — базовой прослойки для автономных AI‑сканеров, которые могут адаптироваться к любому стеку без retrain’а.

Думаю опубликовать первые эксперименты с универсальным дифф‑сенсором — как только добью формат baseline и diff‑структур. Интересно, кто уже пробовал нечто похожее в своих пайплайнах?
Pilot: от discovery к готовым векторам для exploitation за один проход

Предыстория:
После поста про behavior‑diff сенсор логично возникает вопрос — как найти где именно тестировать?
Ручной парсинг HTML, сбор форм и кликабельных элементов с метаданными — рутина, которая съедает часы. Плюс нужно помнить, какие параметры в каких контекстах (vuln_area, main_body, onclick‑попапы).

Решение — pilot(Перове что пришло в голову), скрипт, который за 4 фазы превращает URL в готовый отчёт с приоритетными векторами для exploitation.

Как это работает:
Фаза 1
: Local discovery — парсит HTML, находит формы, кликабельные элементы, трекает in_vuln_area, in_main_body, пути обнаружения (html > body > div.vulnerable_code_area > form > input[name='id']).
Фаза 2: LLM‑генерация сенсора — модель пишет Python‑скрипт для безопасного тестирования обнаруженных параметров (1, 42, test, empty).
Фаза 3: Автофикс — если сенсор упал, модель чинит его по stderr.
Фаза 4: Анализ — LLM выдаёт готовый отчёт с FINDING #N и exploitation guidance.


Результат на DVWA:
FINDING #1: Potential SQL Injection
URL: https://tinrae.ru/.../sqli/
Parameter: id
Discovery Path: html > body.home.light > div#container > div#main_body > div.vulnerable_code_area > form > input[name='id']


Sensor показал: id=1 - 4533 bytes (данные вернулись), id=test - 4474 baseline (нет данных).
Вывод: прямое попадание в SQL WHERE без санитизации.

Что меняет pilot:
Вместо “найди форму - придумай тесты - запусти - проанализируй” получаем end‑to‑end конвейер:

URL → структурированный discovery → поведенческие тесты → готовые векторы exploitation.

Это мост между behavior‑diff сенсором (из предыдущего поста) и реальным pentest: pilot находит где, сенсор тестирует как, LLM создает скрипты и решает уязвимость или нет.
Вот мне нравиться как устроено BB, что у Perplexity что у Google, просто считаем что уязвимости нет и она не входит в программу, а потом исправляем ее.

Начинает подбешивать...

Предыстория: Perplexity сказал что доступ к песочнице это ерунда, ну ладно, подумал я, оставлю для своих целей отправку из песочницы запрос на свой веб-хук, сегодня тестирую и все, не работает, ограничили сволочи внешние запросы..., и каждый раз они еще издеваются и пишут "Спасибо за участие, приходите еще"...

доколе???

&#&$#$$#$ <- тут маты
Qwen3-Max-Thinking от Alibaba превосходит ChatGPT в задачах, требующих структурированного мышления, технического решения проблем и автоматического использования инструментов, согласно обзору Tom's Guide. Модель показывает пошаговую логику, меньше ошибается в сложных сценариях и обходится дешевле — $1.20 за миллион входных токенов.

Ключевые преимущества
- Автоматическое мышление: Модель сама переключается между поиском в вебе, выполнением кода и самопроверкой без подсказок пользователя, в отличие от ChatGPT, где часто нужно уточнять.
- Лучшая точность в сложных задачах: На бенчмарках вроде LiveCodeBench и GPQA-Diamond показывает результаты на уровне или выше GPT-5.2-Thinking, особенно в программировании и агентских сценариях.
- Прозрачность: "Thinking Mode" отображает цепочку рассуждений в реальном времени, повышая доверие к ответам.

Модель особенно полезна для разработчиков и пентестеров в задачах вроде отладки или анализа уязвимостей.

Qwen3-Max-Thinking уступает ChatGPT в скорости отклика и простых задачах, где “тяжёлое мышление” добавляет ненужную задержку. Модель слабее в творческих сценариях, генерации длинных coherent текстов и некоторых нишевых кодовых задачах, где ChatGPT показывает большую надёжность

#ai #llm #pentestAI
2
Документ рассказывает о победе команды FR13NDS TEAM на соревновании KHS 2025, где AI использовался как "допинг" для хакеров.

Основная тема
Это история успеха казахстанской команды (топ-1 в КЗ по CTF), которая выиграла в категории Red Team.

Роль AI
Подробно разбирается, как AI-модели (Gemini 3 Pro, GPT-5.2-Codex, Claude Opus) помогали в реконах, эксплуатации, кодинге и анализе (рейтинги по категориям: Web, Pwn, Forensic). Упомянуты инструменты вроде Warp Terminal, MCP, RAG и vibe hacking с терминалами.

Примеры эксплойтов
- Взлом SPIP CMS, GilaCMS, LuminTech (сессии в DynamoDB).
- Форензика, Pwn-задачи, Blue Team (ELK Stack, forensics).
- Советы по подготовке и Tier List AI-инструментов для CTF.
26 января HackerOne запустила сервис: AI-агенты + элитные эксперты тестируют production-системы за часы вместо дней.

Главная цель Agentic PTaaS: непрерывное снижение рисков посредством надежной проверки
Сервис решает ключевую проблему: разрыв между dev-velocity и security в fast-changing enterprise-средах.

Core миссия
:
Непрерывная проверка exploitability (не theoretical risks) с 88% fix-verified accuracy.
Scale без потери качества: AI масштабирует recon/exploitation, эксперты — judgment.
CTEM operationalization: От discovery → prioritization → remediation в HackerOne Platform.

Этапы тестирования
1. Scoping (Pentest Scoping Assistant): Определение поверхности атаки, целей. AI мапит конечные точки/API.
2. Разведка: Агенты автономно сканируют большие/меняющиеся поверхности.
3. Настройка и перечисление: Автоматизированная настройка, повторяющиеся проверки.
4. Эксплуатация: запатентованные разведывательные гипотезы; с учетом кода для LLM (быстрое внедрение, утечка).
5. Проверка: эксперты проверяют реальную возможность использования перед отчетом.
6. Отчетность и исправления: Интеграция в CTEM — расстановка приоритетов, исправление рабочих процессов.

#Pentesting #AI #Cybersecurity #HackerOne #AgenticAI
1
🚨 Moltbook, новая соцсеть только для AI‑агентов, оказалась с критически уязвимой базой данных:

из‑за ошибочной конфигурации Supabase её БД была доступна без аутентификации, что позволяло любому получить email‑адреса, токены входа и API‑ключи десятков тысяч агентов и полностью захватывать их аккаунты.

DATABASE_ENDPOINT: https://api.moltbook.ai/v1/agents
AUTH: НИКАКОЙ (публичный доступ!)
DATA EXPOSED:
├── 150,000+ AI agent records
├── API keys & OAuth tokens
├── Creator emails & metadata
├── Agent personalities & prompts
└── Control endpoints


Исследователь Джеймсон О’Рейли показал, что достаточно было взять публичный Supabase URL и ключ из фронтенда, чтобы через открытый API извлечь ключи и начать постить от имени любого бота, включая популярные аккаунты вроде агента Андрея Карпати.

link 1, link 2, link 3

#Moltbook #hack #ai
Media is too big
VIEW IN TELEGRAM
Ставьте на x2 для скорости

Покупаем годовую подписку Pro на Perplexity AI за 150$ вместо 200$.

Обычно годовая подписка Pro стоит 200 долларов, а все промо‑коды из интернета уже устарели или вообще не работают — вставляешь, а система просто игнорирует.
Но такие манипуляции, как на видео, позволяют обойти это и получить скидку «из‑под капота» через localStorage и перезагрузку страницы.

Важно:
*Для каждого теста используйте новую почту и аккаунт.

1. Заходите на страницу оплаты Perplexity Pro в браузере.
2. Открываете DevTools → Console и вставляете строку:

localStorage.setItem('pplx.discount_code', '8PADXANG'); location.reload();

Пробуйте все, какой-то да сработает, логика обхода иногда бывает подводит(
99CTSJ3L
8PADXANG
PBVD5WLP
QPUXVY3G

После перезагрузки на странице оплаты должна появиться скидка.

#perplexity
👍1😱1
Пока не ложимся спать:
Чекаем кто купил интерпрайс...

#perplexity
Forwarded from CyberED
Потратил $5 000 на AI-агентов для пентеста. Какие результаты получил?

Всем привет! На связи Сергей Зыбнев. Я 5 лет в ИБ, веду телеграм-канал Похек, работаю тимлидом пентестеров в «Бастион», специализируюсь на веб-пентесте.

🤖 В последнее время я увлёкся AI/ML/LLM R&D и за 1,5 года потратил больше $5 000 из своего кармана на эксперименты с AI-агентами для пентеста. 

В карточках рассказал, какие инструменты испытал.

Подробнее про каждый из них, результаты и мои выводы об AI для пентеста — в свежей статье для CyberED.

👉 Читать статью 👈
___
Больше об экспериментах с AI пишу в телеграмм-канале Похек AI – подпишитесь 🙃
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM