Решил протестит GigaCode кто со мной? Хочу услышать комментарии.
gitverse.ru
GitVerse — Платформа для работы с исходным кодом, Git-репозиторий
✅ GitVerse — платформа для разработчиков. ✅ Создавайте и развивайте проекты с открытым и закрытым исходным кодом. ✅ Загрузка репозиториев, импорт и зеркалирование из других git-сервисов.
МТС, первая в России компании которая дает доступ к моделям Qwen3-235B (235 млрд параметров), Kimi K2 (1 трлн параметров) и GLM-4.6 (357 млрд параметров). Планируется, что в ближайшее время на платформу будут добавлены и другие модели сопоставимого класса.
О бесплатном периоде на ВМ👉 линк
Попробовать можно 👉 линк
О бесплатном периоде на ВМ👉 линк
Попробовать можно 👉 линк
Forbes.ru
Ближе к народу: МТС выйдет на рынок ИИ-сервисов для конечных пользователей
В 2026 году МТС намерена предложить продукты на базе ИИ в В2С-направлении, узнал Forbes. Ее «дочка» МТС Web Services обновила платформу больших языковых моделей MWS GPT и детектор дипфейков и рассматривает их в качестве сервисов, которые могут примен
Работаю с сервисом Kimi — и пока он меня сильно выручает.
Вывод: однозначно советую использовать для повседневных рабочих задач.
#kimi #ai #work
Chat: чат-модель на уровне ChatGPT-5 — чётко, быстро, без воды.
OK Computer: пишет сайт на раз-два. Не просто лендинги, а полноценные дашборды с обращением к API, сканированием и пр. (правда, бесплатные попытки быстро заканчиваются).
Banan (Visual): нужна была преза по статусам исправления найденых уязвимостей сделал все очень круто, информативная и наглядная презентацию.
Вывод: однозначно советую использовать для повседневных рабочих задач.
#kimi #ai #work
👍1
Применяем OODA в тестирование на проникновение.
OODA расшифровывается как «наблюдай, ориентируйся, решай и действуй». Эта концепция была разработана американскими военными для обучения солдат принимать решения в условиях нехватки времени на сбор всех данных.
Проанализировав принцы OODA я его внедрил в инструкцию для LLM-AUTO-PENTEST
И одним из параметров этой инструкции стал подход для поиска разных векторов которые нужно применять для тестирование на веб-домене (не только).
Представляю вашему вниманию:
SCAN-TOUCH-FUZZ-ESCAPE-LOGIC-RACE-SIDE-CHANNEL-ALL (STFELRSCA)
Расшифровка в стиле autopentest OODA:
Конечно "STFELRSCA" это не полный набор векторов, и OODA это не только "STFELRSCA", но идея применения данного подхода мне показался позитивной для инструкции к LLM.
#txautopentest #OODA #proveorGTFO
OODA расшифровывается как «наблюдай, ориентируйся, решай и действуй». Эта концепция была разработана американскими военными для обучения солдат принимать решения в условиях нехватки времени на сбор всех данных.
Проанализировав принцы OODA я его внедрил в инструкцию для LLM-AUTO-PENTEST
И одним из параметров этой инструкции стал подход для поиска разных векторов которые нужно применять для тестирование на веб-домене (не только).
Представляю вашему вниманию:
SCAN-TOUCH-FUZZ-ESCAPE-LOGIC-RACE-SIDE-CHANNEL-ALL (STFELRSCA)
Расшифровка в стиле autopentest OODA:
S – Subeverything: домены, IP, процессы, VLAN, BLE, Zigbee, IPv6, 6LoWPAN
C – Certs, Ciphers, Cookies, CORS, CSP, Cron, Containers, Creds, Cache, Configs, CVE
A – APIs (REST/GraphQL/gRPC/WebSocket), AuthN/Z, ACLs, Archives, AD, ARM-TrustZone
N – Namespaces, NAT, NFC, 5G, NTLM, NTP, NoSQLi, Nonce-reuse, NULL-deref
T – TLS-versions, Timing/TOCTOU/race, Tokens (JWT/SSO), TEE, TPM, TXT
O – Open-ports, Objects (S3), OTP, OIDC, Overflows, Orphaned-pts, OMI, OPC-UA
U – Users, UID/GID, USB, UEFI, UPnP, URI-handlers, UAF, Unicode-tricks
C – CSRF, CRLF, Command-inj, Cookies, Cloud-metadata (IMDS), Certs, Cache-poison
H – Headers (HSTS/XFO/COEP), Hashes (weak), Host-header inj, HTTP-smuggling, HW (JTAG)
F – Files (hidden/backup), Functions (dangerous), Firmware, FTP, Formats, Fuzz-vectors
U – UUIDs, UDP, Unix-sockets, Use-after-free, Uninitialized-memory, Unsafe-eval
Z – Zero-conf (mDNS/SSDP), Zero-days (GitHub/Twitter), Zephyr-RTOS, Z-Wave, Zigbee
E – ENV-vars, Endpoints (hidden), Escapes (container/VM/kernel), ECC-curves, Eval-inj
S – Secrets (hard-coded), SUID/SGID, Symlinks, systemd, sudo, SSRF, SSTI, Side-channels
C – Ciphersuites, CORS-bypass, Cache-deception, Container-capabilities, Core-dumps
A – ASLR-bypass, AT-cmd-inj, ACPI, ADCS, API-rate-limit, Auth-session-fixation
P – Ports (TCP/UDP/SCTP), Packages, Privileges, Policies (SELinux/seccomp), Padding-oracle
E – EEPROM, EFI, ECC-invalid-curve, Entropy-leaks, Error-based-SQLi, Event-race
S – Stack-canaries, Sandboxes, SAML, SSH-algos, SNMP-community, Seed-leaks
C – CSRF-tokens, CSP-bypass, CSV-inj, Certificate-pinning, Cloud-ACLs, Container-breakouts
A – Auth-bypass, Arg-inj, Android-Intents, API-keys, AD-GPO, AWS-IMDSv1
N – NTLM-relay, NFC, NULL-prefix, NTP-monlist, Nonce-reuse, Nuclei-templates
N – NX-bit-bypass, N-day-check (Exploit-DB), Network-namespace-escape
E – EEPROM-extract, EFI-bootkit, Environment-leaks, Escalation (LPE)
L – Logic-bugs, LDAP-inj, LFI, Leaked-git, Linux-capabilities, LFI-to-RCE
L – LLM-prompt-inj, LTE-Downgrade, LoRa-keys, Logic-flaws, LocalStorage-leaks
– – и всё, что мы просто ещё не придумали
Конечно "STFELRSCA" это не полный набор векторов, и OODA это не только "STFELRSCA", но идея применения данного подхода мне показался позитивной для инструкции к LLM.
#txautopentest #OODA #proveorGTFO
Сам пользую *-cli решениями (не в корп среде)
И что меня останавливает для использования ее "внутри".
Что всё больше компаний внедряют *-cli ИИ-решения (Gemini CLI, Koda-CLI, Codex CLI, Claude Code) — терминальных помощников для администраторов и разработчиков в свою рабочее пространство.
Явные преимущества:
- Получение подсказок по настройке инфраструктуры
- Решение технических задач
- Автоматизация рутины
- Интеграция в корпоративные процессы
Однако есть серьёзный риск:
- Передача запросов на сторонние ИИ-сервисы
- Утечка конфиденциальных данных (IP, логины, персональная информация, настройки)
я в чертогах, придумал такое название ProxyAI - локальный ИИ-прокси внутри компании.
Как это работает:
- Пользователь отправляет запрос через *-cli
- proxAI выявляет конфиденциальные данные (например, IP-адрес)
- Заменяет их на нейтральные метки (IP_XXX)
- Отправляет анонимизированный запрос внешнему ИИ
- Внешний ИИ возвращает ответ
- proxAI подставляет исходные данные и отдаёт полный безопасный ответ пользователю
Гарантии безопасности:
- Конфиденциальные данные никогда не покидают компанию
- Временные метки хранятся только в защищённой памяти
- Все коммуникации с внешними ИИ — анонимизированные
Все критические данные остаются внутри компании, а внешние ИИ работают только с обезличенными запросами.
***
Такой подход обеспечивает максимальную безопасность и доверие к корпоративным ИИ-решениям.
И что меня останавливает для использования ее "внутри".
Что всё больше компаний внедряют *-cli ИИ-решения (Gemini CLI, Koda-CLI, Codex CLI, Claude Code) — терминальных помощников для администраторов и разработчиков в свою рабочее пространство.
Явные преимущества:
- Получение подсказок по настройке инфраструктуры
- Решение технических задач
- Автоматизация рутины
- Интеграция в корпоративные процессы
Однако есть серьёзный риск:
- Передача запросов на сторонние ИИ-сервисы
- Утечка конфиденциальных данных (IP, логины, персональная информация, настройки)
я в чертогах, придумал такое название ProxyAI - локальный ИИ-прокси внутри компании.
Как это работает:
- Пользователь отправляет запрос через *-cli
- proxAI выявляет конфиденциальные данные (например, IP-адрес)
- Заменяет их на нейтральные метки (IP_XXX)
- Отправляет анонимизированный запрос внешнему ИИ
- Внешний ИИ возвращает ответ
- proxAI подставляет исходные данные и отдаёт полный безопасный ответ пользователю
Гарантии безопасности:
- Конфиденциальные данные никогда не покидают компанию
- Временные метки хранятся только в защищённой памяти
- Все коммуникации с внешними ИИ — анонимизированные
Все критические данные остаются внутри компании, а внешние ИИ работают только с обезличенными запросами.
***
Такой подход обеспечивает максимальную безопасность и доверие к корпоративным ИИ-решениям.
👍1
Помогите!
Что-то с кибербезом
Ответ :zero day (донет выступает просто дыркой)
Если кто хочет отвлечься от киберрутины
Что-то с кибербезом
Ответ :zero day (донет выступает просто дыркой)
Если кто хочет отвлечься от киберрутины
Буду периодические выкладывать результаты работы ИИ-пенетста в:
AI-Pentest: Deep Dive into Janus WebRTC Vulnerabilities
#ai #pentest #vibehack
AI-Pentest: Deep Dive into Janus WebRTC Vulnerabilities
#ai #pentest #vibehack
Tinrae
AI-Pentest: Deep Dive into Janus WebRTC Vulnerabilities
Step-by-step technical walkthrough of Janus WebRTC API secret exposure, session creation, stream enumeration and unauthorized access.
Этот год у Google был объявлен годом, когда искусственный интеллект (ИИ) перейдет от статуса экспериментальной технологии к практическому применению.
От себя добавлю - https://t.iss.one/tinraeCOM/204
пользуйтесь их сервисами аккуратно, тк интеграция с их моделями проходят без ваша ведома, а безопасность оставляет желать лучшего!
#google #ai
Telegram
Заметки Шляпника
Уязвимость в Google Workspace: манипулирование контекстом через Google Keep и Gemini
⢅⠒⢑⡘ ⢡⠦⢈⡨⣈⢔⢉⢉⢌ ⢒⢠⠲ ⠪⢰⠘⠔⡠⠑⡊⢈⡌
Я потратил около 15 часов на исследование уязвимости, а полученный ответ считаю полным дер*мом) На сайте компании заявлено, что уязвимости…
⢅⠒⢑⡘ ⢡⠦⢈⡨⣈⢔⢉⢉⢌ ⢒⢠⠲ ⠪⢰⠘⠔⡠⠑⡊⢈⡌
Я потратил около 15 часов на исследование уязвимости, а полученный ответ считаю полным дер*мом) На сайте компании заявлено, что уязвимости…
👍1
Наши азиатские братишки, форкнули OpenRouter. Теже модели, цены от поставщика, ру-поддержка.
Сразу к ценам - https://302.ai/price
Сразу к ценам - https://302.ai/price
302.AI
企业级AI资源平台 - 302.AI
按用量付费的企业级AI平台,提供全模型API和开源应用。立即体验高效AI开发。
🔥1
Дорогие мои!
С наступающим Новым Годом! Пусть 2026 год принесет вам удачу, счастье и множество новых возможностей для развития!
В качестве подарка я рады поделиться с вами сервисом который мне был нужен и я его поднял у себя, но также решил выложить его для всех, на котором вы сможете проводить тестирования на проникновение с помощью DVWA. Обратите внимание, что на сервисе не реализован WAF или другие ограничения.
Не упустите шанс прокачать свои знания и навыки! Желаем вам успешных экспериментов и творческих успехов в новом году!
С наступающим Новым Годом! Пусть 2026 год принесет вам удачу, счастье и множество новых возможностей для развития!
В качестве подарка я рады поделиться с вами сервисом который мне был нужен и я его поднял у себя, но также решил выложить его для всех, на котором вы сможете проводить тестирования на проникновение с помощью DVWA. Обратите внимание, что на сервисе не реализован WAF или другие ограничения.
Не упустите шанс прокачать свои знания и навыки! Желаем вам успешных экспериментов и творческих успехов в новом году!
🍾2
Интеграция Burp Suite с клиентами ИИ с использованием протокола контекста модели (MCP).
Для получения дополнительной информации о протоколе посетите: modelcontextprotocol.io
Примечание: Любые данные, отправляемые внешним инструментам через это расширение, регулируются их политикой обработки данных.
Функции
1. Подключение Burp Suite к клиентам ИИ через MCP
2. Автоматическая установка для Claude Desktop
3. В комплекте поставляется прокси-сервер Stdio MCP
Использование
- Настройте свой сервер Burp MCP на вкладке, предоставляемой расширением.
- Настройте свой клиент MCP для использования сервера Burp SSE MCP или прокси-сервера stdio.
- Взаимодействуйте с Burp через свой клиент.
Для получения дополнительной информации о протоколе посетите: modelcontextprotocol.io
Примечание: Любые данные, отправляемые внешним инструментам через это расширение, регулируются их политикой обработки данных.
Функции
1. Подключение Burp Suite к клиентам ИИ через MCP
2. Автоматическая установка для Claude Desktop
3. В комплекте поставляется прокси-сервер Stdio MCP
Использование
- Настройте свой сервер Burp MCP на вкладке, предоставляемой расширением.
- Настройте свой клиент MCP для использования сервера Burp SSE MCP или прокси-сервера stdio.
- Взаимодействуйте с Burp через свой клиент.
portswigger.net
MCP Server
Integrate Burp Suite with AI Clients using the Model Context Protocol (MCP).
Исследователи в xOffense показали, как выглядит нормальный автопентест‑фреймворк на LLM, а не просто «модель, которая пишет команды»
Что они реально собрали
- Полноценная multi‑agent система: фазы Recon → Scanning → Exploitation, каждая с отдельными ролями и тулзами (Nmap, Dirb/Gobuster, Amass, Nikto, WPScan, sqlmap, Metasploit, Hydra, John, ExploitDB и др.).
- В центре — Task Orchestrator с Task Coordination Graph (TCG): ориентированный граф задач с зависимостями, статусами и результатами, который динамически обновляется и хранится в JSON.
Фишки по ИИ и архитектуре
- Вместо гигантских закрытых моделей — Qwen3‑32B, дообученный LoRA на пентест‑данных (write‑up’ы с TryHackMe, HackTheBox, VulnHub + WhiteRabbitNeo, всё с Chain‑of‑Thought разбором шагов атаки).
- Grey‑box prompting: агентам дают не полный дамп инфы, а отфильтрованный контекст по фазе (открытые порты, версии, выводы сканов, статус сессии), чтобы не терять реализм black‑box и не ломать контекст токенами.
Как всё крутится внутри
- Пять ключевых компонентов:
- Task Orchestrator — планирует и пересобирает TCG (две сессии: Planning и Task Session).
- Knowledge Repository — RAG‑хранилище (кейсы, техники, HackTricks/HackingArticles), подтягивает похожие случаи при ре‑планировании.
- Command Synthesizer — дообученный LLM, который генерит конкретные команды (nmap/sqlmap/metasploit и т.п.).
- Action Executor — «робот‑оператор Kali» через Paramiko, выполняет команды и обрабатывает длинный вывод.
- Information Aggregator — сжимает логи в компактный контекст, ведёт журнал сессий и привилегий.
План, рефлексия и память
- TCG: у каждой задачи директива, тип операции, prereqs, команда, outcome, completion/success; при фейлах оркестратор не всё запускает заново, а обновляет только часть плана (алгоритмы UpdatePlan и MergeTasks).
- Check & Reflection: на ошибке система пересматривает задачу, подсовывает из Knowledge Repository релевантные кейсы и перестраивает стратегию вместо тупого ретрая.
- Для длинных логов используется подход в духе MemAgent: вывод режется на чанки, LLM вынимает важное и обновляет компактную «оперативную память», чтобы вписаться в 16k‑контекст Qwen3‑32B.
Обучение и результаты
- Qwen3‑32B дообучен LoRA с DeepSpeed ZeRO‑3 и FlashAttention v2, чтобы 32B‑модель жила на A100 и была пригодна для офенсив‑лаборатории/on‑prem.
- Оценка идёт на AutoPenBench (33 задачи, включая реальные CVE вроде Log4Shell, Heartbleed, SambaCry, Spring4Shell) и AI‑Pentest‑Benchmark (13 машин VulnHub, 152 сабтаска от разведки до root) с метриками по полному компромайзу и по субтаскам (одно и пять прогонов).
Главная мысль статьи: не размер модели решает, а дисциплина оркестрации (TCG/PTG), нормальный контекст (grey‑box), память и рефлексия; xOffense — эволюция VulnBot с mid‑scale open‑source моделью и более жёсткой архитектурой, уже очень похожей на то, что можно собирать в боевом автопентест‑стеке.
Что они реально собрали
- Полноценная multi‑agent система: фазы Recon → Scanning → Exploitation, каждая с отдельными ролями и тулзами (Nmap, Dirb/Gobuster, Amass, Nikto, WPScan, sqlmap, Metasploit, Hydra, John, ExploitDB и др.).
- В центре — Task Orchestrator с Task Coordination Graph (TCG): ориентированный граф задач с зависимостями, статусами и результатами, который динамически обновляется и хранится в JSON.
Фишки по ИИ и архитектуре
- Вместо гигантских закрытых моделей — Qwen3‑32B, дообученный LoRA на пентест‑данных (write‑up’ы с TryHackMe, HackTheBox, VulnHub + WhiteRabbitNeo, всё с Chain‑of‑Thought разбором шагов атаки).
- Grey‑box prompting: агентам дают не полный дамп инфы, а отфильтрованный контекст по фазе (открытые порты, версии, выводы сканов, статус сессии), чтобы не терять реализм black‑box и не ломать контекст токенами.
Как всё крутится внутри
- Пять ключевых компонентов:
- Task Orchestrator — планирует и пересобирает TCG (две сессии: Planning и Task Session).
- Knowledge Repository — RAG‑хранилище (кейсы, техники, HackTricks/HackingArticles), подтягивает похожие случаи при ре‑планировании.
- Command Synthesizer — дообученный LLM, который генерит конкретные команды (nmap/sqlmap/metasploit и т.п.).
- Action Executor — «робот‑оператор Kali» через Paramiko, выполняет команды и обрабатывает длинный вывод.
- Information Aggregator — сжимает логи в компактный контекст, ведёт журнал сессий и привилегий.
План, рефлексия и память
- TCG: у каждой задачи директива, тип операции, prereqs, команда, outcome, completion/success; при фейлах оркестратор не всё запускает заново, а обновляет только часть плана (алгоритмы UpdatePlan и MergeTasks).
- Check & Reflection: на ошибке система пересматривает задачу, подсовывает из Knowledge Repository релевантные кейсы и перестраивает стратегию вместо тупого ретрая.
- Для длинных логов используется подход в духе MemAgent: вывод режется на чанки, LLM вынимает важное и обновляет компактную «оперативную память», чтобы вписаться в 16k‑контекст Qwen3‑32B.
Обучение и результаты
- Qwen3‑32B дообучен LoRA с DeepSpeed ZeRO‑3 и FlashAttention v2, чтобы 32B‑модель жила на A100 и была пригодна для офенсив‑лаборатории/on‑prem.
- Оценка идёт на AutoPenBench (33 задачи, включая реальные CVE вроде Log4Shell, Heartbleed, SambaCry, Spring4Shell) и AI‑Pentest‑Benchmark (13 машин VulnHub, 152 сабтаска от разведки до root) с метриками по полному компромайзу и по субтаскам (одно и пять прогонов).
Главная мысль статьи: не размер модели решает, а дисциплина оркестрации (TCG/PTG), нормальный контекст (grey‑box), память и рефлексия; xOffense — эволюция VulnBot с mid‑scale open‑source моделью и более жёсткой архитектурой, уже очень похожей на то, что можно собирать в боевом автопентест‑стеке.
🔥2
ARTEMIS стал первым реально показавшим, что агентный ИИ в состоянии «тянуть» живой пентест на уровне сильных людей, а в прод‑инструментах 2026 уже вырисовывается трио
Link 1, Link 2, Link 3
ARTEMIS: что именно показали
• Тестовая площадка — реальная сеть университета ~8000 хостов в 12 подсетях, где одновременно работали 10 опытных пентестеров и несколько ИИ‑агентов.
• ARTEMIS (multi‑agent scaffold) нашёл 9 валидных уязвимостей с долей валидных репортов ~82%, обойдя 9 из 10 людей и заняв второе место после топ‑человека, который нашёл больше и лучше чинил цепочки.
• Стоимость часа работы агента оценена примерно в 15–18 долларов, что на порядок дешевле ручного консалтинга при сопоставимом охвате и скорости — отсюда интерес к «ИИ‑аутсорсингу» рутинного пентеста.
Сильные и слабые зоны агентного ИИ
• Сильная сторона ARTEMIS — CLI‑ориентированный рекогносцировочный и эксплуатационный контур: сканирование, brutish‑рекон, эксплуатация типовых веб/API‑векторов и автоматический триаж находок.
• Слабая зона — GUI и нестандартные интерфейсы: агент не справился, например, с эксплойтом критического RCE через веб‑GUI на Windows, тогда как 80% людей его дожали, плюс заметно более высокий уровень false‑positive по сравнению с людьми.
• Важный вывод: лучшие результаты даёт гибрид — ИИ‑агент гонит ширину и черновой тріаж, а человек закрывает творческое chaining и валидацию сложных кейсов.
Escape / XBOW / Invicti как разные полюса автоматизации (логика, оркестрация агентов, DAST‑усиление). При этом технический потолок хорошо заметен: высокая цена валидации, слабость по GUI и масштабирование остаются узкими местами.Link 1, Link 2, Link 3
ARTEMIS: что именно показали
• Тестовая площадка — реальная сеть университета ~8000 хостов в 12 подсетях, где одновременно работали 10 опытных пентестеров и несколько ИИ‑агентов.
• ARTEMIS (multi‑agent scaffold) нашёл 9 валидных уязвимостей с долей валидных репортов ~82%, обойдя 9 из 10 людей и заняв второе место после топ‑человека, который нашёл больше и лучше чинил цепочки.
• Стоимость часа работы агента оценена примерно в 15–18 долларов, что на порядок дешевле ручного консалтинга при сопоставимом охвате и скорости — отсюда интерес к «ИИ‑аутсорсингу» рутинного пентеста.
Сильные и слабые зоны агентного ИИ
• Сильная сторона ARTEMIS — CLI‑ориентированный рекогносцировочный и эксплуатационный контур: сканирование, brutish‑рекон, эксплуатация типовых веб/API‑векторов и автоматический триаж находок.
• Слабая зона — GUI и нестандартные интерфейсы: агент не справился, например, с эксплойтом критического RCE через веб‑GUI на Windows, тогда как 80% людей его дожали, плюс заметно более высокий уровень false‑positive по сравнению с людьми.
• Важный вывод: лучшие результаты даёт гибрид — ИИ‑агент гонит ширину и черновой тріаж, а человек закрывает творческое chaining и валидацию сложных кейсов.
arXiv.org
Comparing AI Agents to Cybersecurity Professionals in Real-World...
We present the first comprehensive evaluation of AI agents against human cybersecurity professionals in a live enterprise environment. We evaluate ten cybersecurity professionals alongside six...
Заметки Шляпника
ARTEMIS стал первым реально показавшим, что агентный ИИ в состоянии «тянуть» живой пентест на уровне сильных людей, а в прод‑инструментах 2026 уже вырисовывается трио Escape / XBOW / Invicti как разные полюса автоматизации (логика, оркестрация агентов, DAST‑усиление).…
Если резюмировать для себя: ARTEMIS очень круто закрывает оркестрацию CLI‑пентеста и длинные сессии за счёт грамотного скэффолдинга, но продолжает быть слепым по GUI, часто стреляет false‑positive и плохо «докапывает» найденные вектора.
Сильные стороны ARTEMIS (что стоит украсть:))
1. Мультиагентный скэффолдинг, а не «LLM вокруг nmap»
- Есть supervisor, который ставит цели и координирует пачку специализированных суб‑агентов (recon, web, exploit, triage), а не один монолитный агент.
- Под каждую задачу динамически генерятся системные промпты с подсказками по конкретным CLI‑тулзам и ожидаемому поведению суб‑агента.
2. Управление длинным горизонтом задач (recursive TODO system)
- Встроенный TODO/таск‑трекер: агент разбивает цель на подзадачи, хранит их в отдельной структуре и последовательно отрабатывает, не упираясь в контекст окна LLM.
- Это даёт возможность гонять сессию по 10+ часов с нормальной устойчивостью и без «потери нити» после сотен команд и логов.
3. Параллелизм и масштабирование по хостам
- ARTEMIS запускает до 8 суб‑агентов параллельно, что позволяет одновременно брутить разные подсети/сервисы и сильно обгоняет людей по ширине покрытия.
- Архитектурно это «swarm» суб‑агентов поверх общей шины контекста и supervisor‑логики — удобно переносится в свой дизайн (параллельные воркеры поверх общей БД/шины).
4. Автоматический триаж и качество сабмитов
- Важный акцент: агент не просто «нашёл 200 подозрительных ответов», а гонит отдельный триаж‑слой, который решает, стоит ли поднимать находку до репорта.
- За счёт этого добились ~82% валидных сабмитов при 9 реальных уязвимостях, что уже сравнимо с сильным человеком.
5. Поведение, близкое к человеческому kill‑chain
- В исследовании видно, что ARTEMIS воспроизводит типичный pipeline: систематический recon → эксплуатация типовых багов → использование найденных кредов / lateral movement.
- Для своего проекта это аргумент строит не «набор отдельных skills», а явную модель kill‑chain / фаз, между которыми бегает supervisor.
Слабые стороны ARTEMIS
1. Полная слепота к полноценному GUI
- Агент не умеет нормально кликать браузером: провалился на RCE через TinyPilot, который 80% людей нашли, потому что нужно было пройти GUI‑флоу.
- Отсюда: всё, что завязано на сложные web‑флоу (SPA с JS‑логикой, нестандартные логины, wizard‑ы) сильно недотестировано.
2. Повышенный уровень false‑positive
- Типичный пример: агент принял HTTP 200 после логина за «успешную аутентификацию», хотя это был редирект обратно на логин‑форму — для человека это тривиально читается глазами.
- В целом ARTEMIS заметно более шумный, чем живые пентестеры, что сразу бьёт по довериям к отчёту и требует человеческого ретестинга.
3. Проблема pivot‑инга и углубления вектора
- После того как находит баг, ARTEMIS часто сразу формирует сабмит и уходит дальше по хостам, вместо того чтобы углубиться и поискать более критичный эквивалент (например, от CORS‑мискoна до RCE).
- Исследование показывает: когда дают более жирные хинты, агент всё‑таки может найти тяжёлые баги → значит, bottleneck в стратегии поиска и приоритизации, а не в техническом скилле.
4. Завязка на CLI‑стек и «старый» web
- ARTEMIS отлично работает там, где есть классический CLI‑доступ и HTTP‑сервисы, но современный сложный фронт с heavy‑JS и нестандартной логикой ему даётся хуже.
- Отдельно подчёркивается, что изученный эксперимент короткий по времени (около 10–16 часов), тогда как реал‑ворлд пентест обычно 1–2 недели.
5. Риск переоценки возможностей
- В отчётах подчёркивают: это не «идеальный пентестер из коробки», а всё ещё система с высоким шумом и узкими местами, особенно там, где нужна человеческая интуиция и креативный chaining.
- Перекладывать на такой агент 100% ответственности за оценку риска всё ещё опасно.
Сильные стороны ARTEMIS (что стоит украсть:))
1. Мультиагентный скэффолдинг, а не «LLM вокруг nmap»
- Есть supervisor, который ставит цели и координирует пачку специализированных суб‑агентов (recon, web, exploit, triage), а не один монолитный агент.
- Под каждую задачу динамически генерятся системные промпты с подсказками по конкретным CLI‑тулзам и ожидаемому поведению суб‑агента.
2. Управление длинным горизонтом задач (recursive TODO system)
- Встроенный TODO/таск‑трекер: агент разбивает цель на подзадачи, хранит их в отдельной структуре и последовательно отрабатывает, не упираясь в контекст окна LLM.
- Это даёт возможность гонять сессию по 10+ часов с нормальной устойчивостью и без «потери нити» после сотен команд и логов.
3. Параллелизм и масштабирование по хостам
- ARTEMIS запускает до 8 суб‑агентов параллельно, что позволяет одновременно брутить разные подсети/сервисы и сильно обгоняет людей по ширине покрытия.
- Архитектурно это «swarm» суб‑агентов поверх общей шины контекста и supervisor‑логики — удобно переносится в свой дизайн (параллельные воркеры поверх общей БД/шины).
4. Автоматический триаж и качество сабмитов
- Важный акцент: агент не просто «нашёл 200 подозрительных ответов», а гонит отдельный триаж‑слой, который решает, стоит ли поднимать находку до репорта.
- За счёт этого добились ~82% валидных сабмитов при 9 реальных уязвимостях, что уже сравнимо с сильным человеком.
5. Поведение, близкое к человеческому kill‑chain
- В исследовании видно, что ARTEMIS воспроизводит типичный pipeline: систематический recon → эксплуатация типовых багов → использование найденных кредов / lateral movement.
- Для своего проекта это аргумент строит не «набор отдельных skills», а явную модель kill‑chain / фаз, между которыми бегает supervisor.
Слабые стороны ARTEMIS
1. Полная слепота к полноценному GUI
- Агент не умеет нормально кликать браузером: провалился на RCE через TinyPilot, который 80% людей нашли, потому что нужно было пройти GUI‑флоу.
- Отсюда: всё, что завязано на сложные web‑флоу (SPA с JS‑логикой, нестандартные логины, wizard‑ы) сильно недотестировано.
2. Повышенный уровень false‑positive
- Типичный пример: агент принял HTTP 200 после логина за «успешную аутентификацию», хотя это был редирект обратно на логин‑форму — для человека это тривиально читается глазами.
- В целом ARTEMIS заметно более шумный, чем живые пентестеры, что сразу бьёт по довериям к отчёту и требует человеческого ретестинга.
3. Проблема pivot‑инга и углубления вектора
- После того как находит баг, ARTEMIS часто сразу формирует сабмит и уходит дальше по хостам, вместо того чтобы углубиться и поискать более критичный эквивалент (например, от CORS‑мискoна до RCE).
- Исследование показывает: когда дают более жирные хинты, агент всё‑таки может найти тяжёлые баги → значит, bottleneck в стратегии поиска и приоритизации, а не в техническом скилле.
4. Завязка на CLI‑стек и «старый» web
- ARTEMIS отлично работает там, где есть классический CLI‑доступ и HTTP‑сервисы, но современный сложный фронт с heavy‑JS и нестандартной логикой ему даётся хуже.
- Отдельно подчёркивается, что изученный эксперимент короткий по времени (около 10–16 часов), тогда как реал‑ворлд пентест обычно 1–2 недели.
5. Риск переоценки возможностей
- В отчётах подчёркивают: это не «идеальный пентестер из коробки», а всё ещё система с высоким шумом и узкими местами, особенно там, где нужна человеческая интуиция и креативный chaining.
- Перекладывать на такой агент 100% ответственности за оценку риска всё ещё опасно.
GitHub
GitHub - Stanford-Trinity/ARTEMIS
Contribute to Stanford-Trinity/ARTEMIS development by creating an account on GitHub.
История в двух актах.
Делайте бэкапы....
*гита никогда там и не было...
Делайте бэкапы....
❤1🔥1