Заметки Шляпника

ARTEMIS стал первым реально показавшим, что агентный ИИ в состоянии «тянуть» живой пентест на уровне сильных людей, а в прод‑инструментах 2026 уже вырисовывается трио Escape / XBOW / Invicti как разные полюса автоматизации (логика, оркестрация агентов, DAST‑усиление).…

Если резюмировать для себя: ARTEMIS очень круто закрывает оркестрацию CLI‑пентеста и длинные сессии за счёт грамотного скэффолдинга, но продолжает быть слепым по GUI, часто стреляет false‑positive и плохо «докапывает» найденные вектора.

Сильные стороны ARTEMIS (что стоит украсть:))

1. Мультиагентный скэффолдинг, а не «LLM вокруг nmap»

- Есть supervisor, который ставит цели и координирует пачку специализированных суб‑агентов (recon, web, exploit, triage), а не один монолитный агент.
- Под каждую задачу динамически генерятся системные промпты с подсказками по конкретным CLI‑тулзам и ожидаемому поведению суб‑агента.

2. Управление длинным горизонтом задач (recursive TODO system)
- Встроенный TODO/таск‑трекер: агент разбивает цель на подзадачи, хранит их в отдельной структуре и последовательно отрабатывает, не упираясь в контекст окна LLM.
- Это даёт возможность гонять сессию по 10+ часов с нормальной устойчивостью и без «потери нити» после сотен команд и логов.

3. Параллелизм и масштабирование по хостам
- ARTEMIS запускает до 8 суб‑агентов параллельно, что позволяет одновременно брутить разные подсети/сервисы и сильно обгоняет людей по ширине покрытия.
- Архитектурно это «swarm» суб‑агентов поверх общей шины контекста и supervisor‑логики — удобно переносится в свой дизайн (параллельные воркеры поверх общей БД/шины).

4. Автоматический триаж и качество сабмитов
- Важный акцент: агент не просто «нашёл 200 подозрительных ответов», а гонит отдельный триаж‑слой, который решает, стоит ли поднимать находку до репорта.
- За счёт этого добились ~82% валидных сабмитов при 9 реальных уязвимостях, что уже сравнимо с сильным человеком.

5. Поведение, близкое к человеческому kill‑chain
- В исследовании видно, что ARTEMIS воспроизводит типичный pipeline: систематический recon → эксплуатация типовых багов → использование найденных кредов / lateral movement.
- Для своего проекта это аргумент строит не «набор отдельных skills», а явную модель kill‑chain / фаз, между которыми бегает supervisor.

Слабые стороны ARTEMIS

1. Полная слепота к полноценному GUI
- Агент не умеет нормально кликать браузером: провалился на RCE через TinyPilot, который 80% людей нашли, потому что нужно было пройти GUI‑флоу.
- Отсюда: всё, что завязано на сложные web‑флоу (SPA с JS‑логикой, нестандартные логины, wizard‑ы) сильно недотестировано.

2. Повышенный уровень false‑positive
- Типичный пример: агент принял HTTP 200 после логина за «успешную аутентификацию», хотя это был редирект обратно на логин‑форму — для человека это тривиально читается глазами.
- В целом ARTEMIS заметно более шумный, чем живые пентестеры, что сразу бьёт по довериям к отчёту и требует человеческого ретестинга.

3. Проблема pivot‑инга и углубления вектора
- После того как находит баг, ARTEMIS часто сразу формирует сабмит и уходит дальше по хостам, вместо того чтобы углубиться и поискать более критичный эквивалент (например, от CORS‑мискoна до RCE).
- Исследование показывает: когда дают более жирные хинты, агент всё‑таки может найти тяжёлые баги → значит, bottleneck в стратегии поиска и приоритизации, а не в техническом скилле.

4. Завязка на CLI‑стек и «старый» web
- ARTEMIS отлично работает там, где есть классический CLI‑доступ и HTTP‑сервисы, но современный сложный фронт с heavy‑JS и нестандартной логикой ему даётся хуже.
- Отдельно подчёркивается, что изученный эксперимент короткий по времени (около 10–16 часов), тогда как реал‑ворлд пентест обычно 1–2 недели.

5. Риск переоценки возможностей
- В отчётах подчёркивают: это не «идеальный пентестер из коробки», а всё ещё система с высоким шумом и узкими местами, особенно там, где нужна человеческая интуиция и креативный chaining.
- Перекладывать на такой агент 100% ответственности за оценку риска всё ещё опасно.

GitHub

GitHub - Stanford-Trinity/ARTEMIS

Contribute to Stanford-Trinity/ARTEMIS development by creating an account on GitHub.

133 views11:59