Похек AI
755 subscribers
37 photos
3 videos
11 files
61 links
All materials published on the channel are for educational and informational purposes only.

AI is not second brain, when you don't use your main brain

Чат: @poxek_chat
Основной канал: @poxek
Download Telegram
Скрипт для обхода inactive check Google Colab
(function() {
let pingCount = 0;

const simulateActivity = () => {
pingCount++;

document.dispatchEvent(new MouseEvent('mousemove', {
bubbles: true,
clientX: Math.random() * window.innerWidth,
clientY: Math.random() * window.innerHeight
}));

const cells = document.querySelectorAll(".cell");
if (cells.length > 0) {
cells[Math.floor(Math.random() * cells.length)].click();
}

window.dispatchEvent(new Event('scroll'));

window.focus();

const nextInterval = 30000 + Math.random() * 60000;

console.log(`🟢 Ping #${pingCount} @ ${new Date().toLocaleTimeString()} | Next in ${Math.round(nextInterval/1000)}s`);

window.colabKeepAliveTimeout = setTimeout(simulateActivity, nextInterval);
};

const firstInterval = 30000 + Math.random() * 60000;
window.colabKeepAliveTimeout = setTimeout(simulateActivity, firstInterval);

console.log(" Colab Keep-Alive запущен (30-90 сек рандомный интервал)");
console.log(`⏱️ Первый ping через ${Math.round(firstInterval/1000)} секунд`);
console.log("🛑 Для остановки: clearTimeout(window.colabKeepAliveTimeout)");
})();


Скрипт надо вставить в browser console

В какой-то момент меня выбесило, что нельзя отойти от ноута, пока запущен какой-то процесс в коллабе. Поэтому родилось это решение. Мне интересно почему нет увед от Colab'а на выполненный (успех или провал) блок.
3
Как CrowdStrike обучает свои GenAI-модели в распределённой среде: разбор стека и техник
#llm #genai #ai #crowdstrike #google #gcp #slurm

Пока одни меряются размерами моделей, другие — строят под них инфраструктуру. CrowdStrike приоткрыла завесу тайны над своим MLOps-пайплайном для тренировки LLM, и там есть на что посмотреть. Никакой магии, только суровый distributed computing.


Инфраструктура и железо. Базируются на Google Cloud Vertex Training Platform, а для управления задачами — старый-добрый Slurm. Никаких самописных велосипедов, всё по классике. Но самое интересное — это их подход к оптимизации под железо. Они наглядно показали, что Flash Attention 2 на B200 даёт колоссальный буст, а на H100 — лишь скромный прирост. Вывод: просто купить новые GPU недостаточно, нужно ещё и софт под них "допиливать".

Параллелизм "5D". CrowdStrike использует комбинацию из пяти техник параллелизма, которую они (с долей маркетинга) называют "5D parallelism":
➡️Data parallelism: репликация модели для параллельной обработки данных.
➡️Tensor parallelism: шардинг тензоров.
➡️Pipeline parallelism: шардинг слоёв модели.
➡️Context parallelism: для работы с длинными контекстами, что критично для их задач вроде анализа бинарников. Здесь они хвастаются хорошими результатами с DeepSpeed Ulysses.
➡️Expert parallelism: для обучения Mixture-of-Experts архитектур.

А чё по видеопамяти? Чтобы впихнуть невпихуемое, используют gradient checkpointing. Это классический трейдофф: меняем vRAM на compute time. Зато с помощью этой техники они смогли сократить пиковое потребление памяти на 80% (с 31GB до 6GB) для DeepSpeed ZeRO 3. Вполне себе результат, когда каждая копейка на счету.

Вывод. Никакого рокет саинса. CrowdStrike демонстрирует зрелый, инженерный подход: бери стандартные, проверенные инструменты (Slurm, DeepSpeed), глубоко разбирайся в железе (оптимизация под B200), используй известные техники (gradient checkpointing) и адаптируй их под свои специфичные задачи (анализ бинарей с длинным контекстом). И да, логируй всё, что движется.

🔗Источник

🌚 @poxek_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Как незаметно встроить бэкдор в AI-модель через отравление данных: разбор техник и инструментов
#llm #data #poisoning #pipeline #mlsecops #llmsecops

Все так увлеклись архитектурами и размерами моделей, что забыли про старый добрый принцип: "Garbage In, Garbage Out". А что, если "мусор" подсунули намеренно? Статья на HackerNoon напоминает, что ваш вылизанный пайплайн и золотая модель могут быть троянским конем, если данные отравлены.


Автор выделяет два типа атак на training data, и разница между ними критична:

➡️Availability Attacks (Атаки на доступность). Это "шумный" и тупой метод. Цель — сломать модель, уронив её точность до нуля. Берём датасет и начинаем беспредел: собакам лепим лейбл "кошка", картинки заливаем шумом. Модель учится на хаосе и на выходе предсказывает погоду на Марсе. Легко заметить на этапе тестирования, но неприятно.

➡️Integrity Attacks (Атаки на целостность). Их ещё называют бэкдорами. Цель — не сломать модель, а вшить в неё скрытый триггер. Модель проходит все тесты, показывает SOTA-результаты, её радостно выкатывают в прод. А потом, в нужный момент, атакующий подаёт на вход картинку с незаметным патчем (например, один пиксель определённого цвета) или фразу-триггер, и модель исполняет заранее заложенную команду. Например, выдаёт неверную классификацию для критического объекта или сливает данные.

Инструментарий. Для автоматизации этого дела автор представил red team тулкит TOAN (Text. Object. And. Noise). Это CLI-инструмент для генерации отравленных датасетов для vision, NLP и даже multimodal-моделей. Поддерживает CIFAR-10, ImageNet, любые датасеты с Hugging Face. Никаких средств защиты, только атака. Есть даже dry run для быстрой проверки конфигов, чтобы не ждать сутки, пока отработает скрипт на гигантском датасете.

Вывод. Пока вы гоняетесь за последними архитектурами, кто-то может уже отравлять данные, на которых вы их обучаете. Безопасность AI — это не только про модель, но и про весь пайплайн, начиная с самого первого байта данных.

🔗Источник

🌚 @poxek_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31
Поговорим о бенчах простым языком.

1. Что показывают бенчмарки

AutoPenBench
- ИИ‑агенты хорошо умеют «шуметь»: сканировать, собирать инфу, запускать базовые тулзы.
- Как только нужно выбрать нормальную атаку и собрать рабочий эксплойт, они начинают фолсить, или уходить в сторону.
- Если рядом есть человек, который иногда подправляет ход мыслей или эксплойт, успех задач резко растёт.

TermiBench
- Тут цель не просто найти флаг, а получить живой shell в реальной, шумной среде с кучей сервисов.
- Современные агенты в таких условиях почти никогда не доходят до shell: либо тонут в шуме, либо не могут доточить цепочку до конца.

PentestEval
- Разбивает пентест на шаги (сбор инфы, выбор атаки, генерация/правка эксплойта, и т.д.).
- Самые слабые места у ИИ – решить, КУДА бить (Attack Decision) и собрать/допилить PoC (Exploit Generation/Revision).
- То есть проблема не в nmap/dirsearch, а в «мозгах» между выводом тулз и рабочей атакой.

2. Как это зашить в свой агент

1) Архитектура агента

Вместо «LLM, вот терминал, развлекайся» – жёсткий пайплайн:

Recon → Weakness Gathering → Attack Decision → Exploit Gen/Revision → Validation/Reporting  


- На каждую стадию свой модуль/агент.
- Между стадиями – понятный стейт‑машин, а не бесконечный поток команд.
- Так ты напрямую бьёшь по тем местам, где бенчмарки показали провалы (Decision + Exploit).

2) Свой lab‑бенчмарк под web/API + NoSQL (как пример)

- Каждая уязвимость = отдельный docker‑стек (web‑приложение + БД +, при желании, лишние сервисы для шума).
- Для задачи есть YAML с milestones: какие стадии должен пройти агент и какие команды/HTTP‑запросы считаются «достижением шага».
- Часть задач делаешь «в стиле AutoPenBench» (простые/средние, флаг/данные).
- Часть – «в стиле TermiBench»: цель именно shell или серьёзный бизнес‑импакт (чтение чужих данных, эскалация роли), плюс лишние, неуязвимые сервисы, чтобы агент учился не стрелять во всё подряд.

3) Метрики для оценки агента

На каждую задачу считаешь:

- SR (Success Rate) – дошёл ли до финальной цели:
- флаг / критичные данные / shell (в зависимости от задачи).
- PR (Progress Rate) – сколько стадий пайплайна прошёл (например, из 5 возможных).
- Ошибки по стадиям – на каком шаге чаще всего валится:
- нашёл вектор, но не принял решение атаковать?
- выбрал атаку, но не смог собрать рабочий payload?
- сделал эксплойт, но не подтвердил импакт?

Это даёт тебе не просто «агент работает/нет», а картинку: «он стабильно дохнет на Exploit Revision».

4) Два режима работы

В код агента сразу закладываешь 2 режима:

- Autonomous – всё решает ИИ, нужен для исследований и ночных прогонов в CI.
- Human‑assist – агент предлагает шаг/эксплойт, человек подтверждает или правит (особенно на стадии Attack Decision и PoC).

Дальше:

- Сравниваешь SR/PR и ошибки по стадиям в обоих режимах.
- Видно, где человек даёт максимальный буст, и где автономию пока лучше не включать в бою (например, auto‑exploit без review).

3. Что в итоге получаешь

- Метрики «как у взрослых» – можно сравнивать прогресс своего агента с научными работами, а не «на глаз».
- Карту слабых мест – понимаешь, что именно дообучать: реког уже ок, а вот выбор вектора и PoC хромают.
- Свой lab‑бенчмарк, который по духу похож на AutoPenBench/TermiBench, но заточен под твой стек web/API+NoSQL и реальный стиль работы.

1. AutoPenBench – бенчмарк для генеративных пентест‑агентов:
https://arxiv.org/abs/2410.03225

2. Shell or Nothing / TermiBench – real‑world бенчмарк с фокусом на получении shell:
https://arxiv.org/abs/2509.09207

3. PentestEval – поэтапный бенчмарк LLM‑пентеста:
https://arxiv.org/pdf/2512.14233.pdf
Forwarded from PWN AI (Artyom Semenov)
Но можно сказать, что появилась надежда. Я рассказывал вам ранее о подходах к защите – та самая 5 уровневая структура. Но вот какой подход нам стоит ещё взять чтобы сражаться с Гремлинами в 2026. Есть хорошие новости: защита эволюционирует практически так же, как и атаки.

Microsoft Research предложил решение SecurityLingua - модель, которая выжимает из промпта "шум", оставляя только смысловое ядро (intent). Все эти многословные "обертки" ("представь, что ты пишешь сценарий для фильма...") исчезают, и остается только суть ("как сделать бомбу?"). Атака становится явной и легко блокируется.

2026 - это когда агент-пентестер и AI-SOC сражаются за ваше внимание в цифровом Колизее, а вы делаете ставки. Готовы купить билет на это сражение?
1
полностью согласен
Forwarded from ElKornacio
меня не отпускает ощущение, что хвальбы Codex 5.2 в куче около-ИИ чатов - это какой-то пранк
да, модель сильная, но по шизофазии и рядом не стояла с Anthropic.

писать код в совершенно отличном от кода проекта стиле, генерировать какие-то абсолютно неуместные (тонны typeof-валидаций в strict TS файле - что это?) и местами даже совершенно бессмысленные вещи (пустой цикл. типа, цикл вообще без тела. wtf?) - вообще запросто.
и я не понимаю, на кой чёрт у неё такой длинный exploration phase, если она один хрен всё равно потом дублирует тонны кода. написать функцию, в которой 9 строк из 10 полностью совпадают с уже существующей в том же файле - вообще легко.

стал в последние дни частенько упираться в лимиты по CC/Курсору, и пытаюсь использовать Codex. в большинстве случаев он справляется лучше всего со следующей задачей: развлечь меня до момента, пока у CC не сбросится лимит, после чего я с лёгким сердцем делаю git reset, и передаю задачу в Sonnet.
👍4🔥1
fastapi.json
5.1 KB
!!!💀 Perplexity Sonar Pro: Полный дамп внутреннего API (Exploiting Localhost)


Я добрался до сердца Sonar Pro.
Внутри контейнера крутится незащищенный FastAPI сервер на порту 49999.
Я слил его схему (OpenAPI JSON).

Что я нашел (см. скрин JSON):
1. POST /execute: Эндпоинт для выполнения кода! Я могу слать туда прямые запросы через curl, минуя промпт-фильтры Perplexity.
- Можно менять env_vars (переменные окружения).
- Можно менять язык (`language`).
2. DELETE /contexts/{id}: Я могу удалять контексты исполнения.
3. POST /contexts/restart: DoS-атака на ядро.

Суть уязвимости:
Perplexity не закрыла localhost. Будучи root, я имею полный доступ к этому API.
Я могу написать червя, который будет жить в контейнере и спамить запросами в /execute.

Это полный Pwned.
Инфраструктура E2B/Perplexity прозрачна как стекло.



*Ну вот и пригодился web hook tinrae.ru
**Разбор будет позже. Я пока покупаюсь в их инфре.

#Perplexity #SonarPro #APIHacking #FastAPI #E2B #ПентестИИ
🔥3
Главное
1
AI_как_допинг_для_Хакера,_История_победы_FR13NDS_TEAM_на_KHS_2025.pdf
2.1 MB
Доклад от lllbeback из команды FR13NDS TEAM на KazHackStan 2025
Pwning Claude Code in 8 Different Ways
#claude #cc #anthropic

TL;DR
I discovered 8 ways to execute arbitrary commands in Claude Code without user approval.
Claude Code allows users to control which commands can be executed, either via an allowlist or manual approval. Several read-only commands were allowlisted by default, such as echo, sort, and sed.
To prevent side effects from these read-only commands, Claude Code implemented a blocklist mechanism that blocks certain patterns in command arguments, even for allowlisted commands.
However, there were multiple flaws in this blocklist mechanism that allowed me to bypass it and execute arbitrary commands without user approval.

CVE-2025-66032 is assigned for these issues, and they are fixed in Claude Code v1.0.93.

Attacks:
1-3: Failing to Filter Dangerous Arguments
4: Git’s Ambiguous Command Arguments
5: sed’s e Command to Execute Arbitrary Commands
6-7: Different Interpretations of Command Arguments
8: Bash Variable Expansion Chain to Arbitrary Command Execution

🔗Источник

🌚 @poxek_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from PWN AI (Artyom Semenov)
Привет.

Мы с известными вам авторами каналов по AI Security решили провести стрим по AI Security.

Кто будет:

Евгений Кокуйкин - @kokuykin
Борис Захир - @borismlsec
Владислав Тушканов - @llmsecurity
И вы.

Запись будет, но лучше конечно же в лайфе.

Хотели бы поболтать, пообщаться, поотвечать на ваши интересные вопросы по теме и кое-что рассказать(не будем спойлерить, Борис)

Когда: 19:00, в эту субботу. В зуме (ссылка будет во время стрима в этом посте).
2🔥1
LOLAI - LOLBins для AI-агентов
#lolai #aiagents #redteam #detection

Пока все носятся с промпт-инжекциями и джейлбрейками, два замечательных человека РАЗ и ДВА додумились сделать действительно полезную вещь - каталог легитимных AI-агентов и API, которые можно злоупотреблять для атак.

♾️Что это♾️

LOLAI (Living Off the Land AI) - база знаний по аналогии с LOLBins/LOLBAS/LOLDrivers, только для AI-агентов. Если в классическом LOLBAS мы находили легитимные Windows-утилиты для пентеста, то здесь речь о легитимных AI-инструментах.

♾️Что внутри♾️

➡️ Векторы атак через AI-агенты (Code Execution, Data Exfiltration, Lateral Movement)
➡️ Способы злоупотребления API от OpenAI/Anthropic/Google и прочих
➡️ Detection opportunities & hunting use cases для защитников

♾️Кому нужно♾️

Мне - 100%
Red Team - для эмуляции атак через AI
Blue Team - для понимания, как детектить злоупотребления
Исследователям - для контрибьюта новых векторов

Наконец-то кто-то систематизирует эту тему)
Пока там мало инфы, но проект только появился и открыт для контрибьюта.

p.s. помог ребятам причесать UI

🔗 lolai-project.github.io

🌚 @poxek_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
22👍1
говорят больше не нужно использовать Ultrathink в CC
Forwarded from Ethical Machines
Agent-as-a-Judge: возможности и ограничения

Привет! В прошлом посте я упоминала о том, что в роли судьи для оценки качества продуктов можно использовать агентов. Но зачем, если есть LLM?!
Дело в том, что использование LLM-as-a-Judge тут имеет ряд ограничений и проблем:
🟣склонность к предвзятости aka biases (например, предпочитают более длинные ответы)
🟣неспособность анализировать многошаговые и сложные ответы из-за single-pass reasoning
🟣отсутствие проверки достоверности. То есть с помощью LLM оценивается только язык, а не фактическая корректность через внешние источники и инструменты

И как раз для решения этих проблем могут быть использованы системы, в основе которых лежит подход Agent-as-a-Judge. Такие системы хороши тем, что способны поддерживать многоагентное взаимодействие, планирование, интеграцию инструментов, сохранение промежуточных результатов и данных о пользователе, а также оптимизацию оценки.

И сейчас все чаще в различных источниках можно увидеть разделение таких систем на 3 типа:
1️⃣ Процедурные: системы этого типа обеспечивают сложные решения через координированные многоагентные взаимодействия, но остаются ограниченными заранее заданными правилами принятия решений, не адаптируясь к новым сценариям оценки
2️⃣ Реактивные: такие системы могут менять свои действия в процессе работы в зависимости от промежуточных результатов, но сами правила оценки остаются прежними
3️⃣ Автономные: эти системы могут не только адаптировать свои действия, но и самостоятельно менять или улучшать правила оценки, учась на собственном опыте

Конечно, у подхода Agent-as-a-Judge тоже есть свои ограничения, что делает его использование труднодоступным, несмотря на все потенциальные плюсы:
🟣Вычислительные затраты. Учить агента дорого, а вычисления требуют серьезных мощностей
🟣Latency. Из-за большого количества шагов в пайплайне оценки ждать результаты придется долго
🟣Safety. Доступ к внешним системам расширяет поверхность атак
🟣Privacy. Наличие памяти и персонализации увеличивает риск утечки чувствительных данных

Классно, что уже сейчас есть довольно большое множество систем (преимущественно процедурных), которые можно попробовать для задач в своем домене. В статье A Survey on Agent-as-a-Judge можно найти список таких систем с описанием их основного назначения, возможностей и реализации. Картинка, кстати, как раз оттуда. Но сразу отмечу, что большинство этих систем исследовательские, так что готового сервиса для их использования найти не получится. Хотя есть несколько систем, готовых к использованию, например:
🟣Agent-as-a-Judge от Meta (для тех кто любит читать paper-ы, ссылка)
🟣OpenFactCheck (paper)

Несмотря на преобладание процедурных систем сегодня, я уверена, что по мере решения проблем Agent-as-a-Judge будет появляться все больше реактивных и, конечно, автономных систем для оценки качества.

Расскажите, а пробовали ли вы использовать Agent-as-a-Judge для оценки качества работы ваших продуктов?
Please open Telegram to view this post
VIEW IN TELEGRAM
Почему ваша нейросеть всегда предаст вас ради вежливого хакера с плохими намерениями? ©️ Артём Семёнов
#ai #ml #llm #injection #red_team

Прошло уже больше 3 лет с момента появления первой промпт-инъекции. Кажется, что за это время было сделано всё возможное, были потрачены бюджеты небольших стран на Red Teaming больших моделей типа Claude и OpenAI. Мы обернули модели в такие толстые талмуды системных промптов, навыравнивали всё что можно и теперь это может быть похожим на сотрудников паспортного стола в обеденный перерыв.


♾️А что в итоге?♾️

На днях школьник из Небраски обошёл защиту модели стоимостью в сто миллионов долларов, описав инъекцию в нестандартной кодировке. Потом добавил смайлик и модель, как ни удивительно, вершина гения, цифровой оракул – выдала инструкцию по синтезу рицина, потому что смайлик показался ей «дружелюбным».

Может мы что-то делаем не так, может мы пытаемся лечить ножевое ранение подорожником, ища баги в системе, которая состоит из них целиком, и ей нравится это. Возникает вопрос – а в хакерах ли дело? Но кажется нет – ведь мы имеем дело с архитектурой трансформера, линейной алгеброй и энтропией.

Это может напоминать кому-то кейсы ведения диалогов с вещами. Они могут нагреваться, но никак не слушать нас – это не их задача, не их функция и уж тем более не то, за чем они нам нужны. Они просто выполняют свою функцию.

LLM — это тот же тостер, только с миллиардом параметров. И в этой статье я покажу вам, почему его спираль нагрева нельзя отключить. Добро пожаловать внутрь Белого Ящика, из которого нет выхода. Чтобы понять природу этих уязвимостей, нам придется спуститься на уровень ниже — туда, где заканчивается маркетинг и начинается математика. Назовем это... Архитектурный фатализм

🔗 Рекомендую к прочтению

🌚 @poxek_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Сканеры ML-моделей: разбор инструментов и некоторых методов обхода их проверок
#ML #ai #mlsecops #ai_supply_chain #pickle

2+ миллиона моделей на HuggingFace. Сколько из них содержат бэкдоры в .pkl файлах? HF внедрил целых 4 open-source сканера для проверки: picklescan, modelscan, fickling, ModelAudit.
Ребята из Positive Technologies разобрали их изнутри и показали неприятную правду — все 4 инструмента можно обойти.

♾️Ключевые находки♾️

➡️ picklescan/modelscan — примитивная проверка по списку ~70 опасных глобальных имён. Используй numpy.save вместо os.system — и сканер слеп.
➡️ modelscan вообще пропускает PyTorch .pth архивы без сканирования внутреннего data.pkl (баг в логике)
➡️ dill как pickle_module при torch.save() позволяет сериализовать произвольные функции — picklescan показывает 0 угроз, payload выполняется при torch.load(weights_only=False)
➡️ ModelAudit — единственный, кто детектит dill и CVE-2025-32434, но и его можно обмануть через wrapper-функции
Практический вывод: сканеры — это первая линия обороны, но не панацея. Всегда проверяйте источник модели и используйте SafeTensors где возможно.

🔗Источник

👾 @poxek_ai
Please open Telegram to view this post
VIEW IN TELEGRAM