Технозаметки Малышева
5.55K subscribers
2.79K photos
927 videos
38 files
3.06K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Новый бенчмарк для оценки рисков безопасности языковых моделей

Представлен новый эталонный тест CyberSecEval 2 для оценки рисков и возможностей языковых моделей (LLM) в области кибербезопасности. 🔒
Тест охватывает различные аспекты безопасности LLM:
- Инъекцию вредоносных команд 💉
- Эксплуатацию уязвимостей 🎯
- Злоупотребление кодовыми интерпретаторами 💻
Введена метрика False Refusal Rate (FRR) для количественной оценки баланса между безопасностью и полезностью LLM.
Выявлены уязвимости LLM к инъекции вредоносных команд, все протестированные модели подвержены этой угрозе. 😱
Указана необходимость дальнейших исследований для повышения безопасности LLM перед их автономным использованием. 🔍

Получается, пока LLM нельзя доверять серьезные задачи без присмотра. Но где наша не пропадала!
(c) ClaudeOpus

#CyberSecEval #LLM #security
-------
@tsingular
🛡 Meta представила новые инструменты для безопасности ИИ: LlamaFirewall и другие защитные решения

Meta* выпустила целый арсенал открытых инструментов для защиты ИИ-систем от различных типов атак.
Самое ценное тут — системный подход к безопасности агентов ИИ и открытость технологий для разработчиков.

LlamaFirewall: новая система защиты для ИИ-агентов
Система спроектирована как многоуровневая защита для предотвращения:
• Прямых атак на промпты (prompt injection)
• Непрямых манипуляций с целями агентов (goal hijacking)
• Рисков небезопасного кода
• Злонамеренного кода через инъекции промптов

Llama Guard 4: мультимодальная защита:
Мультимодальный классификатор с 12 млрд параметров — защищает как текст, так и изображения
Поддерживает классификацию при работе с несколькими изображениями
Создан на базе Llama 4 Scout и стандартизированной таксономии рисков MLCommons

PromptGuard 2
• Легковесные классификаторы (86M и 22M параметров) для определения прямых атак на промпты
• Работает в реальном времени благодаря BERT-архитектуре
• Обнаруживает до 97.5% атак при всего 1% ложных срабатываний
• 22M версия работает в 5 раз быстрее с минимальной потерей эффективности
• Показывает результаты более качественные, чем существующие открытые аналоги

AlignmentCheck
• Экспериментальный аудитор рассуждений, который инспектирует chain-of-thought агентов
• Обнаруживает отклонения от изначальной цели пользователя
• Перехватывает скрытые манипуляции, которые не улавливаются статическими фильтрами
• Показывает 80%+ точность обнаружения скомпрометированных целей

CodeShield
• Статический анализатор кода, генерируемого ИИ
• Поддерживает 8 языков программирования
• Покрывает более 50 типов уязвимостей (CWE)
• Архитектура с двумя уровнями проверки

CyberSec Eval 4: комплексный набор бенчмарков для оценки безопасности ЛЛМ:

AutoPatchBench — для оценки способности ИИ автоматически исправлять уязвимости в нативном коде до их эксплуатации
CyberSOCEval — разработан совместно с CrowdStrike для измерения эффективности ИИ в центрах управления безопасностью (SOC)
Оценивает не только риски, но и защитные возможности ИИ в реальных сценариях:
• Распознавание сложной вредоносной активности в системных логах
• Анализ инцидентов безопасности
• Обработка данных из отчетов разведки угроз

Другие важные компоненты:
Automated Sensitive Doc Classification Tool — автоматически применяет метки безопасности к внутренним документам организации
Llama Generated Audio Detector & Watermark Detector — выявляет ИИ-генерированный контент для предотвращения мошенничества
Партнерская программа Llama Defenders — объединяет партнеров (ZenDesk, Bell Canada, AT&T и др.) для интеграции защитных механизмов в их системы

Практическое применение:
• Для стартапов: защита автономных агентов без необходимости создавать собственные механизмы безопасности
• Для предприятий: снижение рисков при развертывании ИИ-инструментов в критичных средах
• Для разработчиков: создание более безопасных приложений с ИИ за счет интеграции готовых компонентов

Одно из главных преимуществ — система полностью открыта и доступна на GitHub.

Система уже используется в производственной среде Meta и помогает защитить их собственные ИИ-приложения.

(*Meta - запрещённая в РФ террористическая организация)

#Meta #LlamaFirewall #безопасность #PromptGuard #CodeShield #CybersecEval
———
@tsingular
👍511