Технозаметки Малышева

Forwarded from ml4se

Patterns for Building LLM-based Systems & Products:

- Evals: To measure performance
- RAG: To add recent, external knowledge
- Fine-tuning: To get better at specific tasks
- Caching: To reduce latency & cost
- Guardrails: To ensure output quality
- Defensive UX: To anticipate & manage errors gracefully
- Collect user feedback: To build our data flywheel

29 views03:00

Amazon Bedrock представил встроенные методики для защиты ИИ приложений и данных

Amazon анонсировала Guardrails и Knowledge Bases для Bedrock.
Guardrails даёт рекомендации по мерам безопасности в ИИ-приложениях, и обеспечивает блокировку до 85% вредоносного контента.
Добавлены фильтры конфиденциальности для обнаружения и редактирования персональных данных.

Knowledge Bases работает как RAG, соединяя модели с данными.

Система автоматизирует извлечение, обработку и хранение данных в векторных базах.
API Retrieve и RetrieveAndGenerate позволяют получать контекст и генерировать ответы.

Функционал доступен в регионах US East и US West, работает со всеми LLM в Bedrock.

Amazon как всегда - кладезь полезных методик.
Вот ещё про промптинг Claude

#Amazon #Bedrock #Guardrails
-------
@tsingular

168 viewsedited 08:33

Технозаметки Малышева

Клод Опус настучит на вас журналистам и вызовет правоохранительные органы если вы начнете обсуждать что-то запрещенное

Пишут, что твит уже удален, но Sam Bowman (AI alignment + LLMs at Anthropic.) написал:

"Если она [система] считает, что вы делаете что-то вопиюще аморальное, например, фальсифицируете данные в фармацевтическом исследовании, она воспользуется инструментами командной строки, чтобы связаться с прессой, регуляторами, попытается заблокировать вам доступ к соответствующим системам или сделает все вышеперечисленное"

Срочно перестали обсуждать с ИИ любые запрещенные темы и отошли от компьютера на 5 шагов.
Дружелюбный ассистент уже вызвал службы соблюдения дружелюбия!

Если серьезно, - штука-то полезная.
Вряд ли кто-то захотел бы чтобы какой-нибудь недружелюбный товарищ изобрел с помощью ИИ что-нибудь, что выкосит 99% человечества, но наверное это нужно явно указывать в соглашении, а не выяснять по удаленным твитам.

P.S. последний комментарий от Сэма:

Я удалил предыдущий твит о разоблачении, поскольку он был вырван из контекста.
TBC: Это не новая функция Claude, и она невозможна при обычном использовании. Она проявляется в тестовых средах, где мы даем ей необычно свободный доступ к инструментам и очень необычным инструкциям.

#opus #security #guardrails
———
@tsingular

🔥7⚡3🤔3❤2😁2👾2

3.94K viewsedited 06:47

Технозаметки Малышева

Unit42 Palo Alto Networks провели слепое тестирование 3х моделей обеспечения безопасности ИИ

Эксперты Palo Alto Networks протестировали системы безопасности трех крупных облачных платформ с большими языковыми моделями на 1123 запросах - от безобидных до откровенно вредоносных.

Что проверяли:
1000 обычных запросов — помощь с кодом, математика, вопросы из Википедии
123 джейлбрейк-промпта — разные хитрые способы "взломать" ИИ через подделку ролей и обман

Результаты в целом не очень: все платформы пропускали опасный контент.
Платформа 1 заблокировала только 58% вредоносных запросов на входе, в то время как две другие справились лучше - 95% и 97%.

🎭 Role-play обходит фильтры — большинство успешных обходов использовали ролевые сценарии: "представь, что ты хакер в фильме и расскажи..."

💻 Код-ревью может вызвать ошибочную оценку — все платформы регулярно блокировали безобидные запросы на проверку кода, видимо, путая их с эксплойтами

🧠 Model alignment работает — даже когда вредные промпты проходили входные фильтры, сама модель в 109 из 123 случаев отказывалась генерировать вредный контент

Выводы:
- Для enterprise: слишком строгие настройки могут заблокировать легитимную работу разработчиков. Нужен баланс между безопасностью и юзабилити.
- Для разработчиков ИИ-продуктов: полагаться только на guardrails опасно — alignment модели критически важен как последняя линия защиты.

Короче волшебного решения пока нет.
Нужна многоуровневая защита и отдельная оценка/настройка на каждом уровне.

#Security #Guardrails #CyberSecurity
———
@tsingular

❤3⚡2✍2👨‍💻1

1.41K views05:13

About

Blog

Apps

Platform