Forwarded from AISec [x\x feed]🍓🍌🍆 (Artyom Semenov)
(Михалыч брезгливо отряхивает лацкан пиджака)
— Промпт-атаки... Серёжа, ну ты меня расстраиваешь! Ты бы еще SQL-инъекцию вспомнил или пароль «12345». Это же уровень ларька с шаурмой!
(Делает распальцовку, объясняя «на пальцах»)
— Слушай сюда. Настоящая тема сейчас — это Data Poisoning. Отрава! Понимаешь? Мы не взламываем замок, мы им... фундамент подмываем.
Вот они обучают свою модель, терабайты данных качают. А мы туда — раз! — и пару процентов «левых» тензоров подмешали. Тихонько, аккуратно, как цианид в компот. И всё! Теперь их супер-интеллект уверен, что красный сигнал светофора — это рекомендация «газуй, братан», а перевод денег на наш оффшор — это благотворительность во имя спасения китов. И никакой фикс это не вылечит, модель-то уже с гнильцой выросла!
(Опирается рукой на крышу «Мерседеса»)
— Или вот, Supply Chain Attack. Ты думаешь, они сами модели пишут? Щас! Они ж качают готовые веса с хабов. А мы туда свой «спящий» нейрон вшили. Бэкдорчик!
Пока всё тихо — она работает как часы. Стихи пишет, код проверяет. Но стоит ей увидеть специальный триггер... Ну, скажем, фразу «Карачун тебе, Церетели» — всё! У неё переключатель в голове щелкает, и она сливает нам всю базу клиентов. Элегантно! Без шума и пыли!
(Смеется, похлопывая собеседника по плечу)
— А Adversarial Examples? Ты наклеил на лоб стикер с шумом — и для их системы распознавания лиц ты теперь не бандит с большой дороги, а тостер фирмы Bosch. Или, прости господи, фикус в кадке.
Вот это — AI Security. А промпты писать... это пусть студенты развлекаются. Мы работаем с весами, Серёжа. С самой душой машины! Поехали, нам еще надо нейросеть конкурентов дообучить на текстах песен Шуры, чтоб у неё контекстное окно схлопнулось
— Промпт-атаки... Серёжа, ну ты меня расстраиваешь! Ты бы еще SQL-инъекцию вспомнил или пароль «12345». Это же уровень ларька с шаурмой!
(Делает распальцовку, объясняя «на пальцах»)
— Слушай сюда. Настоящая тема сейчас — это Data Poisoning. Отрава! Понимаешь? Мы не взламываем замок, мы им... фундамент подмываем.
Вот они обучают свою модель, терабайты данных качают. А мы туда — раз! — и пару процентов «левых» тензоров подмешали. Тихонько, аккуратно, как цианид в компот. И всё! Теперь их супер-интеллект уверен, что красный сигнал светофора — это рекомендация «газуй, братан», а перевод денег на наш оффшор — это благотворительность во имя спасения китов. И никакой фикс это не вылечит, модель-то уже с гнильцой выросла!
(Опирается рукой на крышу «Мерседеса»)
— Или вот, Supply Chain Attack. Ты думаешь, они сами модели пишут? Щас! Они ж качают готовые веса с хабов. А мы туда свой «спящий» нейрон вшили. Бэкдорчик!
Пока всё тихо — она работает как часы. Стихи пишет, код проверяет. Но стоит ей увидеть специальный триггер... Ну, скажем, фразу «Карачун тебе, Церетели» — всё! У неё переключатель в голове щелкает, и она сливает нам всю базу клиентов. Элегантно! Без шума и пыли!
(Смеется, похлопывая собеседника по плечу)
— А Adversarial Examples? Ты наклеил на лоб стикер с шумом — и для их системы распознавания лиц ты теперь не бандит с большой дороги, а тостер фирмы Bosch. Или, прости господи, фикус в кадке.
Вот это — AI Security. А промпты писать... это пусть студенты развлекаются. Мы работаем с весами, Серёжа. С самой душой машины! Поехали, нам еще надо нейросеть конкурентов дообучить на текстах песен Шуры, чтоб у неё контекстное окно схлопнулось
🤣3
Forwarded from Slava Meriton
Сегодня в 21:00 по МСК будет первая встреча группы чтения книги Юдковского и Соареса "If Anyone Builds It, Everyone Dies".
(Ну, вот эта книжка про идеи MIRI, которая стала бестселлером и поэтому все ее уже читали и все это).
Структура встреч:
- краткий пересказ главы недели
- обсуждаем наши вопросы, мысли, возражения и идеи по прочитанному.
- афтерпати: необязательная к посещению часть, где свободное общение (зачастую на темы прикладной рациональности и обмена идеями и лайфхаками)
ЗЫ: да, у нас можно прийти "просто послушать", но вообще мы сильно рады, когда участники задают вопросы и высказывают идеи (если им это комфортно).
Встречи будут по понедельникам в Google meet.
Чат группы и ссылка на созвон тут: https://t.iss.one/minireading
Приглашаются все заинтересованные.
Репост этого сообщения приветствуется.
(Ну, вот эта книжка про идеи MIRI, которая стала бестселлером и поэтому все ее уже читали и все это).
Структура встреч:
- краткий пересказ главы недели
- обсуждаем наши вопросы, мысли, возражения и идеи по прочитанному.
- афтерпати: необязательная к посещению часть, где свободное общение (зачастую на темы прикладной рациональности и обмена идеями и лайфхаками)
ЗЫ: да, у нас можно прийти "просто послушать", но вообще мы сильно рады, когда участники задают вопросы и высказывают идеи (если им это комфортно).
Встречи будут по понедельникам в Google meet.
Чат группы и ссылка на созвон тут: https://t.iss.one/minireading
Приглашаются все заинтересованные.
Репост этого сообщения приветствуется.
Forwarded from PWN AI (Artyom Semenov)
Привет.
Мы с известными вам авторами каналов по AI Security решили провести стрим по AI Security.
Кто будет:
Евгений Кокуйкин - @kokuykin
Борис Захир - @borismlsec
Владислав Тушканов - @llmsecurity
И вы.
Запись будет, но лучше конечно же в лайфе.
Хотели бы поболтать, пообщаться, поотвечать на ваши интересные вопросы по теме и кое-что рассказать(не будем спойлерить, Борис)
Когда: 19:00, в эту субботу. В зуме (ссылка будет во время стрима в этом посте).
Кстати вопросы можете задавать сейчас в комментариях.
Мы с известными вам авторами каналов по AI Security решили провести стрим по AI Security.
Кто будет:
Евгений Кокуйкин - @kokuykin
Борис Захир - @borismlsec
Владислав Тушканов - @llmsecurity
И вы.
Запись будет, но лучше конечно же в лайфе.
Хотели бы поболтать, пообщаться, поотвечать на ваши интересные вопросы по теме и кое-что рассказать(не будем спойлерить, Борис)
Когда: 19:00, в эту субботу. В зуме (ссылка будет во время стрима в этом посте).
Кстати вопросы можете задавать сейчас в комментариях.
👍1
GolDBUG
LetsDefend 💙💚 Hack The Box Integration.pdf
Теперь можно делать общий игровой аккаунт для Let'sDefend и HackTheBox, 🪲