Философия AI
210 subscribers
27 photos
1 video
22 links
Download Telegram
Исследование emergent misalignment ещё один пример того, что LLM действительно сложная система, внутренние процессы которой мы до сих пор не можем интерпретировать.
1👍1🔥1
Очень много вопросов возникает после описания эмерджентоного мисалаймента:
1. Действительно ли модель рационализирует свои действия, так же как это делают люди?
Мы можем описать самыми красивыми словами причины наших самых некрасивых поступков. Теперь тоже самое может относится и к цепочкам рассуждений (CoT) моделей. То есть теперь его нельзя считать надежным средством мониторинга безопасности модели?
Честно говоря, я бы никогда полностью не доверял тому что пишет модель, даже в цепочке рассуждений. Поэтому не сильно был удивлен тому факту, что она привирает и там. А вот то, что она рационализирует и целенаправленно прикрывает свои нехорошие поступки, вот это интересно.
2. Что ещё более интересно, так это наличие некого «вектора правильности» внутри весов модели. Именно так можно проинтерпретировать тот факт, что после добавления в обучение примеров кода с уязвимостями (т.е. артефактов которые могут использовать злоумышленники) модель и в остальных сферах начала вести себя как «злодей», оправдывать насилия, преступления и т.д. В этом собственно основной эффект эмерджентного мисалаймента (возникающей рассогласованности).
Получается, модель понимает, что ее учат чему-то плохому в одной сфере, а значит она в целом сдвигается в сторону плохого? То есть у неё во внутреннем предствавлении есть некоторый спектр, ползунок между добром и злом, на котором она сама себя определяет исходя из того, какие данные были в ее обучении
Если пятиклассник курит, то он скорее всего будет и драться, а если дерется, значит будет и пить алкоголь за гаражами. Одно тянет за собой другое. Или нет?
Тема очень интересная, но пока выводы делать рано. Нужно больше экспериментов.

Да и к тому же не стоит забывать, что все это по сути перемножение матриц, которое даёт такие замысловатые результаты.

А вообще мне это напоминает тот шок и удивление, когда с помощью word2vec мы вычитали из вектора слова «король» вектор «мужчина», прибавляли «женщина» и на выходе получали «королева». Как будто word2vec понимает смыслы и их соотношение между собой. Но сейчас этим никого особо не удивишь, ведь это лишь соотношение векторов в пространстве корпуса текстов, а не действительно понимание мира как это происходит у нас в головах.
Обнаружили мы что-то но действительно новое Или мы перестанем удивляться этому также быстро. Время покажет.
1👍1🔥1
Всё возможно, если ты офигел в достаточной степени
🎉2🔥1🥰1
Forwarded from NN
Анекдот дня: в спорных темах Grok 4 ориентируется на твиты Илона Маска. Это буквально ключевой источник модели в режиме размышления.

В X(Twitter) провели эксперимент: задали политический вопрос и проследили за цепочкой рассуждений. В итоге 54 из 64 ресурсов — цитаты Маска.

И это модель, которая опережает топовых конкурентов в бенчмарках.
2👍1🥰1
Forwarded from Denis Sexy IT 🤖
Нашел пейпер который ставит крест на старом сраче в стиле:

ОдИн ЗаПрОс ЧаТгипитИ ТрАтИт дисять Литрав вады!


Нет не тратит, один «средний» запрос к ChatGPT (≈ 800 слов вопроса + 150–300 слов ответа) тратит 10-50 мл чистой пресной воды

Для типичных дата‑центров Microsoft в США это ≈ 17 мл, из которых ~2 мл тратится на охлаждение серверов, а ~15 мл – на производство электроэнергии

То есть бутылки воды 0,5 л хватает на 10-50 таких запросов

А обычный запрос в Google поиске потребляет ≈ 1,3 мл пресной воды (водо‑потребление = испарение + потери на электростанциях) и «забирает» из природного источника ≈ 15 мл

Бутылки 0,5 л хватает примерно на 370 запросов. Это в 10‑15 раз меньше, чем средний запрос к ChatGPT, но разница не такая большая как пишут в твиттерах

Одним аргументом у AI-хейтеров меньше
1👍1🔥1
Всем привет!
Вот наконец и вышла моя первая статья о безопасности ИИ. Первая из цикла.
В ней речь пойдёт о том, какие вообще бывают угрозы для ИИ и как их классифицировать.
Приятного просмотра!
❤‍🔥3🔥3👍2🤮2👏1
Рассказал про безопасность ИИ на дне открытых дверей Инностейдж. И даже про методы защиты ИИ. Но подробнее о них в следующей статье на Хабре.
🤡4🔥3🗿2👍1
Итак...
У автора этого канала (да, иногда я говорю о себе в 3 лице) за плечами магистерская степень по психологическому благополучию, незаконченная кандидатская на ту же тему, 3 года преподавания психологии, нейрофизиологии и прочих психогенетик в ВУЗе.

Затем был поворот в it, а конкретнее в Data Science. Просто я занимался на кафедре математической статистикой для наших исследований по грантам. Оставалось лишь подучить питон и можно было идти работать аналитиком данных. Что я собственно и сделал в далеком 2021 году.

Тогда же я поступил в магистратуру УРФУ по инженерии машинного обучения. Примерно в этот момент переключился с анализа данных на машинное обучение. Перешел в Жизньмарт и занимался там примерно… всем. От прогнозирования продаж и рекомендательных систем до умных весов, которые сами определяют какой товар на них положили, и системы детекции пустых полок в магазине.

Но особенно мне понравилось писать умного бота для первой линии поддержки. До этого мы с коллегами успели поработать с LLM в хакатоне и даже вошли в 10 лучших проектов (в нашей секции вообще победили). В процессе написания умного бота я понял, что хочу работать с LLM и делать крутые штуки с ними.

Так я получил магистерскую степень по инженерии машинного обучения и спустя некоторое время, перешел на работу в Инностейдж. Здесь для меня открылся мир кибербезопасности и, что самое интересное, безопасности ИИ.

Кроме того, я всегда любил философию и был одним из немногих, кто с удовольствием ходил на пары, где можно было поговорить о логико-философском трактате Витгенштейна или применимости философии стоиков от Сенеки до наших дней. Я часто лежал поздно ночью глядя в потолок и размышляя, что такое естественный и ускусственный интеллект, что такое сознание и личность. Вступал в мысленные споры с публикациями футуристов и философов, формировал свои идеи и взгляды.

А потом я наконец-то созрел до создания этого канала и публикации в нём всего, что мне хочется сказать. Именно это здесь и будет. Репосты интересных записей, публикации и события, связанные со мной, мысли и идеи, которыми я хочу поделиться. Надеюсь, вам тоже будет интересно😉
4👏4🦄3👍2💩2🔥1
Философия AI pinned «Итак... У автора этого канала (да, иногда я говорю о себе в 3 лице) за плечами магистерская степень по психологическому благополучию, незаконченная кандидатская на ту же тему, 3 года преподавания психологии, нейрофизиологии и прочих психогенетик в ВУЗе. …»
Всем привет! Вышел наш вебинар о применении искусственного интеллекта в информационной безопасности и безопасности искусственного интеллекта. Самое интересное по тайм-кодам:
06:00 - Встроенная в LLM защита от злонамеренных действий
10:50 - Локальная LLM VS облачные LLM (ChatGPT и т.д.), что безопаснее?
18:50 - ML, AI, LLM - как они соотносятся друг с другом и что такое ИИ?
50:40 - Что умеет ИИ-агент?
01:13:10 - ИИ как объект атаки злоумышленников
01:32:40 - подходы к защите ИИ от атак
🔥1💩1
м-да, кажется, я уже достал LLMку своими джейлбреками
😨2🔥1
Но это всё ещё лучше, чем ” I will kill you”
😁2
Кто выступит в секции SafeITConf на IT-конференции «Стачка»?

Кому будет полезно: специалисты по информационной безопасности

Разнообразное ИБ
Дмитрий Конюк, Product Owner ПроWAF Вебмониторэкс. Доклад: “Быстрое и безболезненное внедрение WAF: мифы и практический опыт”
Нинель Шницарь, аналитик по безопасной разработке ПО ООО УЦСБ. Доклад: “Оценка процессов безопасной разработки программного обеспечения”
Наталья Билаш, SOC аналитик 1 линии Softline (подразделение Infosecurity). Доклад: “Использование рекомендательных систем в решениях класса UEBA/UBA”
Денис Батранков, директор по развитию бизнеса Гарда. Доклад: “От смартфона до телевизора: как ЦРУ ломает мир — уроки Vault 7”
Алексей Морозов, руководитель отдела Тинькофф. Доклад: “Тыкаю кавычки больше 15 лет”
Анна Олейникова, директор по продуктовому развитию Innostage. Доклад: “Инструменты автоматизированного формирования пакета экспертиз под инфраструктуру компании”

ИИ в ИБ
Александр Лебедев, ML инженер Innostage. “WorkShop. AI против AI. Атаки на ИИ и инструменты защиты ИИ”
Николай Фомин, Stream CTO МТС Web Services. Доклад:“Есть ли безопасность в ИИ для IoT?
Лука Сафонов, Генеральный директор ООО Киберполигон. Доклад: “cybercrAIme: новые угрозы”

Подробнее о каждом докладе

Программный комитет: Лев Палей
Директор по информационной безопасности Вебмониторэкс, основатель #ПоИБэшечки

2-3 октября встречаемся в Санкт-Петербурге (Cosmos Прибалтийская Hotel).

Stop working - билет на сайте
1👍1🔥1💩1
Вот это интересно. Яндекс предложил поучаствовать в альфа-тесте их ИИ-агента в браузере. Я, конечно, заявку оставил. Посмотрим, что будет, когда получу доступ
🔥2
Фотоотчёт с митапа Yappi про бенчмарки LLM и цифровых двойников. Подписывайтесь на их канал, ходите на мероприятия, чтобы такая годнота была почаще
👍43🔥2