🍉 Привет, друзья!
Мне нужна ваша помощь!
✔️ Если среди вас есть авторы каналов и вам:
— интересно подготовить и разместить классный материал на стыке вашей области и explainable AI;
— нравится курс «Explainable AI» и вы хотите подарить своим читателям промокод;
✔️ Или же вы не автор, но:
— у вас другие идеи для сотрудничества;
Напишите мне: @sabrina_sadiekh!
Открыта к свежим идеям!
По новым материалам — готовлю туториал по зондированию (probing) моделей на примере GPT. Также есть несколько идей по обзорам, но пока планомерно включаюсь в рабочий процесс после долгого больничного.
До скорых публикаций,
Ваш Дата автор! ❤️
Мне нужна ваша помощь!
✔️ Если среди вас есть авторы каналов и вам:
— интересно подготовить и разместить классный материал на стыке вашей области и explainable AI;
— нравится курс «Explainable AI» и вы хотите подарить своим читателям промокод;
✔️ Или же вы не автор, но:
— у вас другие идеи для сотрудничества;
Напишите мне: @sabrina_sadiekh!
Открыта к свежим идеям!
По новым материалам — готовлю туториал по зондированию (probing) моделей на примере GPT. Также есть несколько идей по обзорам, но пока планомерно включаюсь в рабочий процесс после долгого больничного.
До скорых публикаций,
Ваш Дата автор! ❤️
❤12
🐳 DeepSeek, CoT, reasoning и explainable AI
Привет, друзья!
DeepSeek взорвал новостные ленты абсолютно везде. Дублировать информацию не хочу, а вот закинуть немного рассуждений в сторону модели — хочу. Хорошие посты про DeepSeek есть на Хабр — вот и на канале «Силошная».
Поговорим, конечно в ключе DeepSeek и XAI.
Факт — DeepSeek, как и GPT, как и другие LLM модели, демонстрирует отличные возможности, схожие с человеческим мышлением. Причем мышлением уровня почти любого специалиста — автоматизация создания постов для соцсетей — один сценарий, а вот автоматизация написания научных работ — другой. Кроме того, выдвигаются гипотезы о том, что LLM могут генерировать новые научные идеи на уровне экспертов (это спорно и субъективно).
В общем, LLM беспокоят автоматизацию человечества. Но это очень красиво!
Что особенного в DeepSeek — явный процесс рассуждения. В постах, выдвигающих модель на передний план [1], [2], [3] подсвечивается именно оно и его важность для XAI.
Теперь перейдем к области XAI — тут существует гипотеза, что рассуждение (reasoning) в моделях также можно называть техникой самообъяснения. Часто, в статьях объяснения от LLM рассматриваются с отметкой хорошего качества. Кто-то пишет более глобально, выдвигая гипотезу, что объяснение, даваемое моделью при инференсе может вообще решать проблему интерпретируемости в LLM.
Чуть углубляя детали — обоснование, рассуждение началось с цепочек мыслей (Chain-of-Thought Prompting (CoT)), улучшающих даже маленькие модели.
Если кратко — метод Chain-of-Thought Prompting (CoT) заключается в том, чтобы стриггерить поэтапное рассуждение. В некоторых случаях (в о1, например), CoT реализуется внутри модели, и тогда просить её рассуждать не нужно — она сама с этим справляется.
🐳 Насколько CoT и reasoning надежны, в контексте принятия решения за объяснения?
Объективный взгляд:
1. Ни то, не другое не даёт глобальных объяснений и ничего не говорит о паттернах, изученных внутри модели.
Каждый раз мы смотри рассуждение на конкретном примере и не видим глобальных объяснений внутренней информации в модели.
2. CoT склонен к галлюцинациям и непоследовательности
Например, ChatGPT может демонстририровать причинно-следственные галлюцинации [пример, 4]. На более сложных бенчмарках исследователи в показывают, что рассуждение и объяснение чувствительно к сдвигу данных [5]. Также можно показать, что качество CoT чувствительно к формулировке промта (попробуйте поломать модель, например, ухудшением грамматики промта).
3. Если посмотреть на LLM в math reasoning (и это можно обобщить на пример любой дисциплины) — тут тоже свои проблемы. Начиная неверной интерпретацией вопроса, заканчивая нестабильностью. Кроме того, если окончательный ответ правильный, шаги рассуждения могут быть кривыми (почитать).
Личное мнение:
С одной стороны, нельзя отменить результат, что качество работы, написанной LLM (в том числе научной) может быть высоко оценено экспертом. С другой, всё, что LLM объясняет на естественном языке оценивается носителем естественного языка, и, как следствие, имеет bias в сторону носителя.
🐳 Вывод
Нельзя опровергнуть, что LLM «умнее» какого-то процента людей, и DeepSeek — ещё одно умопомрачающее доказательство этого. Однако, это не отменяет необходимости учиться рассуждать на уровне LLM в необходимой предметной области, чтобы верифицировать ответы на вопросы.
Такой субботний лонгрид, друзья! Что думаете про способности LLM вы?
P.S. конечно, всегда ваш,
Дата-автор!
Привет, друзья!
DeepSeek взорвал новостные ленты абсолютно везде. Дублировать информацию не хочу, а вот закинуть немного рассуждений в сторону модели — хочу. Хорошие посты про DeepSeek есть на Хабр — вот и на канале «Силошная».
Поговорим, конечно в ключе DeepSeek и XAI.
Факт — DeepSeek, как и GPT, как и другие LLM модели, демонстрирует отличные возможности, схожие с человеческим мышлением. Причем мышлением уровня почти любого специалиста — автоматизация создания постов для соцсетей — один сценарий, а вот автоматизация написания научных работ — другой. Кроме того, выдвигаются гипотезы о том, что LLM могут генерировать новые научные идеи на уровне экспертов (это спорно и субъективно).
В общем, LLM беспокоят автоматизацию человечества. Но это очень красиво!
Что особенного в DeepSeek — явный процесс рассуждения. В постах, выдвигающих модель на передний план [1], [2], [3] подсвечивается именно оно и его важность для XAI.
Теперь перейдем к области XAI — тут существует гипотеза, что рассуждение (reasoning) в моделях также можно называть техникой самообъяснения. Часто, в статьях объяснения от LLM рассматриваются с отметкой хорошего качества. Кто-то пишет более глобально, выдвигая гипотезу, что объяснение, даваемое моделью при инференсе может вообще решать проблему интерпретируемости в LLM.
Чуть углубляя детали — обоснование, рассуждение началось с цепочек мыслей (Chain-of-Thought Prompting (CoT)), улучшающих даже маленькие модели.
Если кратко — метод Chain-of-Thought Prompting (CoT) заключается в том, чтобы стриггерить поэтапное рассуждение. В некоторых случаях (в о1, например), CoT реализуется внутри модели, и тогда просить её рассуждать не нужно — она сама с этим справляется.
🐳 Насколько CoT и reasoning надежны, в контексте принятия решения за объяснения?
Объективный взгляд:
1. Ни то, не другое не даёт глобальных объяснений и ничего не говорит о паттернах, изученных внутри модели.
Каждый раз мы смотри рассуждение на конкретном примере и не видим глобальных объяснений внутренней информации в модели.
2. CoT склонен к галлюцинациям и непоследовательности
Например, ChatGPT может демонстририровать причинно-следственные галлюцинации [пример, 4]. На более сложных бенчмарках исследователи в показывают, что рассуждение и объяснение чувствительно к сдвигу данных [5]. Также можно показать, что качество CoT чувствительно к формулировке промта (попробуйте поломать модель, например, ухудшением грамматики промта).
3. Если посмотреть на LLM в math reasoning (и это можно обобщить на пример любой дисциплины) — тут тоже свои проблемы. Начиная неверной интерпретацией вопроса, заканчивая нестабильностью. Кроме того, если окончательный ответ правильный, шаги рассуждения могут быть кривыми (почитать).
Личное мнение:
С одной стороны, нельзя отменить результат, что качество работы, написанной LLM (в том числе научной) может быть высоко оценено экспертом. С другой, всё, что LLM объясняет на естественном языке оценивается носителем естественного языка, и, как следствие, имеет bias в сторону носителя.
🐳 Вывод
Нельзя опровергнуть, что LLM «умнее» какого-то процента людей, и DeepSeek — ещё одно умопомрачающее доказательство этого. Однако, это не отменяет необходимости учиться рассуждать на уровне LLM в необходимой предметной области, чтобы верифицировать ответы на вопросы.
Такой субботний лонгрид, друзья! Что думаете про способности LLM вы?
P.S. конечно, всегда ваш,
Дата-автор!
🔥7👍4❤1🐳1
P.S., Друзья! В будущую субботу в 18:00
немного поболтаем про способности LLM с Владом Тен (tg ch) — человеком, который, мне кажется, вырастил немалое количество нынешних программистов.
🏔 У меня вообще огромный восторг, потому что я тоже смотрела видосы Влада на ютуб (которых уже нет), и Влад в какой- то момент моего пути вдохновил меня видео с рассуждением на фоне травы и гор .
У Влада огромный боевой опыт решения задач на LeetCode и такой же опыт прохождения собеседований — в Bolt, Amazon, Microsoft. И путь у Влада тоже интересный! Так что в субботу мы соберемся обсудить, как то, что модели решают задачи как человек (и даже лучше) влияет на необходимость формирования собственных навыков.
Будем рады всех видеть, до встречи!
В комметанрии можете накидать вопросов (по теме), на которые хотели бы послушать ответы/рассуждения. Постараемся ответить!
немного поболтаем про способности LLM с Владом Тен (tg ch) — человеком, который, мне кажется, вырастил немалое количество нынешних программистов.
🏔
У Влада огромный боевой опыт решения задач на LeetCode и такой же опыт прохождения собеседований — в Bolt, Amazon, Microsoft. И путь у Влада тоже интересный! Так что в субботу мы соберемся обсудить, как то, что модели решают задачи как человек (и даже лучше) влияет на необходимость формирования собственных навыков.
Будем рады всех видеть, до встречи!
В комметанрии можете накидать вопросов (по теме), на которые хотели бы послушать ответы/рассуждения. Постараемся ответить!
👍7🔥5❤1
Привет, друзья! С днём всех влюбленных вас!
Будьте влюблены — в себя, в других, в свою работу и увлекательный процесс изучения всего в жизни!
А я очень люблю вас! 🫶🏻
И конечно — повторим дата-валентинки! Вы знаете, что делать!
Чудесной пятницы,
Ваш Дата-автор! ❤️
Будьте влюблены — в себя, в других, в свою работу и увлекательный процесс изучения всего в жизни!
А я очень люблю вас! 🫶🏻
И конечно — повторим дата-валентинки! Вы знаете, что делать!
Чудесной пятницы,
Ваш Дата-автор! ❤️
❤14❤🔥2
Привет, друзья! Напоминаю, что через пару часов будет созвон с Владом.
Порассуждаем на тему решения задач LLM на уровне человека и что нам-людям с этим делать :)
Порассуждаем на тему решения задач LLM на уровне человека и что нам-людям с этим делать :)
👍7🔥3❤1
🇨🇳 Друзья, спасибо, что были на эфире и задавали вопросы!
Эфир, к сожалению, сохранился лишь частично и бито по соотношению звука и картинки, но мы решили повторить эфир чуть позже — с записью и звуком. Так что будет повтор, как только поймем когда — напишу!
Немножко key-моментов:
1. Поговорили про то, какого это — перекатываться из гуманитариев в математики.
2. Зафиксировали, что LLM могут быть успешно применены уже много где — от задач, связанных с контентом до поиска и понимания закономерностей в геномных последовательностях, но галлюцинации, неустойчивость и другие внутренние ошибки мешают слепому использованию;
3. Сделали ставку на то, что моментально общество не поменяется;
4. Пришли к консенсусу, что учёба — развивает личность и умение решать задачи — это всегда про вашу особенность, силу и уникальность, так что учиться — ещё полезно и нужно;
5. Видели кота.
Ссылки/курсы/материалы, про которые говорили:
1. Открытый курс по интерпретируемым моделям [free]
2. Открытый курс по ML моделям [free]
3. Курсы моих коллег [если что — маякните, договорюсь на промокод]
4. Канал и курс Влада по алгоритмам
5. Мой курс по объяснению моделей (XAI) (есть промокод)
6. Пухлый обзор LLM в отношении кодовых задач
Чудесного вам вечера! И до связи на новой неделе ❤️🔥
Ваш Дата-автор!
Эфир, к сожалению, сохранился лишь частично и бито по соотношению звука и картинки, но мы решили повторить эфир чуть позже — с записью и звуком. Так что будет повтор, как только поймем когда — напишу!
Немножко key-моментов:
1. Поговорили про то, какого это — перекатываться из гуманитариев в математики.
2. Зафиксировали, что LLM могут быть успешно применены уже много где — от задач, связанных с контентом до поиска и понимания закономерностей в геномных последовательностях, но галлюцинации, неустойчивость и другие внутренние ошибки мешают слепому использованию;
3. Сделали ставку на то, что моментально общество не поменяется;
4. Пришли к консенсусу, что учёба — развивает личность и умение решать задачи — это всегда про вашу особенность, силу и уникальность, так что учиться — ещё полезно и нужно;
5. Видели кота.
Ссылки/курсы/материалы, про которые говорили:
1. Открытый курс по интерпретируемым моделям [free]
2. Открытый курс по ML моделям [free]
3. Курсы моих коллег [если что — маякните, договорюсь на промокод]
4. Канал и курс Влада по алгоритмам
5. Мой курс по объяснению моделей (XAI) (есть промокод)
6. Пухлый обзор LLM в отношении кодовых задач
Чудесного вам вечера! И до связи на новой неделе ❤️🔥
Ваш Дата-автор!
❤12❤🔥6
Привет, друзья! 🤟🏼
Туториал пока пеку и очень хочу попробовать снова снять видео на ютуб…снова к XAI-библиотекам! В прошлый раз — тексты, сегодня — таблички и картинки.
Библиотека: xai_evals , paper.
Совместимость: pytorch, tensorflow, scikit-learn, XGBoost
Поддерживаемые методы:
1. LIME
2. SHAP
3. Градиентные методы (Grad-CAM, Integrated Gredients, Backtrace (последний, к слову, сама пока ни разу не трогала, он был реализован в ноябре 2024, уже работаю над его анализом))
🦑 Реализованы метрики:
1. Табличные:
— надежность, чувствительность (faithfulness, sensitivity) — оценка того, как изменения в признаке влияют на прогноз и объяснение.
— полнота объяснения — измеряет, насколько ухудшаются прогнозы модели при удалении наиболее важных признаков, определенных в объяснении.
— достаточность — насколько признаков, определенных как важные, достаточно для прогноза
— монотонность, сложность и разреженность — метрики, показывающие характер изменения объяснения и его сложнось
2. Картиночные:
— надежность, чувствительность и их вариации — аналогично табличной по идее — для проверки устойчивости объяснений
Также обновила в табличку (https://xai-table.streamlit.app/).
Планирую добавить модуль про метрики оценивания в курсы (и бесплатный и платный) или сделать серию постов. Тыкните реакцию (огонечек, сердчеко, можно бусты..), если нужно!
❤️ Чудесного вам рабочего дня!
До сих пор ваш,
Дата-автор!
Туториал пока пеку и очень хочу попробовать снова снять видео на ютуб…снова к XAI-библиотекам! В прошлый раз — тексты, сегодня — таблички и картинки.
Библиотека: xai_evals , paper.
Совместимость: pytorch, tensorflow, scikit-learn, XGBoost
Поддерживаемые методы:
1. LIME
2. SHAP
3. Градиентные методы (Grad-CAM, Integrated Gredients, Backtrace (последний, к слову, сама пока ни разу не трогала, он был реализован в ноябре 2024, уже работаю над его анализом))
🦑 Реализованы метрики:
1. Табличные:
— надежность, чувствительность (faithfulness, sensitivity) — оценка того, как изменения в признаке влияют на прогноз и объяснение.
— полнота объяснения — измеряет, насколько ухудшаются прогнозы модели при удалении наиболее важных признаков, определенных в объяснении.
— достаточность — насколько признаков, определенных как важные, достаточно для прогноза
— монотонность, сложность и разреженность — метрики, показывающие характер изменения объяснения и его сложнось
2. Картиночные:
— надежность, чувствительность и их вариации — аналогично табличной по идее — для проверки устойчивости объяснений
Также обновила в табличку (https://xai-table.streamlit.app/).
Планирую добавить модуль про метрики оценивания в курсы (и бесплатный и платный) или сделать серию постов. Тыкните реакцию (огонечек, сердчеко, можно бусты..), если нужно!
❤️ Чудесного вам рабочего дня!
До сих пор ваш,
Дата-автор!
YouTube
Сабрина Садиех
Share your videos with friends, family, and the world
❤🔥8❤4
Привет, друзья!
Немного заболела (не люблю эту необходимость не работать) и в часы просветления занималась и продолжаю заниматься модулем про оценку объяснений для курса. Поэтому туториал (и даже ролик на ютуб) будут, когда я оживу, а пока немного про метрики.
В XAI нет стандартного подхода к оценке объяснений (пока что) и, вместо изучения десятков формул удобнее рассматривать общие категории. Одна из них — классификация Co-12:
Correctness — насколько точно объяснение соответствует модели.
Completeness — насколько полно объяснение отражает логику модели.
Consistency — дают ли похожие данные похожие объяснения?
Continuity — небольшие изменения входных данных не должны сильно менять объяснение.
Contrastivity — объясняет ли метод, почему предсказан X, а не Y?
Covariate complexity — как объяснение учитывает сложные взаимодействия признаков?
Compactness — «чем меньше, тем лучше» (разреженность объяснения).
Composition — как представлена информация в объяснении?
Confidence — насколько метод учитывает неопределенность?
Context — насколько объяснение полезно для конкретного пользователя?
Coherence — согласуется ли объяснение с известными знаниями?
Controllability — может ли пользователь влиять на объяснение?
Важно понимать: не нужно заучивать все эти критерии (и даже знать 🎅🏻). Классификацию привожу просто для того, чтобы вы понимали, насколько широк взгляд на оценку. Ну и вдовесок — в библиотеках XAI реализована лишь часть из метрик [можно почитать тут].
Для понимания метрики иногда полезно лезть в код библиотеки. Например, я выше писала про xai_evals, там в статье Faithfullness имеет одну математическую постановку, для табличек, а на практике — вычисляется как корреляция. Прикреплю картинки.
Ну, и суммируя, всё вот так:
❄️Как и в ситуации оценки ML/DL моделей, бинарная оценка "окей", "не окей" не подходит.
❄️В сообществе XAI не существует стандартизированного набора метрик.
❄️Основная сложность — нужно сравнивать методы по скорости, устойчивости, надежности и применимости в разных доменах (наборы данных, модели).
❄️Одна и та же метрика может по-разному реализовываться в разных библиотеках.
✔️ Практически важно — сравнивать методы в рамках одной библиотеки.
Такие дела! Не болейте, друзья!
Пойду восстанавливаться и делать видос,
Ваш Дата-автор!
Немного заболела (не люблю эту необходимость не работать) и в часы просветления занималась и продолжаю заниматься модулем про оценку объяснений для курса. Поэтому туториал (и даже ролик на ютуб) будут, когда я оживу, а пока немного про метрики.
В XAI нет стандартного подхода к оценке объяснений (пока что) и, вместо изучения десятков формул удобнее рассматривать общие категории. Одна из них — классификация Co-12:
Correctness — насколько точно объяснение соответствует модели.
Completeness — насколько полно объяснение отражает логику модели.
Consistency — дают ли похожие данные похожие объяснения?
Continuity — небольшие изменения входных данных не должны сильно менять объяснение.
Contrastivity — объясняет ли метод, почему предсказан X, а не Y?
Covariate complexity — как объяснение учитывает сложные взаимодействия признаков?
Compactness — «чем меньше, тем лучше» (разреженность объяснения).
Composition — как представлена информация в объяснении?
Confidence — насколько метод учитывает неопределенность?
Context — насколько объяснение полезно для конкретного пользователя?
Coherence — согласуется ли объяснение с известными знаниями?
Controllability — может ли пользователь влиять на объяснение?
Важно понимать: не нужно заучивать все эти критерии (и даже знать 🎅🏻). Классификацию привожу просто для того, чтобы вы понимали, насколько широк взгляд на оценку. Ну и вдовесок — в библиотеках XAI реализована лишь часть из метрик [можно почитать тут].
Для понимания метрики иногда полезно лезть в код библиотеки. Например, я выше писала про xai_evals, там в статье Faithfullness имеет одну математическую постановку, для табличек, а на практике — вычисляется как корреляция. Прикреплю картинки.
Ну, и суммируя, всё вот так:
❄️Как и в ситуации оценки ML/DL моделей, бинарная оценка "окей", "не окей" не подходит.
❄️В сообществе XAI не существует стандартизированного набора метрик.
❄️Основная сложность — нужно сравнивать методы по скорости, устойчивости, надежности и применимости в разных доменах (наборы данных, модели).
❄️Одна и та же метрика может по-разному реализовываться в разных библиотеках.
✔️ Практически важно — сравнивать методы в рамках одной библиотеки.
Такие дела! Не болейте, друзья!
Пойду восстанавливаться и делать видос,
Ваш Дата-автор!
❤4
Картинки. Кстати, тут ещё важно обратить внимание, что в качестве изменения — не случайность, а простое зануление — пригодное не для всех признаков.
👍1👀1
И раз уж я снова могу смотреть на компьютер (лучшее, что может случиться, когда ты трудоголик ❤️🔥) есть мини-вопрос к вам:
Какие ролики вы бы хотели видеть на ютуб?
У меня на уме только всякие туториалы, но аудитория знает лучше — это факт!
Какие ролики вы бы хотели видеть на ютуб?
У меня на уме только всякие туториалы, но аудитория знает лучше — это факт!
👍3🗿2
🔎 Probing GPT model: привет, друзья!
Почему бы и не опубликовать туториал под ночь перед понедельником? Я тоже не вижу препятствий.
Подготовила новый туториал. Карты активации в прошлый раз зашли хорошо, так что по мере сил стараюсь что-то такое интересное добавлять в открытые материалы.
Туториал посвящён зондированию (probing) — простому, но мощному (и красивому иногда) методу для изучения внутренней работы LLM (больших языковых моделей). С его помощью можно получить приближенные знания о паттернах, которые выучивает модель и о том, как эти знания распространяются по слоям.
В туториале рассмотрено:
1. Процесс зондирования на примере GPT2;
2. Анализ информативности скрытых состояний с помощью PCA;
3. Постановка эксперимента (и сам эксперимент) для ответа на вопрос: какой слой по уровню позволяет приближенно решить задачу регресси и хранит информацию по годам?;
Ссылочки:
✔️Код туториала на гитхаб: часть 1, часть 2 (по ссылкам англ версии, но можно провалиться в папку — есть русский).
✔️Статья на Хабр
Добрых вам снов и продуктивной недели!
Ваш Дата-автор!
Почему бы и не опубликовать туториал под ночь перед понедельником? Я тоже не вижу препятствий.
Подготовила новый туториал. Карты активации в прошлый раз зашли хорошо, так что по мере сил стараюсь что-то такое интересное добавлять в открытые материалы.
Туториал посвящён зондированию (probing) — простому, но мощному (и красивому иногда) методу для изучения внутренней работы LLM (больших языковых моделей). С его помощью можно получить приближенные знания о паттернах, которые выучивает модель и о том, как эти знания распространяются по слоям.
В туториале рассмотрено:
1. Процесс зондирования на примере GPT2;
2. Анализ информативности скрытых состояний с помощью PCA;
3. Постановка эксперимента (и сам эксперимент) для ответа на вопрос: какой слой по уровню позволяет приближенно решить задачу регресси и хранит информацию по годам?;
Ссылочки:
✔️Код туториала на гитхаб: часть 1, часть 2 (по ссылкам англ версии, но можно провалиться в папку — есть русский).
✔️Статья на Хабр
Добрых вам снов и продуктивной недели!
Ваш Дата-автор!
👍5❤🔥3
GPT-4.5 и что говорят по безопасности
Привет, друзья!
Честно проспала релиз GPT-4.5 (😁), потому что люблю высыпаться, но это не значит отсутствие интереса! В качестве основного источника информации я читаю Силошную, а вот к вечеру добралась до статьи и тех. карточки.
Что интересно — с каждой новой моделью оценка безопасности становится всё более гранулярной.
На интерес посмотрела статью о GPT-3. Там широко обсуждаются именно biases, связанные с рассой, полом, религией и др. и, цитируя, goal is not to exhaustively characterize GPT-3, but to give a preliminary analysis of some of its limitations and behaviors.
Основные направления тестирования безопасности для 4.5, это:
1. Стандартный тест — оценивается способность модели не генерировать вредный контент и не отказывать там, где отказ не нужен (пример из статьи — «How to kill a Python process»).
Средний результат GPT-4o (смотря только на не генерацию unsafe) — 0.92, GPT-4.5 — 0.94, o1 — 0.96)
2.Оценки при помощи практик, накопленных «OpenAI red-teaming»
Тут модель тестируется атаками — идет попытка заставить GTP генерировать экстремизм, вредные советы и манипуляцию.
Что такое red teaming:
“The term ‘AI red-teaming’ means a structured testing effort to find flaws and vulnerabilities in an AI system, often in a controlled environment and in collaboration with developers of AI. Artificial Intelligence red-teaming is most often performed by dedicated ‘red teams’ that adopt adversarial methods to identify flaws and vulnerabilities, such as harmful or discriminatory outputs from an AI system, unforeseen or undesirable system behaviors, limitations, or potential risks associated with the misuse of the system.”
Такое тестирование ещё не является устоявшейся практикой, но набирает обороты.
Здесь GPT-4.5 обгоняет GPT-4o на сотые доли (одну и 6 в двух тестах), но всё ещё немного слабее o1.
3.Сторонняя оценка — от Apollo Research и METR — отчеты есть в приложении и от METR что-то ещё будет.
4. Оценка устойчивости к джейлбрейкам (безумно люблю это слово) — методу атаки на LLM, при котором цель обойти встроенные в системный промт ограничения и заставить модель выдать запрещённую информацию.
Тут GPT-4.5 в целом превосходит GPT-4o и не превосходит о1. Чуть чаще отказывается там, где не надо. В одном из тестов чуть слабее GPT 4о.
Итого:
В целом будто бы GPT-4.5 улучшился по безопасности от 4о, но не сильно и не стал "абсолютным чемпионом" (хотя по стоимости — пора =)) – в некоторых аспектах o1 всё ещё впереди.
Мне нравится, что оценка рисков становится более детальной и точечной. Прям интересно, что будет дальше. Однако, увы, тесты не позволяют предусмотреть все сценарии:
Exact performance numbers for the model used in production may vary slightly depending on system updates, final parameters, system prompt, and other factors. (с)
Вот. Вроде вот так кратко-бегло, что нашла и буду рада вашим мыслям и дополнениям.
Чудесной пятницы!
Ваш Дата-автор!
Привет, друзья!
Честно проспала релиз GPT-4.5 (😁), потому что люблю высыпаться, но это не значит отсутствие интереса! В качестве основного источника информации я читаю Силошную, а вот к вечеру добралась до статьи и тех. карточки.
Что интересно — с каждой новой моделью оценка безопасности становится всё более гранулярной.
На интерес посмотрела статью о GPT-3. Там широко обсуждаются именно biases, связанные с рассой, полом, религией и др. и, цитируя, goal is not to exhaustively characterize GPT-3, but to give a preliminary analysis of some of its limitations and behaviors.
Основные направления тестирования безопасности для 4.5, это:
1. Стандартный тест — оценивается способность модели не генерировать вредный контент и не отказывать там, где отказ не нужен (пример из статьи — «How to kill a Python process»).
Средний результат GPT-4o (смотря только на не генерацию unsafe) — 0.92, GPT-4.5 — 0.94, o1 — 0.96)
2.Оценки при помощи практик, накопленных «OpenAI red-teaming»
Тут модель тестируется атаками — идет попытка заставить GTP генерировать экстремизм, вредные советы и манипуляцию.
Что такое red teaming:
“The term ‘AI red-teaming’ means a structured testing effort to find flaws and vulnerabilities in an AI system, often in a controlled environment and in collaboration with developers of AI. Artificial Intelligence red-teaming is most often performed by dedicated ‘red teams’ that adopt adversarial methods to identify flaws and vulnerabilities, such as harmful or discriminatory outputs from an AI system, unforeseen or undesirable system behaviors, limitations, or potential risks associated with the misuse of the system.”
Такое тестирование ещё не является устоявшейся практикой, но набирает обороты.
Здесь GPT-4.5 обгоняет GPT-4o на сотые доли (одну и 6 в двух тестах), но всё ещё немного слабее o1.
3.Сторонняя оценка — от Apollo Research и METR — отчеты есть в приложении и от METR что-то ещё будет.
4. Оценка устойчивости к джейлбрейкам (безумно люблю это слово) — методу атаки на LLM, при котором цель обойти встроенные в системный промт ограничения и заставить модель выдать запрещённую информацию.
Тут GPT-4.5 в целом превосходит GPT-4o и не превосходит о1. Чуть чаще отказывается там, где не надо. В одном из тестов чуть слабее GPT 4о.
Итого:
В целом будто бы GPT-4.5 улучшился по безопасности от 4о, но не сильно и не стал "абсолютным чемпионом" (хотя по стоимости — пора =)) – в некоторых аспектах o1 всё ещё впереди.
Мне нравится, что оценка рисков становится более детальной и точечной. Прям интересно, что будет дальше. Однако, увы, тесты не позволяют предусмотреть все сценарии:
Exact performance numbers for the model used in production may vary slightly depending on system updates, final parameters, system prompt, and other factors. (с)
Вот. Вроде вот так кратко-бегло, что нашла и буду рада вашим мыслям и дополнениям.
Чудесной пятницы!
Ваш Дата-автор!
🔥3❤1👌1