IKNN и KNN
Привет, друзья! 🐣 Сегодня про что-то красивое и простое.
Вопреки тому, что KNN является интерпретируемым алгоритмом, его интерпретация непосредственно становится тем сложнее, чем больше размерность наших данных. Кроме того, интерпретация в виде ближайших соседей будет чувствительна к выбору меры близости.
Но что если упростить задачу?
Сформулируем гипотезу:
Что если каждый раз обучать KNN на паре признаков, а затем ансамблировать прогноз, будет ли это сколь угодно эффективным?
Оказывается, что да! Или почти да. Именно такой подход реализовал Brett Kennedy, показав, что эта удивительно простая идея способна обгонять классический KNN.
Github, Tds paper
Важно: Конечно, интересно проверить и охватить больше случаев — например поведение на скоррелированных или разреженых данных. Но идея кажется мне просто прекрасной , но пригодной только для малых размерностей.
Спасибо за ваше внимание друзья, и видели бы вы, как я вчера улыбалась, увидев, сколько вас здесь! 🥹❤️
Мне безумно приятно, что вы готовы тратить время, читая посты. Если есть вопросы — всегда пишите! Ответим =)
Отличного вам дня,
Ваш Дата-Автор! :)
Привет, друзья! 🐣 Сегодня про что-то красивое и простое.
Вопреки тому, что KNN является интерпретируемым алгоритмом, его интерпретация непосредственно становится тем сложнее, чем больше размерность наших данных. Кроме того, интерпретация в виде ближайших соседей будет чувствительна к выбору меры близости.
Но что если упростить задачу?
Сформулируем гипотезу:
Что если каждый раз обучать KNN на паре признаков, а затем ансамблировать прогноз, будет ли это сколь угодно эффективным?
Оказывается, что да! Или почти да. Именно такой подход реализовал Brett Kennedy, показав, что эта удивительно простая идея способна обгонять классический KNN.
Github, Tds paper
Важно: Конечно, интересно проверить и охватить больше случаев — например поведение на скоррелированных или разреженых данных. Но идея кажется мне просто прекрасной , но пригодной только для малых размерностей.
Спасибо за ваше внимание друзья, и видели бы вы, как я вчера улыбалась, увидев, сколько вас здесь! 🥹❤️
Мне безумно приятно, что вы готовы тратить время, читая посты. Если есть вопросы — всегда пишите! Ответим =)
Отличного вам дня,
Ваш Дата-Автор! :)
GitHub
GitHub - Brett-Kennedy/ikNN: An interpretable kNN based on aggregating the predictions of multiple 2d spaces.
An interpretable kNN based on aggregating the predictions of multiple 2d spaces. - Brett-Kennedy/ikNN
❤🔥12❤1
Explainable AI vs chatGPT 🥊
Привет, друзья! Недавно в комментариях прозвучал вопрос — почему в области просто нельзя использовать chatGPT для объяснения моделей?
В посте разберемся:
- Может ли GPT объяснить прогноз модели?
- Может ли GPT объяснить как работает метод объяснения?
Начнем с начала.
Explainable AI — область, задача которой сделать ответы алгоритмов машинного и глубинного обучения интерпретируемыми. Под интерпретируемостью подразумевается связь input и output, а также визуализация/понимание способов трансформации того, что мы подаем в модель в ответ, который модель отдает нам.
chatGPT — большая тренированная языковая модель типа трансформер, выпущенная компанией openAI 30 ноября 2022 года.
Связь.
В контексте связи с областью — chatGPT классический пример модели «черного ящика». Если я подам какой-либо промт, я могу предположить что ответ на ответ модели повлияли отдельные слова, но не могу это утверждать.
🐔Может ли GPT объяснить прогноз модели?
В голом виде — не может. Для объяснения прогноза нужны либо доступ к данным, на которых модель обучалась, либо доступ к данным, на которых модель тестируется. Также необходим доступ к самой модели — к ее гиперпараметрам.
🐖Может ли GPT объяснить как работает метод объяснения?
И да, и нет. Описание метода он дать может. Вы можете использовать его как Гугл поиск на свой страх и риск. С ним в этом смысле как с едой — найти можно, но не в помойке же искать*. И нет, это не про то, что GPT плох, это про то, что он вбирает себя слишком много информации, тогда как верная чаще всего только в первоисточнике (то есть в статье или рерайте статьи)
🐮Может ли GPT объяснить свой прогноз?
Не факт. Товарищи здесь [1] мучали его на этот счет, но получили не устойчивые объяснения. Кроме того, так как таких исследований в целом пока мало — на их результатами тоже нужно и можно критически смотреть.
🐗Какое место GPT может занять в explainable AI?
Место помощника. Например, можно саммаризовать длинночитаемые объяснения в более компактный, человек-читаемый вывод [2].
Вместо вывода.
Как человек, занимающийся вопросами интерпретируемости и возможности доверия, я очень прошу вас с безумно критическим настроем использовать любой ответ GPT. Доверяй, но перепроверяй.
Мне самой товарищ GPT очень нравится. Он экономит время, знает латех, да и вообще с ним поговорить можно, когда мои коты не отвечают =)
А как часто используете GPT вы в работе и быту? Буду рада порассуждать в комментах!
А ещё рада позвать всех на курс про интерпретируемость, который я слёзно и аккуратно пишу вместе с AI Education 🤟🏼Мы ежедневно улучшаем его, а в середине лета уже будет готов блок и про интерпретации deep learning моделей!
С наилучшими пожеланиями,
Ваш Дата-автор! 🫶🏻
Привет, друзья! Недавно в комментариях прозвучал вопрос — почему в области просто нельзя использовать chatGPT для объяснения моделей?
В посте разберемся:
- Может ли GPT объяснить прогноз модели?
- Может ли GPT объяснить как работает метод объяснения?
Начнем с начала.
Explainable AI — область, задача которой сделать ответы алгоритмов машинного и глубинного обучения интерпретируемыми. Под интерпретируемостью подразумевается связь input и output, а также визуализация/понимание способов трансформации того, что мы подаем в модель в ответ, который модель отдает нам.
chatGPT — большая тренированная языковая модель типа трансформер, выпущенная компанией openAI 30 ноября 2022 года.
Связь.
В контексте связи с областью — chatGPT классический пример модели «черного ящика». Если я подам какой-либо промт, я могу предположить что ответ на ответ модели повлияли отдельные слова, но не могу это утверждать.
🐔Может ли GPT объяснить прогноз модели?
В голом виде — не может. Для объяснения прогноза нужны либо доступ к данным, на которых модель обучалась, либо доступ к данным, на которых модель тестируется. Также необходим доступ к самой модели — к ее гиперпараметрам.
🐖Может ли GPT объяснить как работает метод объяснения?
И да, и нет. Описание метода он дать может. Вы можете использовать его как Гугл поиск на свой страх и риск. С ним в этом смысле как с едой — найти можно, но не в помойке же искать*. И нет, это не про то, что GPT плох, это про то, что он вбирает себя слишком много информации, тогда как верная чаще всего только в первоисточнике (то есть в статье или рерайте статьи)
🐮Может ли GPT объяснить свой прогноз?
Не факт. Товарищи здесь [1] мучали его на этот счет, но получили не устойчивые объяснения. Кроме того, так как таких исследований в целом пока мало — на их результатами тоже нужно и можно критически смотреть.
🐗Какое место GPT может занять в explainable AI?
Место помощника. Например, можно саммаризовать длинночитаемые объяснения в более компактный, человек-читаемый вывод [2].
Вместо вывода.
Как человек, занимающийся вопросами интерпретируемости и возможности доверия, я очень прошу вас с безумно критическим настроем использовать любой ответ GPT. Доверяй, но перепроверяй.
Мне самой товарищ GPT очень нравится. Он экономит время, знает латех, да и вообще с ним поговорить можно, когда мои коты не отвечают =)
А как часто используете GPT вы в работе и быту? Буду рада порассуждать в комментах!
А ещё рада позвать всех на курс про интерпретируемость, который я слёзно и аккуратно пишу вместе с AI Education 🤟🏼Мы ежедневно улучшаем его, а в середине лета уже будет готов блок и про интерпретации deep learning моделей!
С наилучшими пожеланиями,
Ваш Дата-автор! 🫶🏻
❤8🔥2👌1🗿1
POV: Мнение моего кота про весь этот наш машинлернинг 😁
Но не об этом! Привет, друзья! Пишу поделиться красивой ссылкой.
Одна из мотиваций использования DL — это автоматическое извлечение признаков из сложных концепций данных. В сверточных нейронных сетях (CNN) этот процесс можно ещё и красиво визуализировать!
По результатам будет видно, что чем глубже слой, тем сложнее извлекаемый паттерн. Ну или это просто психоделическая фантазия.
Источник (еще разок, но покрасивее).
UPD: еще одна красивая визуализация VGG16.
Чудесного вам начала недели,
Ваш Дата-автор!
Но не об этом! Привет, друзья! Пишу поделиться красивой ссылкой.
Одна из мотиваций использования DL — это автоматическое извлечение признаков из сложных концепций данных. В сверточных нейронных сетях (CNN) этот процесс можно ещё и красиво визуализировать!
По результатам будет видно, что чем глубже слой, тем сложнее извлекаемый паттерн. Ну или это просто психоделическая фантазия.
Источник (еще разок, но покрасивее).
UPD: еще одна красивая визуализация VGG16.
Чудесного вам начала недели,
Ваш Дата-автор!
😁5🔥2
Привет, друзья! 🐣
Если Дата-автор долго не пишет посты, значит его нещадно употребили сессия и работа. Но пока я весело развлекаюсь с задачами экзаменов, не могу не оставить вас без задачки. Тем более, что давно не было =)
Задача сложная. Если у вас нет идей к ее решению — это нормально, выбирайте ответ наугад! А после того, как я сдам последний экзамен, на выходных, мы с вами аккуратно разберем решение. 🫶🏻
Для начала, введем несколько новой (или не новой) информации.
Методы explainable AI создавались (и в некотором случае создаются) без удовлетворения какой-либо конкретной аксиоматике, почти с лозунгом оно работает и вроде сносно? — отлично, берем.
Однажды в 2017, исследователи решили переиграть всё и ввести метод через две аксиомы Sensitivity и Implementation Invariance (чувствительность и инвариатность к реализации).
🐗 Будем говорить, что метод атрибуции объяснения удовлетворяет аксиоме чувствительности, если для двух входных объектов x, x', отличных только по одному признаку Ai, но имеющим разные прогнозы, метод присваивает признаку Ai ненулевую важность.
🐗Метод атрибуции назовем инвариантным к реализации, если важности признаков идентичны для двух функционально эквивалентных[1] сетей.
[1] Две сети f(x), g(x) назовем функционально эквивалентными, если их выходные данные одинаковы для всех входных данных, несмотря на разные архитектуры.
Если Дата-автор долго не пишет посты, значит его нещадно употребили сессия и работа. Но пока я весело развлекаюсь с задачами экзаменов, не могу не оставить вас без задачки. Тем более, что давно не было =)
Задача сложная. Если у вас нет идей к ее решению — это нормально, выбирайте ответ наугад! А после того, как я сдам последний экзамен, на выходных, мы с вами аккуратно разберем решение. 🫶🏻
Для начала, введем несколько новой (или не новой) информации.
Методы explainable AI создавались (и в некотором случае создаются) без удовлетворения какой-либо конкретной аксиоматике, почти с лозунгом оно работает и вроде сносно? — отлично, берем.
Однажды в 2017, исследователи решили переиграть всё и ввести метод через две аксиомы Sensitivity и Implementation Invariance (чувствительность и инвариатность к реализации).
🐗 Будем говорить, что метод атрибуции объяснения удовлетворяет аксиоме чувствительности, если для двух входных объектов x, x', отличных только по одному признаку Ai, но имеющим разные прогнозы, метод присваивает признаку Ai ненулевую важность.
🐗Метод атрибуции назовем инвариантным к реализации, если важности признаков идентичны для двух функционально эквивалентных[1] сетей.
[1] Две сети f(x), g(x) назовем функционально эквивалентными, если их выходные данные одинаковы для всех входных данных, несмотря на разные архитектуры.
🗿2👍1🔥1
Рассмотрим метод атрибуции, действующий по следующему алгоритму (смотрите картинки 1-2) и функцию (смотрите картинку 3) в точках (0) (2).
Удовлетворяет ли метод аксиомам выше, если проверить его на этой функции?
Удовлетворяет ли метод аксиомам выше, если проверить его на этой функции?
🔥2
Что там по удовлетворению аксиомам?
Anonymous Poll
16%
Да!
3%
Нет!
31%
Я ответа подожду
50%
Хочу пирог🥮
Привет, друзья!
Пока без ответа (а вы любите пироги! 🍒), но тоже с интересной штукой.
🐉 DragoNN — фреймворк для тех, кто применяет DL для изучения генома человека. Достаточно интересная находка, просто даже для расширения кругозора.
Официальный сайт проекта, гитхаб.
Мне попался в контексте контента для курса по объяснению для моделей DL. Сейчас описываю мтеод DeepLIFTи он — единственный (из известных мне) метод объяснения, который трудоспособен выуживать важности на геномных данных (туториал). Кроме, конечно, логических правил If-Then
Быстрый поиск по теме других, реализованных программно, красивых методов не дал. 🧐
Ну и поделюсь спонтанно найденной стэнфордовской презентацией про DL для декодирования генома.
Чудного вам вечера,
Ваш дата-автор!
Пока без ответа (а вы любите пироги! 🍒), но тоже с интересной штукой.
🐉 DragoNN — фреймворк для тех, кто применяет DL для изучения генома человека. Достаточно интересная находка, просто даже для расширения кругозора.
Официальный сайт проекта, гитхаб.
Мне попался в контексте контента для курса по объяснению для моделей DL. Сейчас описываю мтеод DeepLIFTи он — единственный (из известных мне) метод объяснения, который трудоспособен выуживать важности на геномных данных (туториал). Кроме, конечно, логических правил If-Then
Быстрый поиск по теме других, реализованных программно, красивых методов не дал. 🧐
Ну и поделюсь спонтанно найденной стэнфордовской презентацией про DL для декодирования генома.
Чудного вам вечера,
Ваш дата-автор!
GitHub
GitHub - kundajelab/dragonn: A toolkit to learn how to model and interpret regulatory sequence data using deep learning.
A toolkit to learn how to model and interpret regulatory sequence data using deep learning. - kundajelab/dragonn
👍4❤🔥1
Привет, друзья!
Вернёмся к интегралу :)
📋 Пример был взят из весенней конференции Стэнфорда 2021 года. Вы можете посмотреть его здесь и в целом очень рекомендую полное видео и плей-лист конференции.Особенно если вам интересен объяснимый искусственный интеллект для NLP задач, что я тоже надеюсь охватить в курсе.
🌱 Название описанного метода — Integrated Gradients (мне нравится переводить на русский как «интеграл от аппроксимированных градиентов», потому что при прямом переводе не понятно, кого куда интегрируют =)).
Он действительно удовлетворяет аксиомам, что также протестировано в ряде статей на простых бенчмарках. Однако, наряду с прекрасной аксиоматикой, метода он имеет свои ограничения, а именно:
1. Чувствительность к baseline — результаты метода сильно зависят от выбора базового состояния. Неправильный выбор может привести к некорректным объяснениям.
2. Линейность интерполяции — метод основан на линейных интерполяциях между базовым состоянием и текущими входными данными, что может быть не всегда адекватно для нелинейных моделей.
Как эти ограничения работают и что с этим делать рассматривали, например, здесь, но с точки зрения практики пока ничего не реализовано.
Вообще, сколько ни изучаю область, пока по состоянию можно описать так: их (методов) много и они работают, но надежность и корректность спорна.
Вот такие дела,
до связи!
Ваш Дата-автор!
Вернёмся к интегралу :)
📋 Пример был взят из весенней конференции Стэнфорда 2021 года. Вы можете посмотреть его здесь и в целом очень рекомендую полное видео и плей-лист конференции.
🌱 Название описанного метода — Integrated Gradients (мне нравится переводить на русский как «интеграл от аппроксимированных градиентов», потому что при прямом переводе не понятно, кого куда интегрируют =)).
Он действительно удовлетворяет аксиомам, что также протестировано в ряде статей на простых бенчмарках. Однако, наряду с прекрасной аксиоматикой, метода он имеет свои ограничения, а именно:
1. Чувствительность к baseline — результаты метода сильно зависят от выбора базового состояния. Неправильный выбор может привести к некорректным объяснениям.
2. Линейность интерполяции — метод основан на линейных интерполяциях между базовым состоянием и текущими входными данными, что может быть не всегда адекватно для нелинейных моделей.
Как эти ограничения работают и что с этим делать рассматривали, например, здесь, но с точки зрения практики пока ничего не реализовано.
Вообще, сколько ни изучаю область, пока по состоянию можно описать так: их (методов) много и они работают, но надежность и корректность спорна.
Вот такие дела,
до связи!
Ваш Дата-автор!
YouTube
Feature Attribution | Stanford CS224U Natural Language Understanding | Spring 2021
For more information about Stanford’s Artificial Intelligence professional and graduate programs, visit: https://stanford.io/ai
To learn more about this course visit: https://online.stanford.edu/courses/cs224u-natural-language-understanding
To follow along…
To learn more about this course visit: https://online.stanford.edu/courses/cs224u-natural-language-understanding
To follow along…
👍5❤2
Ну и не могу не прикрепить прекрасный мем с презентации IG.
*Все мемы бережно сохраняю в отдельную папочку, чтобы потом было что вставлять в презентации.*
Если у вас есть избранные мемы — прошу делиться 😁
*Все мемы бережно сохраняю в отдельную папочку, чтобы потом было что вставлять в презентации.*
Если у вас есть избранные мемы — прошу делиться 😁
😁2
Привет, друзья!
Что если автоматизировать задачу выбора оптимального метода интерпретации? 🥸
Примерно это я пыталась решить, проектируя эту веб-страницу, но ребята из Гамбурга в коалиции сделали это куда хитрее и круче.
📑 Так у них родился фреймворк CompareXAI — динамический тест, результаты которого позволяют оценить метриками возможные методы XAI, подходящие под вашу задачу.
Преимущества:
- Система оценивания не включает параметры, оцениваемые человеком
Ограничения:
- Не подходит для оценки GANов, RL и алгоритмов, отученных без учителя
- Не описывает градиентные методы и в целом особенности интерпретации для DL
Может, по мере развития фреймворка, ребята сделают из него мощный инструмент.
Будем наблюдать!
Если хотите подробнее узнать о методах оценки во фреймворке, то вот: [cтатья]
Такие дела!
Копающийся в интернетах,
Где-то между Петрозаводском и Питером,
Ваш Дата-автор! 🐤
Что если автоматизировать задачу выбора оптимального метода интерпретации? 🥸
Примерно это я пыталась решить, проектируя эту веб-страницу, но ребята из Гамбурга в коалиции сделали это куда хитрее и круче.
📑 Так у них родился фреймворк CompareXAI — динамический тест, результаты которого позволяют оценить метриками возможные методы XAI, подходящие под вашу задачу.
Преимущества:
- Система оценивания не включает параметры, оцениваемые человеком
Ограничения:
- Не подходит для оценки GANов, RL и алгоритмов, отученных без учителя
- Не описывает градиентные методы и в целом особенности интерпретации для DL
Может, по мере развития фреймворка, ребята сделают из него мощный инструмент.
Будем наблюдать!
Если хотите подробнее узнать о методах оценки во фреймворке, то вот: [cтатья]
Такие дела!
Копающийся в интернетах,
Где-то между Петрозаводском и Питером,
Ваш Дата-автор! 🐤
👍5❤3
Привет, друзья!
Выкидываем SHAP?
Сегодня мне прислали интересную статью: The Inadequacy of Shapley Values for Explainability (Неадекватность значений Шепли для объяснимости)
На статью стоит обратить внимание тем, кто вообще хочет адекватно осуществлять процесс интерпретации моделей. И не только значениями Шепли.
Что у нас есть:
✔️ Значения Шепли многофункциональны — им можно скормить задачи вычисления важности признаков и для ML, и для DL моделей.
✔️ Значения Шепли популярны — красивые графики выглядят серьезно.
✔️ Значения Шепли вроде бы стоят на математике, поскольку вводятся через теорию игр.
Что утверждает статья и на что НУЖНО обратить внимание:
🔘 Тезис 1.
Заявление в статье"Explainability is NOT SHAP’s game" — это верно. Но важно знать и понимать, что все методы та или иная аппроксимация.
🔘 Тезис 2.
Наличие в статье гипотезы, что значения Шепли должны придавать признакам ненулевую важность, если они были важны в каком-то прогнозе.
Например в XAI есть аксиома чувствительности — метод атрибуции (объяснения) удовлетворяет аксиоме чувствительности, если для двух входных объектов x, x', отличных только по одному признаку A_i, но имеющим разные прогнозы, метод присваивает признаку A_i ненулевую важность. И значения Шепли могут не удовлетворять этой аксиоме в некоторых случаях.
Почему это так:
Значения Шепли не проверялись на соответствие аксимомам, и да в XAI действительно существуют методы, которые, например, не удовлетворяют аксиоме чувствительности'. Так что они никому ничего не должны)
🔘 Тезис 3.
Проверка неэффективности значений Шепли осуществляется для логических функций в статье — на самом деле аналогично можно показать, что Permutation importance ломается об логические функции, но делает ли это метод неприменимым?
⬇️ Общий вывод:
Лучший подход — пока не цепляться за такие заявления и иметь в своем арсенале несколько методов интерпретации. Чтобы смотреть в результате множество признаков, которые образовываются из пересечения использованных методов.
И, кроме того, важно понимать, что любая (не)эффективность метода — это мнение, основанное на экспериментах и работе с разными методами. А мнение может быть разным и это — нормально)
Я уверена, что эффективность тех или иных методов очень чувствительна к набору данных и может случиться так, что верное на одном датасете опровергнется на другом.
Будьте осторожны и любите критическое мышление!
Со всем самым теплым, как восточные страны летом,
Ваш Дата-автор! 🐥
Выкидываем SHAP?
Сегодня мне прислали интересную статью: The Inadequacy of Shapley Values for Explainability (Неадекватность значений Шепли для объяснимости)
На статью стоит обратить внимание тем, кто вообще хочет адекватно осуществлять процесс интерпретации моделей. И не только значениями Шепли.
Что у нас есть:
✔️ Значения Шепли многофункциональны — им можно скормить задачи вычисления важности признаков и для ML, и для DL моделей.
✔️ Значения Шепли популярны — красивые графики выглядят серьезно.
✔️ Значения Шепли вроде бы стоят на математике, поскольку вводятся через теорию игр.
Что утверждает статья и на что НУЖНО обратить внимание:
🔘 Тезис 1.
Заявление в статье"Explainability is NOT SHAP’s game" — это верно. Но важно знать и понимать, что все методы та или иная аппроксимация.
🔘 Тезис 2.
Наличие в статье гипотезы, что значения Шепли должны придавать признакам ненулевую важность, если они были важны в каком-то прогнозе.
Например в XAI есть аксиома чувствительности — метод атрибуции (объяснения) удовлетворяет аксиоме чувствительности, если для двух входных объектов x, x', отличных только по одному признаку A_i, но имеющим разные прогнозы, метод присваивает признаку A_i ненулевую важность. И значения Шепли могут не удовлетворять этой аксиоме в некоторых случаях.
Почему это так:
Значения Шепли не проверялись на соответствие аксимомам, и да в XAI действительно существуют методы, которые, например, не удовлетворяют аксиоме чувствительности'. Так что они никому ничего не должны)
🔘 Тезис 3.
Проверка неэффективности значений Шепли осуществляется для логических функций в статье — на самом деле аналогично можно показать, что Permutation importance ломается об логические функции, но делает ли это метод неприменимым?
⬇️ Общий вывод:
Лучший подход — пока не цепляться за такие заявления и иметь в своем арсенале несколько методов интерпретации. Чтобы смотреть в результате множество признаков, которые образовываются из пересечения использованных методов.
И, кроме того, важно понимать, что любая (не)эффективность метода — это мнение, основанное на экспериментах и работе с разными методами. А мнение может быть разным и это — нормально)
Я уверена, что эффективность тех или иных методов очень чувствительна к набору данных и может случиться так, что верное на одном датасете опровергнется на другом.
Будьте осторожны и любите критическое мышление!
Со всем самым теплым, как восточные страны летом,
Ваш Дата-автор! 🐥
👍5❤🔥2🤔1
Привет, друзья!
🥊 Отличная новость: один из фреймворков saliency для объяснения глубинных моделей выкатил framework-agnostic update!
#Library
Поддерживаемые методы
В основном градиентные:
- Integrated Gradients (paper), Guided Integrated Gradients (paper), Blur IG (paper)
- SmoothGrad (paper),
- Vanilla Gradients (paper1, paper2)
- Guided Backpropogation (paper),
- Grad-CAM (paper),
И один concept (region)-based метод:
- XRAI (paper)
Вооружайтесь Tensorflow, pyTorch и Keras этим летом =)
И ни в чем себе не отказывайте
Всем солнца! 🫶🏻☀️
Ваш дата-автор!
🥊 Отличная новость: один из фреймворков saliency для объяснения глубинных моделей выкатил framework-agnostic update!
#Library
Поддерживаемые методы
В основном градиентные:
- Integrated Gradients (paper), Guided Integrated Gradients (paper), Blur IG (paper)
- SmoothGrad (paper),
- Vanilla Gradients (paper1, paper2)
- Guided Backpropogation (paper),
- Grad-CAM (paper),
И один concept (region)-based метод:
- XRAI (paper)
Вооружайтесь Tensorflow, pyTorch и Keras этим летом =)
И ни в чем себе не отказывайте
Всем солнца! 🫶🏻☀️
Ваш дата-автор!
GitHub
GitHub - PAIR-code/saliency: Framework-agnostic implementation for state-of-the-art saliency methods (XRAI, BlurIG, SmoothGrad…
Framework-agnostic implementation for state-of-the-art saliency methods (XRAI, BlurIG, SmoothGrad, and more). - PAIR-code/saliency
🔥5👍1
Друзья, доброго вам начала дня!
и любого другого отрезка времени :)
Пишу позвать вас на вебинар "Объяснение ML моделей и feature importance"!
На нём обсудим:
* Что такое интерпретируемая модель и чем она отличается от объяснимой?
* Какие задачи бизнеса и исследований решает объяснение моделей?
* Почему важно знать несколько методов объяснения?
И подробно изучим самый популярный метод объяснения ансамблевых моделей — Feature importnace!
(С практикой 🔥)
Когда — в 18:00 (по МСК)
Где — пришлю zoom-ссылку!
Буду рада видеть каждого!
Как всегда Ваш
Дата-автор :)
и любого другого отрезка времени :)
Пишу позвать вас на вебинар "Объяснение ML моделей и feature importance"!
На нём обсудим:
* Что такое интерпретируемая модель и чем она отличается от объяснимой?
* Какие задачи бизнеса и исследований решает объяснение моделей?
* Почему важно знать несколько методов объяснения?
И подробно изучим самый популярный метод объяснения ансамблевых моделей — Feature importnace!
(С практикой 🔥)
Когда — в 18:00 (по МСК)
Где — пришлю zoom-ссылку!
Буду рада видеть каждого!
Как всегда Ваш
Дата-автор :)
❤15❤🔥2
Привет, друзья! 🐥
По следам вебинара UPDATE и запросам делюсь:
1. Презентацией
2. Ноутбуком с практикой вебинара
3. Записью на YouTube
и, конечно, промокодом на курc Explainable AITREE до 1 августа!
Спасибо, что были онлайн! 28 человек в моменте — я безумно рада, что вы нашли время прийти, задавать много интересных вопросов и ставить плюсы! 🫶🏻
P.S. В ходе вебинара немного запинаюсь. Прошу прощения — первые вебы — они такие 😄
До новых встреч!
Ваш Дата-автор!
По следам вебинара UPDATE и запросам делюсь:
1. Презентацией
2. Ноутбуком с практикой вебинара
3. Записью на YouTube
и, конечно, промокодом на курc Explainable AI
Спасибо, что были онлайн! 28 человек в моменте — я безумно рада, что вы нашли время прийти, задавать много интересных вопросов и ставить плюсы! 🫶🏻
P.S. В ходе вебинара немного запинаюсь. Прошу прощения — первые вебы — они такие 😄
До новых встреч!
Ваш Дата-автор!
Google
Google Colab Notebook
Run, share, and edit Python notebooks
❤10🤝4🔥3🙏1
Привет, друзья! 🐥
Подготовила небольшой пост о Concept-based eXplainable AI — ещё одном взгляде на построение интерпретируемых моделей.
Зачем:
Помимо того что методы атрибуции могут быть спорными, они также зависят от личной интерпретации видимого исследователем.
🧑🏻🌾 Убрать личностный фактор помогает следующий подход: потребуем от метода объяснения, чтобы он указывал на понятные человеку детали, которые были или не были важными.
Детали эти назовём концептами. А в общем случае определим концепт как понятную человеку сущность, выраженную естественным языком, логическим правилом или сэмплом данных.
И по такой нехитрой конструкции определим Concept-based eXplainable AI.
Базовые штуки на исследовать:
T-CAV — testing with concept activation vectors [framework (tf)], [paper]
CBM — Concept Bottleneck Models [github][paper]
CEM — Concept Embedding Models [github][paper]
Всем солнечных фруктов! 🍉
Ваш Дата-автор! :)
Подготовила небольшой пост о Concept-based eXplainable AI — ещё одном взгляде на построение интерпретируемых моделей.
Зачем:
Помимо того что методы атрибуции могут быть спорными, они также зависят от личной интерпретации видимого исследователем.
🧑🏻🌾 Убрать личностный фактор помогает следующий подход: потребуем от метода объяснения, чтобы он указывал на понятные человеку детали, которые были или не были важными.
Детали эти назовём концептами. А в общем случае определим концепт как понятную человеку сущность, выраженную естественным языком, логическим правилом или сэмплом данных.
И по такой нехитрой конструкции определим Concept-based eXplainable AI.
Базовые штуки на исследовать:
T-CAV — testing with concept activation vectors [framework (tf)], [paper]
CBM — Concept Bottleneck Models [github][paper]
CEM — Concept Embedding Models [github][paper]
Всем солнечных фруктов! 🍉
Ваш Дата-автор! :)
👍3❤1
Is attention an explanation?
Привет, Друзья!
Последнюю неделю занимаюсь ресерчем для подготовки модуля по Attention в курсе. Решила поделиться! 🐗
Входные данные:
- по определению без формул, attention — механизм который позволяет модели фокусироваться на более важных релевантных частях входных данных и игнорировать части менее важные;
- следствие — визуализация весов внимания позволяет понять, какие части модели были эффективны для прогноза;
Постановка вопроса:
Может ли механизм внимания в модели считаться объяснением прогноза?
Не могу сказать, что в качестве ответа на вопрос существует много материала и, кроме того, могу также дополнить, что однозначного ответа нет.
🥊 С одной стороны:
- существуют эксперименты, показывающее, что «важности» attentions не коррелируют с градиентными методами объяснений
- отдельные исследователи показывают, что удаление признаков, считающихся важными для внимания, реже приводит к изменению прогноза, чем удаление признаков, которые считаются важными с помощью методов, основанных на градиенте
- если добавить случайные токены (пусть A, B и C) ко всем документам в корпусе, можно обнаружить, что некоторые из этих токенов считаются важными для положительного (или отрицательного) класса
🌱С другой стороны:
- для одинаковой степени достоверности могут сосуществовать несколько правдоподобных объяснений;
- существуют эксперименты, показывающие, что альтернативные распределения внимания, обнаруженные с помощью состязательных методов обучения, работают хуже по сравнению с традиционными механизмами внимания при использовании в MLP (многослойный персептрон)
- дизайны исследований и методы оценки достоверности объяснения различны (могут смотреть на разные головы по уровню, если говорить о трансформерах, например) ;
Саммаризация и личное мнение: 🐗
Механизмы внимания действительно позволяют взглянуть на внутреннюю работу модели. Кроме того, они дают легко понятную оценку скрытых состояний, так что отбрасывать при объяснении модели визуализацию вниманий не стоит.
Однако, это не единственный метод, который стоит рассмотреть и хороший тон — рассматривать attention наряду с градиентными и другими методами.
Плюс, explainable — сам по себе плавающий термин. Объяснение для эксперта в DL может быть полной чепухой для не эксперта DL, а результаты, полученные на, например, картинках не эквивалетны результатам на текстам.
Поэтому получается пока просто аккуратно наблюдаем за областью, друзья!
Надеюсь, у вас отпуск,
Или любимая работа ❤️
С теплейшими пожеланиями,
Ваш Дата автор!
Привет, Друзья!
Последнюю неделю занимаюсь ресерчем для подготовки модуля по Attention в курсе. Решила поделиться! 🐗
Входные данные:
- по определению без формул, attention — механизм который позволяет модели фокусироваться на более важных релевантных частях входных данных и игнорировать части менее важные;
- следствие — визуализация весов внимания позволяет понять, какие части модели были эффективны для прогноза;
Постановка вопроса:
Может ли механизм внимания в модели считаться объяснением прогноза?
Не могу сказать, что в качестве ответа на вопрос существует много материала и, кроме того, могу также дополнить, что однозначного ответа нет.
🥊 С одной стороны:
- существуют эксперименты, показывающее, что «важности» attentions не коррелируют с градиентными методами объяснений
- отдельные исследователи показывают, что удаление признаков, считающихся важными для внимания, реже приводит к изменению прогноза, чем удаление признаков, которые считаются важными с помощью методов, основанных на градиенте
- если добавить случайные токены (пусть A, B и C) ко всем документам в корпусе, можно обнаружить, что некоторые из этих токенов считаются важными для положительного (или отрицательного) класса
🌱С другой стороны:
- для одинаковой степени достоверности могут сосуществовать несколько правдоподобных объяснений;
- существуют эксперименты, показывающие, что альтернативные распределения внимания, обнаруженные с помощью состязательных методов обучения, работают хуже по сравнению с традиционными механизмами внимания при использовании в MLP (многослойный персептрон)
- дизайны исследований и методы оценки достоверности объяснения различны (могут смотреть на разные головы по уровню, если говорить о трансформерах, например) ;
Саммаризация и личное мнение: 🐗
Механизмы внимания действительно позволяют взглянуть на внутреннюю работу модели. Кроме того, они дают легко понятную оценку скрытых состояний, так что отбрасывать при объяснении модели визуализацию вниманий не стоит.
Однако, это не единственный метод, который стоит рассмотреть и хороший тон — рассматривать attention наряду с градиентными и другими методами.
Плюс, explainable — сам по себе плавающий термин. Объяснение для эксперта в DL может быть полной чепухой для не эксперта DL, а результаты, полученные на, например, картинках не эквивалетны результатам на текстам.
Поэтому получается пока просто аккуратно наблюдаем за областью, друзья!
Надеюсь, у вас отпуск,
Или любимая работа ❤️
С теплейшими пожеланиями,
Ваш Дата автор!
👍4❤🔥1