Data Blog
1.36K subscribers
98 photos
3 videos
4 files
162 links
Канал про интерпретируемость моделей и путь до phD, если автор не уйдет пасти овец.
Download Telegram
Личный опыт
Anonymous Poll
10%
Формат
83%
+
3%
-
3%
~
Шпаргалка по терминологии в таксономии XAI.

Привет, друзья! Я что-то подумала, что при использовании библиотек будет полезным понимание терминологии в методах и способах объяснения/интерпретации. И после решила интенсивно напечатать написать небольшую шпаргалку! 🐓

1. Про отличие интерпретируемости и объяснимости можно почитать здесь.

2. Intrinsically interpretable model — внутренне интерпретируемая модель — такая, что интерпретируемость заложена в “дизайне” её создания (дерево решений, линейная/логистическая регрессия).

3. Post hoc interpretability — от латинского "после этого" или "после события" — интерпретируемость после обучения модели. Сочетанием post hoc обыкновенно охватывают соответствующие методы интерпретации или объяснения. Примеры: shapley values, lime, individual conditional и partial dependence expectation plots.

4. Model specific или model agnostic method — методы, соответственно, зависимые и независимые от модели. Первые могут быть применены к определенному кластеру моделей, (например, GRAD-CAM и Scare CAM для сверточных нейронных сетей), вторые могут применяется к любым моделям (как упомянутые выше shap и lime).

5. Local или global method — данные термины связывают способ объяснения модели и его отношение объяснения с сэмплом данных. Локальные методы объясняют конкретный прогноз (например counterfactual explanations), глобальные – общую тенденцию прогнозов (pdp, ice).

6. Последнее пример разделения методов для eXplainable RL (XRL) — уровни model-explaining, reward-explaining, state-explaining и task-explaining (Как по переводу — объяснение по модели, по вознаграждению, состоянию и задаче соответственно).

Надеюсь, в подготовке к последней неделе года вы всё ещё в силах сохранять рабочий баланс, а если нет — невероятно вам этого желаю!

Со всем самым добрым,
🐥 Ваш Дата-автор!
🔥7👍2
Привет, друзья! Today I want to tell you a story about the paper "Tell Me a Story! Narrative-Driven XAI with Large Language Models" 🤡

Что: В статье предложены CFstories, SHAPstories и XAIstories — объяснения на основе методов Shapley values и Counterfactual explanations соответственно.

Зачем это: дело в том, что значения Шеппли выдают изображение с коэфициентами, а контрфактические объяснения (для классификации изображений) — сегмент картинки, который нужно заблюрить, чтобы получить некорректный прогноз от модели. Заблюренный сегмент не дает понятного ответа на вопрос "почему именно этот сегмент?", а коэффициенты, получаемые при помощи значений Шеппли нетривиально понять.

Решение: Авторы натренировали LLM разъяснять на естественном языке объяснения, получаемые при помощи обозначенных методов.

Промты и результаты смотрите в статье! Меня очень впечатлило всё — и идея, и качество 🤌🏻
🔥3🗿3
Доброго вам вечера, друзья!

Пишу поздравить вас с Новым годом! 🎄🎨

Поздравляю искренне, и как могу шлю вам теплоту и доброту в этот вечер.

Год был сложным. У каждого в своём.
Этот вечер тоже может быть не простым. Не праздничным.

Но я всё же невероятно желаю вам улыбнуться!

Вы не одни. Мы — здесь.
У вас всё получится. Чудеса, результаты работы в ночи, новые возможности и то самое "второе дыхание", если вдруг накрыло состояние "всё" — они в вас.

И пусть в новом году внутри вас всегда будет место радости и доброте! 🫶🏻

Сегодня объевшись мандаринов,
Ваш Дата-автор!
🍊🐷
10👍1🥰1
“Объяснимый искусственный интеллект” через призму задачи тематического моделирования.

Привет, друзья! Я активно продолжаю заниматься своей задачей и эти новогодние выходные закончила разметкой корпуса с 4698-ю статьями, собранных по ключевому слову “Explainable AI” с ресурса pubmed.

🧷 Разметка была простая, как овсянка — 0 — если статья принадлежит теме, и 1 — если статья теме не принадлежит. Также у меня был собран (по тому же ключу) набор данных с ресурса arxiv. И итого была получена 6471-а статья, где около 1756 принадлежат теме “Expainable AI”. Собирались, что ещё важно, названия и аннотации статей.

Анализ области XAI как бы “сверху” представляет собой сложную задачу, но занудные объяснения “почему” я оставлю для научрука и тех, кто будет читать мой диплом.

Вам же хочу рассказать в целом об идее — оценить тему при помощи разбиения её на подтемы.

Приведенная задача представляет собой пример из кластерного анализа, относящегося к обучению без учителя. (Когда размечать 1756 статей на подтемы лень) 😁


Основная сложность здесь: изначальная не независимость статей. Они уже были выбраны по конкретному ключу и уже содержали большое количество специфически одинаковых слов.

Поскольку в NLP я — как гриб без шляпки, к своей реализации идеи я пошла практическим путем, успела “потрогать” два метода:

LDA (Latent Dirichlet allocation) — скрытое размещение Дирихле, вероятностный метод, базирующийся на условной вероятности.
BERTopic — метод тематического моделирования, который для создания кластеров использует эмбеддинги BERTа и TF-IDF.


Основные выводы:
1. Метод LDA хуже справился с задачей выделения каких-либо сколь угодно понятных тем. Я думаю, это связано с однородностью датасета и изначальной зависимостью документов между собой.
2. Моделирование при помощи BERT, среди двух, оказалось более сильным методом, и в дальнейшем, его хорошо использовать как минимум для проверки гипотезы о возможности разбить тему на подтемы.


Выводы про XAI:

1. На основе 1756 статей мне удалось выделить 3 кластера:
"Метод" (статьи, описывающие какой-либо метод интерпретации/объяснения);
"Применение" (статьи, где методы интепретации и объяснения используются для анализа модели);
"Доверие и право" (статьи, где XAI появляется вместе с этическими/юридическими вопросами).

Такие вот дела! На деле попутно ужасно переживаю по грантовому проекту, так как пока самый практически полезный результат — таблица с фреймворками. 🫠
Думаю, потом задеплою её как-нибудь. И продолжаю работать!

Дайте знать, если пост был для вас интересен!
) 🔥

Надеюсь, вы уже вошли в хороший рабочий ритм,
Ваш Дата-автор!
🔥11👍1🍓1
Привет, Друзья!
Сразу и к делу.

Какая-либо работа по гранту у меня лежит мертвым грузом уже почти две недели. Срок же защиты работы — 17 марта. И чем ближе дедлайн, тем меньше сил заставить себя что-то делать. Вместо этого я подучиваю просто всё — от мат. статистики, до повторения классических вещей из ML.

Говоря совсем просто и не литературно, я боюсь «лохануться» и поэтому сижу будто бы со связанными руками.

Вместе с этим мои последние 10 дней были наполнены кучей мыслей, и одна из них просто повторяет фразу моего любимого певца: «Не ошибается только тот, кто никогда никуда не идет…».

Скоро вернусь с постами и спасибо за то, что вы еще здесь! Прямо сейчас составляю план, чтобы step by step выбраться из грантовой прокрастинации.
Считайте, пережили ещё один творческий кризис Дата-автора! 🐥

Чудесного вам начала февраля,
Всё ещё я!
🔥131
Привет, друзья! 🐣

Чего-то меня вчера вечером накрыло, и казалось, что пора всё бросать, так что я села посмотреть на какие-то достижения, и решила поделиться парой мыслей!

Сейчас я почти бакалавр-математик. И иногда мне кажется, что вся "тусня" с университетом — не самое лучшее занятие, особенно, если хочется развиваться в области. Хочется соскочить, пойти на собеседования, начать активно участвовать в соревнованиях или делать что-то еще, ибо есть ощущение, что то время, которое тратится на пары могло бы быть проведено более полезным образом.

Однако, каждые 45+45 минут на попе ровно — тоже рациональное вложение.

- Они учат опыту преподавания — тому, которое импонирует и тому, от которого тошнит;
- Они учат коммуницировать — открыто, честно, твердо, обоснованно и при том культурно;
- Они учат планировать — так, чтобы успеть и на пары, и поработать, и в салон красоты сходить;

В умных книжках часто пишут про "позитивное мышление". Но оно начинается не там, где сидя в луже вдруг начинаешь истерично смеяться, а там, где в той же луже начинаешь учиться плавать.

За январь удалось:

- Устроиться ревьюером на курсы по data science;
- Стать частью команды создателей буткемпов по DS от ВШЭ;
- Присоединиться к команде проверяющих магистратуры Вышки по DS;

и...
- Допечь удобоваримую навигацию по библиотекам Explainable AI! 🐥

Что я хочу донести этим постом?
1. Любой опыт является частью роста, даже если расти приходится через не самые приятные дебри эмоций
2. Скоро вернуться посты про XAI, потому что последнее время я тратила на табличку и прокрастинацию 🫠😄

Чудного вам вечера и успехов!

Ваш, уже живее после кризиса,
Дата-автор!
❤‍🔥12🔥10💯2
Привет, друзья! 🎹

Интерпретируемость и классика.

В начале нового учебного семестра закоммитились с другом на ряд целей. Он и я — на свои.

Одна из моих касается хорошего теоретического повторения всей возможной базы по машинному обучению.

Зачем — давно хочется! 🤓 И огромный «пинок» — возросший градус ответственности от того что я проверяю работы в магистратуре и на курсах по DS.

Небольшие заметки в контексте интерпретируемости:

Среди базовых алгоритмов, применимых для задачи классификации интерпретируемыми в вероятностном смысле (статья про различие объяснимости и интерпретируемости тут) являются Наивный Байес и Логистическая регрессия.

Почему?
Оба алгоритма прочно стоят ногами на математике. Логистическая регрессия на методе максимального правдоподобия, Байес — на теореме Байеса.
Обучая таким образом эти алгоритмы из коробки (например, используя sklearn), по итогу можно получать математически корректные вероятности.

Что делать с остальными?
Ответ — калибровать! Пока копалась на этой теме наткнулась на интересное исследование, показывающее, что калибровка существенно улучшает вероятности, прогнозируемые SVM/деревьями решений.

Как?
На этот случай нашла на Хабре большую заметку (переведенная статья с medium).

____________________________________
Пока тону где-то под работой и учебой, но надеюсь хотя бы раз в неделю-две что-то информативное сюда готовить. Ну, а пока...

Ваш, пекущий еду, вместо структурированных постов,
Дата-автор!


Продуктивной недели, друзья!
6🔥5
Привет, друзья!
Не могла не обновить дата-валентинки прошлого года и не поздравить вас с 14м февраля!

Поздравляю! Любите, будьте любимы и сохраняйте тепло!
Всем любви и мира! ❤️

С наилучшими пожеланиями,
Ваш дата-автор!
❤‍🔥16🔥1🤯1
Привет, друзья!

Многие из вас помнят, что я учусь на математика, и Machine learning и AI для меня — это пока большое хобби, переросшее, благодаря университету, в научную деятельность.

Последние два дня я провела в небольшой перезагрузке, и, на вдохновении после курса Практический ML от AI Education, задумалась: в интернетах очень мало задач про ML и DL, которые надо решать ручками, с листочком, на бумажке.

И решила это исправить)

Экспериментально, пока раз в неделю, я буду публиковать 1 тестовую задачу. Разного уровня. На разные определения и метрики. Начнём с простого =)

Задача:


В качестве регуляризации модели мы можем прибегнуть к регуляризациям L1 и L2.

Их название связано с понятием нормы в векторном пространстве. Норма — это правило, сопоставляющее в данном случае вектору его длину.

Выберите верные утверждения:
🔥32
Привет, друзья! 🐣

Думаю, 3 дня — достаточное время для хорошего интриганта. Время обсудить тест!

Верные ответы: 4 и 6!

Основная ошибка: пункт 2. Ln нормы существуют! Просто не являются столь же эффективными и осмысленными в большинстве задач так, как нормы L1 и L2. Небольшой обзор таких норм вы можете найти здесь.

Что ещё интересного можно сказать про регуляризацию:

Помимо того что она призвана уменьшить вероятность переобучения модели, сбалансировав её сложность, регуляризация также может быть применена к повышению интерпретируемости модели. И хотя на эту тему удалось найти только одну статью, упрощение сложности модели для повышения интерпретируемости — всегда хороший тон.

А как вы используете регуляризацию на практике или в учебных задачах?

На сим всё!

Ждущий огонечков, если продолжаем рубрику с задачами,
где-то под кучкой работы,
🦗🔥

Ваш дата-автор!
🔥151
Data Blog pinned «Привет, друзья! 🐣 Чего-то меня вчера вечером накрыло, и казалось, что пора всё бросать, так что я села посмотреть на какие-то достижения, и решила поделиться парой мыслей! Сейчас я почти бакалавр-математик. И иногда мне кажется, что вся "тусня" с университетом…»
Привет, друзья!

Со мной тут поделились свежим манифестом об интерпретируемости.

Из него отдельно хочу отметить многогранность задач, возникающих в области Explainable AI.

🔥 В манифесте детализируются 9:

1. Creating explanations for new types of AI — например для генеративных (GANs) и языковых (LLM) моделей. Также отдельно авторы выделяют построение методов интерпретации для различных подходов к созданию "умного" алгоритма, таких как distributed и collaborative Learning (статья)

2. Augmenting and improving attribution methods что посвящено повышению устойчивости методов к возмущениям в данных и изменениям в гиперпараметрах модели. Тут же авторы выделяют достаточно новую ветку в XAI — генерацию объяснений при помощи GAN.

3. Clarifying the use of concepts in XAI — посвящено несогласованности терминологии. О нём я упоминала в докладах. Несогласованность возникает из-за большого количества областей и конечных приложений XAI.

4. Evaluating XAI methods and explanations — задача, направленная на создание объективных способов оценивать объяснения. Тут выделяют как проектирование новых фреймворков и метрик, но и привлечение людей к оценке объяснений.

5. Supporting the human-centeredness of explanations
— и если о людях-оценщиках говорила задача выше, эта говорит о предоставлении объяснений, уже специально адаптированных для людей, которые их получают.

6. Supporting the multi-dimensionality of explainability — поддерживать мультиразмерность, по другому я бы сказала "инклюзивность", XAI к различным конечным потребителям и уровням использования.

7. Adjusting XAI methods and explanations
— адаптировать объяснений для разных заинтересованных сторон, разных областей и разных целей.

8. Mitigating the negative impact of XAI — менеджерить возможное негативное влияние объяснений — разрабатывать критерии возможной их фальсификации.

9. Improving the societal impact of XAI — или, если переформулировать, повышение и обеспечения доверия к социальному воздействия XAI. Например, в случае генерации быть способными избегать случаев, когда модель генерирует данные, похожие на представителей обучающей выборки (например, пациентов).

Вместо вывода:

Такой разброс задач говорит о том, что область XAI  невероятно динамична и востребована в настоящий момент. Как самостоятельная дисциплина, она переходит от этапа формирования к полноправному существованию с генерацией челленджей и задач.

Читать манифест ⬅️

Всё ещё Ваш,
Дата-автор!
=)
🔥51
Визуальное представление целей и задач области в хорошем качестве вдогонку.
4🔥2
🤓 Интерпретируемость аудио-моделей.

Привет, друзья! Наткнулась сегодня на review по методам построения XAI в случае аудио-данных.
Готовьте ушки глазки!

Применение глубинного обучения к аудио-данным имеет достаточно интересную историю, начавшуюся в 88 годах с задачи автоматической генерации музыки. Первая волна работ была инициирована в 1988 году by Lewis и Todd, которые предложили использовать нейронные сети для автоматического создания музыки. Почитать и узнать подробнее.

Сейчас работа с аудиоданным успешно продолжается, не обходя стороной и область XAI.

Проблема: существующие методы объяснения глубинных моделей концентрируются в основном на задачах CV и NLP.

Что имеем на входе: waveforms (формы сигналов), spectrograms (спектрограммы) и другие способы представления аудио.

Что хотим на выходе: объяснение инференса глубокой модели.

Текущая ситуация в получении объяснений: в обзоре описано 18 методов извлечения дополнительно информации из представлений аудио-данных в виде wavefroms и spectrograms, 12 из них применинимы и к другим модальностям данных (наиболее популярные из них SHAP и LIME), 6 — реализованы специально под аудио. Таблички прикрепляю.

⬇️
Подробности, библиотеки для препроцессинга аудио и другие детали.

С пожеланием вам бодрого начала рабочей недели,
Ваш Дата-автор!


P.S. готовлю задачку и на эту неделю, просто балансирую на многозадачности 🐈
5🔥2
4
Привет, друзья! 🐈

Я пока еще не задачей, но с огромной просьбой к вам!
Сегодня добавила на сайт "Find a way to make your AI explainable" ещё две библиотеки! Из нового: нашла фреймворк, который в том числе дружит с h2o.

Хочу вас попросить: Если у вас есть какие-либо ресурсы/блоги и вы находите навигацию полезной, то буду рада, если вы сможете поделиться результатом моей работы ☺️

Как всегда, со всем самым добрым,
Премного обожающий вас,
Дата-автор =)
5👍3🔥2