Data Blog
1.36K subscribers
98 photos
3 videos
4 files
162 links
Канал про интерпретируемость моделей и путь до phD, если автор не уйдет пасти овец.
Download Telegram
🐓 XAI and LLM’s

Объяснение прогноза модели — частая задача для специалистов машинного обучения — даже за глубоким ходить не надо. Дело здесь касается не только критических областей — объяснимость важна и для рядовых бизнес-задач, как источник гипотез в отношении стратегии компании.

🤔 Или, всё-таки, надо сходить за глубоким?

В последнее время можно заметить чуть более широкое применение диалоговых агентов-помощников, и эта история не обошла область XAI.

🧷 Первая свежая ветка задач здесь: создание систем, способных не только осуществлять действие, но и давать его объяснение на естественном языке. Например система, осуществляющая объяснимый подбор работы или объяснимое вождение.

🧷Вторая свежая ветка задач: объяснение объяснений или, говоря более литературно — комбинация методов Explainable AI с LLM. Например, вооружившись GPT, недавно было осуществлено сравнение интерпретаций, получаемых традиционными методами (в частности, LIME) и при помощи языковой модели.
Исследование показало, что генерация объяснений языковым чудом не хуже объяснений, полученных LIME, является вычислительно более дешевой, но при этом отлична с ними по согласованности. В результате исследователи не могут сделать вывод превосходит ли одно объяснение другое, и в целом допускается, что из двух объяснений существует третье и для его нахождения нужны новые методы.

Однако при этом потенциал у систем-кобминаций XAI и LLM неплох. Например здесь исследователи демонстрируют систему для обнаружения кибератак, являющуюся комбинацией моделей машинного и глубокого обучения. Пользователь может получать не только объяснение, но и ответы на вопросы, связанные с тем что делать с этим объяснением.

Вот такой вот понедельничный вестник новостей, друзья! Бодрой вам недели и напоследок, один вопрос очень хотела задать вам на протяжении всего текста!

Прости господи, мне же не одной сокращение LLM’s напоминает M&M’s..?
💁🏻

Со всей своей огромной любовью и с желанием отличного вам начала недели,
Ваш Дата автор!
👍7🔥2
Библиотеки для интерпретации глубоких моделей.

Привет, друзья!
Делаю еженедельный чёс по свежим статьям и вот нашла подборку свежих библиотек для интерпретации трансформеров и других глубоких моделей.

🐮 1. Captum — библиотека, с широким набором методов интерпретации для разных уровней детализации — на уровне признаков, слоев или нейронов. Второй плюс библиотеки — мультимодальность относительно данных — можно интерпретировать сети, обученные на изображениях, текстах, аудио или видео.

🐷 2. AttentionViz — библиотека, чьим преимуществом является визуализация во всех возможных плоскостях именно механизма внимания трансформеров. Посмотрите, как это красиво!

🐏 3. Quantus — библиотека, дающая ответ на вопрос о возможности измерения качества полученного объяснения. Пока из всех, встреченных мною, эта библиотека — первая с таким функционалом! 🔥

Как говорится, сохраняем, делимся, ставим огонёчки, друзья! И как всегда — отличного вам продолжения недели!

Не мерзните и не перерабатывайте,
Ваш Дата-автор!
🔥1021
🔥 Друзья! На самом деле, я стараюсь сделать некий пост с полезными ресурсами, но..

Но кажется если бы я не стеснялась орать дома вслух, я бы орала вслух и мне важно "проораться" хотя бы так!

ММРО — это просто огонь, среди конференций. Вы посмотрите на оргкомитет! Жуть, просто жуть! 🥹 (леплю оргкомитет)

Я очень надеялась попасть туда. И это просто как я не знаю что.

В декабре обязательно расскажу о том, как конференция пройдет/проходит!

И чуть позже вернусь с полезностями и ещё у меня для вас отличная рекомендация (с промокодом!:))

Пусть и ваш вечер будет радостным!
Ваш Дата-автор!
10🔥7👍1
Привет, друзья! 🐋

Я часто останавливаю себя от мысли что-то публиковать, сидя над материалом и вопросом: А достаточно ли в этом пользы?

Достаточно ли технически и круто? Достаточно ли много? Достаточно ли в тексте смысла, доброты, поддержки? Достаточно ли?

Вместе с этим, понятие смысла растяжимо, как таково. Иногда я вижу огромную ценность в чьих-то словах и эмоциях, пережитых на пути к событию, а иногда кладом оказывается ссылка на сайт из говна и палок с Богом забытой работой.

За кулисами того, что я пишу сюда не так часто, и уже который месяц пытаюсь наладить «частоту публикаций», проходит очень много.

Например сейчас я почти неделю саботировала работу по гранту, ожидая принятия/непринятия статьи на ММРО. Саботировала, потому что страшно и сомнений куча — а достаточно ли научно и ново то, что я делаю?

Аналогичным образом я вторую неделю откладываю пару, которую мне предложил прочитать лектор в университете.

И это всё стоит тонны мыслей, смыслов, гипотез и вопросов к себе. И к чему это я:

Просто хочу напомнить вам, друзья, никогда не «рано». Никогда не будет достаточно красиво, идеально и лучший момент тоже не настанет.

Делайте, потому что делаете. И что-то будет. 😌❤️🫶🏻

И если вам интересно то что иногда я буду делиться какими-то личностными мыслями и выводами, связанными со всей работой — дайте знать!
❤‍🔥93
А пока вы отмечаете свое мнение и читаете прошлый пост, обещанная приятная рекомендация! ☺️

Что: курс "Рекуррентные сети в NLP и приложениях".

🐷 Когда: 5 декабря (первый вебинар)

Что проходится за месяц:

Работа с фреймворком PyTorch
Решение задач генерации текстов при помощи RNN
Использование RNN в других областях

И также: вы сделаете проект, оформленный в виде FastAPI-сервиса!

Где: платформа Stepik, вебинары в zoom + записи на YouTube

🎉 Цена: 2900, а с промокодом имени моего старшего кота DARII — 2400 :)

За контент и за авторов курса — кладу голову на отсечение. Именно благодаря им, благодаря структуре курса (теория + практический сервис), я смогла доделать важную часть своей статьи для ММРО.

Всем отличной недели!
Где-то под кучкой работы,

Ваш Дата-автор!:)
❤‍🔥2🔥2
Доброго вам начала зимы, друзья! ❄️

Сейчас готовлю лекцию для магистров своего университета, и в рамках очередных поисков информации собрала для вас фреймворки для оценки качества объяснений.

Существует проблема:
Степень качества объяснения зависит от конечной цели и от лица, рассматривающего объяснение. Так, от хорошего объяснения мы можем требовать:

- Корректности в рамках предметной области
- Практической применимости
- Непротиворечивости (похожие примеры имеют похожие объяснения)
- Устойчивости (например, к состязательным возмущениям)

Некоторые примеры метрик я приводила в докладе.

Фреймворки для оценки качества объяснений:

🐏1. Quantus — уже знакомый нам товарищ. Содержит более 30 различных показателей для самых популярных методов объяснения моделей.
🦭2. Shapash — наш новый друг. Удобно и красиво, что с помощью Shapash вы можете создать веб-приложение, которое упрощает понимание взаимодействий между функциями модели и обеспечивает красивую навигацию.
🦥3. AI explainability 360 — тоже ключает в себя джентельменсткий набор алгоритмов, которые охватывают различные аспекты объяснений и косвенные показатели объяснимости. Поддерживает табличные, текстовые, графические данные и временные ряды. Еще у репозитория есть учебные пособия и книжки (английский).

На сегодня это всё! :) Впервые буду читать лекцию на полтора часа, так что пойду усердно готовиться.
А вам желаю отличных выходных!

Всем горячего шоколада, корицы и мандаринов,
Ваш Дата-автор!
🔥6👍2
🌲 Привет, друзья!

Возможно вы успели заметить раньше, но на всякий случай!

🐥 Уже второй год я занимаюсь проектом, посвященным объяснимому искусственному интеллекту (XAI).
Сначала это была база библиотек, позволяющих распаковывать алгоритмы. На данный момент в ней 23 библиотеки, классифицированных по:

фреймворкам
типам данных
методам интерпретации/объяснения моделей

теперь — это более масштабный проект, который планирует вылиться в полноценный продукт, облегчающий внедрение объяснения в повседневный pipeline. Планируемые работы и исследования я как раз буду представлять на ММРО.

На основе последних обновлений, я собрала и классифицировала уже 23 библиотеки. Призываю сохранять и пользоваться! =)

Сейчас я проектирую веб-сервис и готовлю семантический анализ области.

Общую таблицу (там все 3 на отдельных листах) вы можете найти здесь!

Буду рада вашей поддержке в виде обратной связи! И буду держать в курсе проекта)

Очень hard-working,
Ваш Дата-автор!


P.S. Кстати, прочитала лекцию в университете. Учиться читать мне еще и учиться, однако опыт веселый! 😄
🔥14
🐥 Привет, друзья! Сегодня мне 22.

А три дня назад я выступила на конференции, до которой, казалось, нос не дорос. Годом до этого я выиграла грант. Ещё раньше — завела этот блог. До 20 впервые поучаствовала в создании научной статьи. А ещё раньше начала писать посты на Хабр.

И я пишу это не для того чтобы похвастаться. С этим у меня проблемы)

Я пишу это, чтобы сказать вот что:

в каждый, каждый момент времени мною двигало одно — игра. Мне было так интересно, по детски интересно. «Смогу ли я? А что будет если смогу? Поможет ли кому-то мой опыт? И что если просто начать делиться?»

В момент выступления на ММРО мне был задан вопрос: «А зачем ваше исследование?» И ребенок внутри меня не нашел что ответить, потому что фраза «мне просто интересно» действительно не доросла до серьёзного мира профессоров. Эмоционально было немного тяжело. С печалью и мыслями «ну да, зачем это всё?».

Но именно такой ребенок заставляет меня думать о проекте во сне. Делать блог, создавать веб-сервис, участвовать в конференциях и без конца учиться, вместо того чтобы обрести свободное время.

И я просто хочу в своей день рождения улыбнуться вам, поблагодарить за то, что вы здесь и пожелать, пусть и иногда ценой новых «очивок», не терять интерес. 🐣

Ко всему. 🫶🏼

Вы — чудо!

P.S. Если в комментариях напишите пару слов про блог, чего не хватает или что хотите увидеть — буду рада :)

Честно готовлю посты, но на декабрь в сессии и чокопаях,
Ваш Дата-автор!
13🎉5👏2
🦭 OmniXAI

Привет, друзья!

OmniXAI — относительно новая библиотека для объяснимого искусственного интеллекта (Python с открытым исходным кодом).

🔥 В базе она уже 24я, и среди других её отличают:

- большой зоопарк методов интерпретации и объяснения (25 методов)
- поддержка моделей, обученных с помощью sklearn и torch/tensorflow
- поддержка основных модальностей данных (табличные, изображения, тексты, временные ряды),
- приятный теплой объяснений в виде интерактивного дашборда
- понятная карта применимости конкретных методов к конкретному типу моделей (в отличие от многих)


Подробнее смотрите в репозитории,
Плюс сравнение библиотеки с другими здесь,
Плюс статья

Где-то душой на каких-нибудь Канарах уже на сессии,
Ваш Дата-автор!
🔥6
Data Blog pinned «🌲 Привет, друзья! Возможно вы успели заметить раньше, но на всякий случай! 🐥 Уже второй год я занимаюсь проектом, посвященным объяснимому искусственному интеллекту (XAI). Сначала это была база библиотек, позволяющих распаковывать алгоритмы. На данный момент…»
Привет, друзья! 🎄

На днях я выступила на ММРО-2023, конференции, в орг. комитет которой входят люди, уроки которых я 2 года назад сохраняла на YouTube и думала, что однажды точно дорасту, доберусь до них.

ММРО стала моим заключительным «покемоном» в коллекции — я прошла через конференции в стенах родного вуза, тематические конференции, косвенно связанные с целевой областью деятельности и вот — поучаствовала и в тематической конференция полностью связанной с целевой областью деятельности.

Немного поделюсь опытом. Цель этого текста — познакомить вас с внутренней кухней всех этих серьезных «штук с международным участием». И, быть может, кто-то сформирует новое к ним отношение. 👇🏻

🚒 С точки зрения soft skills всё отличный опыт ораторства, умения отвечать на вопросы и защищать свою работу. В этом смысле нет смысла особо чувствовать себя грустно, если выступление ограничивается родным университетом/коллегами и стараться сразу метить на какие-то крупные конференции. Первое выступление — оно и в стенах родной квартиры отличный опыт. Главное просто начать.

🚜 С точки зрения hard skills чем уже тематика конференции, тем больше требований к работе будет и тем более сильной вам работу придется сделать. Когда конференция сторонняя, порог входа будет казаться со стороны может даже выше, чем он есть на самом деле, потому что это, грубо говоря, паспорт ВУЗа/организации. И это будет требовать от вас новых достижений. И это же – отличный триггер для вашего роста.

👵🏼 С точки зрения «списка вещей, которые нужно успеть сделать до 30» — не вижу ничего такого, если вдруг университетское время проходит без конференций и других выступлений. Вырасти можно и без этого. Главное просто трудиться. Например, мне куда больше удовольствия доставил Data Fest, так что я даже задумалась над надобностью мне всей этой чудной реальности науки (по крайней мере здесь).

🐥 Лично про мои чувства — на каждой из конференций я либо злилась, либо чувствовала себя нервной (и счастливой) чихуахуа. И уровень тут был не при чем. Как в родном университете, так и в не родных, моя работа оценивалась от уровня условного плинтуса, до вполне себе достойного исследования. На одной конференции от меня в целом сразу ждали не так много, потому что я девушка =)

И вся обратная связь становилась триггером изменений, действий и новых фичей. Так что резюме такое:

если у вас есть возможность выступать — выступайте, как бы страшно это не было. Хуже не будет точно. А если универ давно позади — то вы ничего не потеряли. Иногда конференции сколь угодно неформальные дарят больше чудесных эмоций и уж точно не меньше опыта.

Вот такие дела! Надеюсь, вы в проводите это время в приятной суете, а если же нет — то желаю вам огнеупорных штанишек! 🧯 Прошлые года пережили и этот переживем!

С огромным приветом,
Ваш Дата-автор!
❤‍🔥10
Личный опыт
Anonymous Poll
10%
Формат
83%
+
3%
-
3%
~
Шпаргалка по терминологии в таксономии XAI.

Привет, друзья! Я что-то подумала, что при использовании библиотек будет полезным понимание терминологии в методах и способах объяснения/интерпретации. И после решила интенсивно напечатать написать небольшую шпаргалку! 🐓

1. Про отличие интерпретируемости и объяснимости можно почитать здесь.

2. Intrinsically interpretable model — внутренне интерпретируемая модель — такая, что интерпретируемость заложена в “дизайне” её создания (дерево решений, линейная/логистическая регрессия).

3. Post hoc interpretability — от латинского "после этого" или "после события" — интерпретируемость после обучения модели. Сочетанием post hoc обыкновенно охватывают соответствующие методы интерпретации или объяснения. Примеры: shapley values, lime, individual conditional и partial dependence expectation plots.

4. Model specific или model agnostic method — методы, соответственно, зависимые и независимые от модели. Первые могут быть применены к определенному кластеру моделей, (например, GRAD-CAM и Scare CAM для сверточных нейронных сетей), вторые могут применяется к любым моделям (как упомянутые выше shap и lime).

5. Local или global method — данные термины связывают способ объяснения модели и его отношение объяснения с сэмплом данных. Локальные методы объясняют конкретный прогноз (например counterfactual explanations), глобальные – общую тенденцию прогнозов (pdp, ice).

6. Последнее пример разделения методов для eXplainable RL (XRL) — уровни model-explaining, reward-explaining, state-explaining и task-explaining (Как по переводу — объяснение по модели, по вознаграждению, состоянию и задаче соответственно).

Надеюсь, в подготовке к последней неделе года вы всё ещё в силах сохранять рабочий баланс, а если нет — невероятно вам этого желаю!

Со всем самым добрым,
🐥 Ваш Дата-автор!
🔥7👍2
Привет, друзья! Today I want to tell you a story about the paper "Tell Me a Story! Narrative-Driven XAI with Large Language Models" 🤡

Что: В статье предложены CFstories, SHAPstories и XAIstories — объяснения на основе методов Shapley values и Counterfactual explanations соответственно.

Зачем это: дело в том, что значения Шеппли выдают изображение с коэфициентами, а контрфактические объяснения (для классификации изображений) — сегмент картинки, который нужно заблюрить, чтобы получить некорректный прогноз от модели. Заблюренный сегмент не дает понятного ответа на вопрос "почему именно этот сегмент?", а коэффициенты, получаемые при помощи значений Шеппли нетривиально понять.

Решение: Авторы натренировали LLM разъяснять на естественном языке объяснения, получаемые при помощи обозначенных методов.

Промты и результаты смотрите в статье! Меня очень впечатлило всё — и идея, и качество 🤌🏻
🔥3🗿3
Доброго вам вечера, друзья!

Пишу поздравить вас с Новым годом! 🎄🎨

Поздравляю искренне, и как могу шлю вам теплоту и доброту в этот вечер.

Год был сложным. У каждого в своём.
Этот вечер тоже может быть не простым. Не праздничным.

Но я всё же невероятно желаю вам улыбнуться!

Вы не одни. Мы — здесь.
У вас всё получится. Чудеса, результаты работы в ночи, новые возможности и то самое "второе дыхание", если вдруг накрыло состояние "всё" — они в вас.

И пусть в новом году внутри вас всегда будет место радости и доброте! 🫶🏻

Сегодня объевшись мандаринов,
Ваш Дата-автор!
🍊🐷
10👍1🥰1
“Объяснимый искусственный интеллект” через призму задачи тематического моделирования.

Привет, друзья! Я активно продолжаю заниматься своей задачей и эти новогодние выходные закончила разметкой корпуса с 4698-ю статьями, собранных по ключевому слову “Explainable AI” с ресурса pubmed.

🧷 Разметка была простая, как овсянка — 0 — если статья принадлежит теме, и 1 — если статья теме не принадлежит. Также у меня был собран (по тому же ключу) набор данных с ресурса arxiv. И итого была получена 6471-а статья, где около 1756 принадлежат теме “Expainable AI”. Собирались, что ещё важно, названия и аннотации статей.

Анализ области XAI как бы “сверху” представляет собой сложную задачу, но занудные объяснения “почему” я оставлю для научрука и тех, кто будет читать мой диплом.

Вам же хочу рассказать в целом об идее — оценить тему при помощи разбиения её на подтемы.

Приведенная задача представляет собой пример из кластерного анализа, относящегося к обучению без учителя. (Когда размечать 1756 статей на подтемы лень) 😁


Основная сложность здесь: изначальная не независимость статей. Они уже были выбраны по конкретному ключу и уже содержали большое количество специфически одинаковых слов.

Поскольку в NLP я — как гриб без шляпки, к своей реализации идеи я пошла практическим путем, успела “потрогать” два метода:

LDA (Latent Dirichlet allocation) — скрытое размещение Дирихле, вероятностный метод, базирующийся на условной вероятности.
BERTopic — метод тематического моделирования, который для создания кластеров использует эмбеддинги BERTа и TF-IDF.


Основные выводы:
1. Метод LDA хуже справился с задачей выделения каких-либо сколь угодно понятных тем. Я думаю, это связано с однородностью датасета и изначальной зависимостью документов между собой.
2. Моделирование при помощи BERT, среди двух, оказалось более сильным методом, и в дальнейшем, его хорошо использовать как минимум для проверки гипотезы о возможности разбить тему на подтемы.


Выводы про XAI:

1. На основе 1756 статей мне удалось выделить 3 кластера:
"Метод" (статьи, описывающие какой-либо метод интерпретации/объяснения);
"Применение" (статьи, где методы интепретации и объяснения используются для анализа модели);
"Доверие и право" (статьи, где XAI появляется вместе с этическими/юридическими вопросами).

Такие вот дела! На деле попутно ужасно переживаю по грантовому проекту, так как пока самый практически полезный результат — таблица с фреймворками. 🫠
Думаю, потом задеплою её как-нибудь. И продолжаю работать!

Дайте знать, если пост был для вас интересен!
) 🔥

Надеюсь, вы уже вошли в хороший рабочий ритм,
Ваш Дата-автор!
🔥11👍1🍓1
Привет, Друзья!
Сразу и к делу.

Какая-либо работа по гранту у меня лежит мертвым грузом уже почти две недели. Срок же защиты работы — 17 марта. И чем ближе дедлайн, тем меньше сил заставить себя что-то делать. Вместо этого я подучиваю просто всё — от мат. статистики, до повторения классических вещей из ML.

Говоря совсем просто и не литературно, я боюсь «лохануться» и поэтому сижу будто бы со связанными руками.

Вместе с этим мои последние 10 дней были наполнены кучей мыслей, и одна из них просто повторяет фразу моего любимого певца: «Не ошибается только тот, кто никогда никуда не идет…».

Скоро вернусь с постами и спасибо за то, что вы еще здесь! Прямо сейчас составляю план, чтобы step by step выбраться из грантовой прокрастинации.
Считайте, пережили ещё один творческий кризис Дата-автора! 🐥

Чудесного вам начала февраля,
Всё ещё я!
🔥131
Привет, друзья! 🐣

Чего-то меня вчера вечером накрыло, и казалось, что пора всё бросать, так что я села посмотреть на какие-то достижения, и решила поделиться парой мыслей!

Сейчас я почти бакалавр-математик. И иногда мне кажется, что вся "тусня" с университетом — не самое лучшее занятие, особенно, если хочется развиваться в области. Хочется соскочить, пойти на собеседования, начать активно участвовать в соревнованиях или делать что-то еще, ибо есть ощущение, что то время, которое тратится на пары могло бы быть проведено более полезным образом.

Однако, каждые 45+45 минут на попе ровно — тоже рациональное вложение.

- Они учат опыту преподавания — тому, которое импонирует и тому, от которого тошнит;
- Они учат коммуницировать — открыто, честно, твердо, обоснованно и при том культурно;
- Они учат планировать — так, чтобы успеть и на пары, и поработать, и в салон красоты сходить;

В умных книжках часто пишут про "позитивное мышление". Но оно начинается не там, где сидя в луже вдруг начинаешь истерично смеяться, а там, где в той же луже начинаешь учиться плавать.

За январь удалось:

- Устроиться ревьюером на курсы по data science;
- Стать частью команды создателей буткемпов по DS от ВШЭ;
- Присоединиться к команде проверяющих магистратуры Вышки по DS;

и...
- Допечь удобоваримую навигацию по библиотекам Explainable AI! 🐥

Что я хочу донести этим постом?
1. Любой опыт является частью роста, даже если расти приходится через не самые приятные дебри эмоций
2. Скоро вернуться посты про XAI, потому что последнее время я тратила на табличку и прокрастинацию 🫠😄

Чудного вам вечера и успехов!

Ваш, уже живее после кризиса,
Дата-автор!
❤‍🔥12🔥10💯2