Data Blog
1.36K subscribers
98 photos
3 videos
4 files
162 links
Канал про интерпретируемость моделей и путь до phD, если автор не уйдет пасти овец.
Download Telegram
Привет, друзья!

Многие из вас помнят, что я учусь на математика, и Machine learning и AI для меня — это пока большое хобби, переросшее, благодаря университету, в научную деятельность.

Последние два дня я провела в небольшой перезагрузке, и, на вдохновении после курса Практический ML от AI Education, задумалась: в интернетах очень мало задач про ML и DL, которые надо решать ручками, с листочком, на бумажке.

И решила это исправить)

Экспериментально, пока раз в неделю, я буду публиковать 1 тестовую задачу. Разного уровня. На разные определения и метрики. Начнём с простого =)

Задача:


В качестве регуляризации модели мы можем прибегнуть к регуляризациям L1 и L2.

Их название связано с понятием нормы в векторном пространстве. Норма — это правило, сопоставляющее в данном случае вектору его длину.

Выберите верные утверждения:
🔥32
Привет, друзья! 🐣

Думаю, 3 дня — достаточное время для хорошего интриганта. Время обсудить тест!

Верные ответы: 4 и 6!

Основная ошибка: пункт 2. Ln нормы существуют! Просто не являются столь же эффективными и осмысленными в большинстве задач так, как нормы L1 и L2. Небольшой обзор таких норм вы можете найти здесь.

Что ещё интересного можно сказать про регуляризацию:

Помимо того что она призвана уменьшить вероятность переобучения модели, сбалансировав её сложность, регуляризация также может быть применена к повышению интерпретируемости модели. И хотя на эту тему удалось найти только одну статью, упрощение сложности модели для повышения интерпретируемости — всегда хороший тон.

А как вы используете регуляризацию на практике или в учебных задачах?

На сим всё!

Ждущий огонечков, если продолжаем рубрику с задачами,
где-то под кучкой работы,
🦗🔥

Ваш дата-автор!
🔥151
Data Blog pinned «Привет, друзья! 🐣 Чего-то меня вчера вечером накрыло, и казалось, что пора всё бросать, так что я села посмотреть на какие-то достижения, и решила поделиться парой мыслей! Сейчас я почти бакалавр-математик. И иногда мне кажется, что вся "тусня" с университетом…»
Привет, друзья!

Со мной тут поделились свежим манифестом об интерпретируемости.

Из него отдельно хочу отметить многогранность задач, возникающих в области Explainable AI.

🔥 В манифесте детализируются 9:

1. Creating explanations for new types of AI — например для генеративных (GANs) и языковых (LLM) моделей. Также отдельно авторы выделяют построение методов интерпретации для различных подходов к созданию "умного" алгоритма, таких как distributed и collaborative Learning (статья)

2. Augmenting and improving attribution methods что посвящено повышению устойчивости методов к возмущениям в данных и изменениям в гиперпараметрах модели. Тут же авторы выделяют достаточно новую ветку в XAI — генерацию объяснений при помощи GAN.

3. Clarifying the use of concepts in XAI — посвящено несогласованности терминологии. О нём я упоминала в докладах. Несогласованность возникает из-за большого количества областей и конечных приложений XAI.

4. Evaluating XAI methods and explanations — задача, направленная на создание объективных способов оценивать объяснения. Тут выделяют как проектирование новых фреймворков и метрик, но и привлечение людей к оценке объяснений.

5. Supporting the human-centeredness of explanations
— и если о людях-оценщиках говорила задача выше, эта говорит о предоставлении объяснений, уже специально адаптированных для людей, которые их получают.

6. Supporting the multi-dimensionality of explainability — поддерживать мультиразмерность, по другому я бы сказала "инклюзивность", XAI к различным конечным потребителям и уровням использования.

7. Adjusting XAI methods and explanations
— адаптировать объяснений для разных заинтересованных сторон, разных областей и разных целей.

8. Mitigating the negative impact of XAI — менеджерить возможное негативное влияние объяснений — разрабатывать критерии возможной их фальсификации.

9. Improving the societal impact of XAI — или, если переформулировать, повышение и обеспечения доверия к социальному воздействия XAI. Например, в случае генерации быть способными избегать случаев, когда модель генерирует данные, похожие на представителей обучающей выборки (например, пациентов).

Вместо вывода:

Такой разброс задач говорит о том, что область XAI  невероятно динамична и востребована в настоящий момент. Как самостоятельная дисциплина, она переходит от этапа формирования к полноправному существованию с генерацией челленджей и задач.

Читать манифест ⬅️

Всё ещё Ваш,
Дата-автор!
=)
🔥51
Визуальное представление целей и задач области в хорошем качестве вдогонку.
4🔥2
🤓 Интерпретируемость аудио-моделей.

Привет, друзья! Наткнулась сегодня на review по методам построения XAI в случае аудио-данных.
Готовьте ушки глазки!

Применение глубинного обучения к аудио-данным имеет достаточно интересную историю, начавшуюся в 88 годах с задачи автоматической генерации музыки. Первая волна работ была инициирована в 1988 году by Lewis и Todd, которые предложили использовать нейронные сети для автоматического создания музыки. Почитать и узнать подробнее.

Сейчас работа с аудиоданным успешно продолжается, не обходя стороной и область XAI.

Проблема: существующие методы объяснения глубинных моделей концентрируются в основном на задачах CV и NLP.

Что имеем на входе: waveforms (формы сигналов), spectrograms (спектрограммы) и другие способы представления аудио.

Что хотим на выходе: объяснение инференса глубокой модели.

Текущая ситуация в получении объяснений: в обзоре описано 18 методов извлечения дополнительно информации из представлений аудио-данных в виде wavefroms и spectrograms, 12 из них применинимы и к другим модальностям данных (наиболее популярные из них SHAP и LIME), 6 — реализованы специально под аудио. Таблички прикрепляю.

⬇️
Подробности, библиотеки для препроцессинга аудио и другие детали.

С пожеланием вам бодрого начала рабочей недели,
Ваш Дата-автор!


P.S. готовлю задачку и на эту неделю, просто балансирую на многозадачности 🐈
5🔥2
4
Привет, друзья! 🐈

Я пока еще не задачей, но с огромной просьбой к вам!
Сегодня добавила на сайт "Find a way to make your AI explainable" ещё две библиотеки! Из нового: нашла фреймворк, который в том числе дружит с h2o.

Хочу вас попросить: Если у вас есть какие-либо ресурсы/блоги и вы находите навигацию полезной, то буду рада, если вы сможете поделиться результатом моей работы ☺️

Как всегда, со всем самым добрым,
Премного обожающий вас,
Дата-автор =)
5👍3🔥2
Привет, друзья!

Сегодня с нами дата-задача. 🤌🏻

Из теории известно, что ошибка модели может быть разложена на три компоненты: дисперсию, смещение и шум.

Внимание, вопрос:
🔥1
Доброго воскресного, друзья!

Вы хороши! Спасибо каждому, кто тыкнул в опросе! 🤌🏻

Разберем верный ответ.

Ошибка модели может быть разложена на три компоненты: дисперсию, смещение и шум, при допущении о том, что:
- Шум в данных незначителен и имеет нормальное распределение со средним 0

И при условиях, что:
- мы рассматриваем в качестве ошибки Mean Squarred Error.

Про другие варианты:

Почему MSE/MAE/Logloss и вообще любые функции некорректно рассматривать вместе?
- Потому что они имеют разное аналитическое разложение — эта причина в целом покрывает пункты 1, 2, 4.

Чем так хороша MSE? 🤔
Аккуратное математическое разложение, по такой родной и знакомой формуле (a-b)^2 = a^2 - 2ab + b^2.

Стоит ли тогда рвать отношения с MAE/logloss и тд? ☹️
Нет конечно! Исследователи не спят и исследуют возможные разложения других функций. Для любителей зарыться ссылки ниже =)

Какое место у анализа bias-variance-decomposition в XAI? 👀
Разложение ошибки дает возможность понять генеральное поведение модели на всех данных. И чем лучше «чувствуется», насколько модель может "стрельнуть мимо" — тем лучше.

Ссылки для читающих:
1. Смотреть полное разложение для MSE
2. Разложение MAE на ошибки смещения, пропорциональности и несистематическую
3. Другое обобщение разложения

🍒 И самое вкусное:
4. Bias-Varince-Decomposition чтобы использовать ручками (кстати, не только для mse, но и для  0-1 loss)

Анализируйте свои модели, пейте вкусный кофе и сохраняйте тепло!

Со всем самым добрым,
Ждущий огоньков, если продолжаем и желающий вам чудесного дня,


Ваш Дата-автор!
🔥63
Кстати, друзья!

🎈На сегодня количество уникальных посетителей на сайте "Find a way to make your AI explainable" ровно 106!

Спасибо вам огромное за эту соточку! 🫶🏻
Вы чудо!
6
Привет, друзья! Поговорим про XRL? 🤓

Что это:
XRL — Explainable Reinforcement Learning — дословно объяснимое обучение с подкреплением — подобласть объяснимого искусственного интеллекта в целом.

🧷Основные подходы области
Декомпозированы, как и сам процесс обучения с подкреплением, на 4 основных подхода:
- model-explaining — объяснение модели,
- reward-explaining — объяснение вознаграждения,
- state-explaining — объяснение состояния,
- task-explaining methods – объяснение задачи.

🦥Два суб-подхода основных подходов:
- self-explainable
- explanation-generating

В чём отличие:
Self-explainable — модели, призванные быть понятными при обучении. Базовый тип таких — деревья решений или просто логические правила.
Explanation-generating — модели, которые «за своё слово отвечают», генерируя объяснения. Пример — контрактные объяснения — к прогнозу генерируем ближайший прогноз противоположного класса.

🫡Как контролировать этот зоопарк?
Создавая бенчмарки — ориентиры по качеству. Пример такого XRL-Bench (репозиторий)

На что обратить внимание:
Если вы давно наблюдаете за постами, то можете заметить частоту, с которой встречается метод объяснения SHAP — здесь он не исключение. Вместо вывода — рекомендация — его понимание, уверена, войдет в джентельменсткий набор!

Вместо заключения — как всегда с припиской,

Желающий быть тюльпаном, а не человеком,
Вносящий правки в научно-технический отчет (о, это достойно отдельного поста)
,

Всё ещё ваш,
Дата-автор!
1🎄1
Привет, друзья!

Пока дата-автор в дата-завале, предлагаю вам дата-задачку! 🤟🏻

Пусть вы решили задачу несколькими деревьями решений с сопоставимым качеством. Чтобы выбрать лучшее, вы решили визуализировать и сравнить их структуры и заметили две разных ситуации (см. рис. 1).

Какому дереву следует отдать предпочтение и почему?
Как выбрать правильное дерево? 🌳

🐥Привет, друзья!
И сегодня не про то дерево, которое вместе с домом и сыном)

Мы начали с наличия задачи. И это всегда отправная точка, при который мы можем выбирать более или менее интерпретируемое дерево.

Для нас правильным выбором было: симметричное дерево, так как оно будет лучше храниться в памяти и легче поддается хорошей интерпретации.

Почему правильный ответ — правильный?

1) Лучшее хранение в памяти — действительно свойство симметричных деревьев. Достаточно хранения списка предикатов — параметров, по которым мы определяем объекты по дочерним деревьям — для каждого уровня.

2) Почему симметричное дерево легче поддается хорошей интерпретации? Ответ в том, что оно более обобщенное. Деревья склонны к переобучению, и несбалансированность может быть признаком того, что какие-то объекты совсем оторваны от общей выборки.

Почему остальные ответы — не правильные?

1) Не симметричное дерево действительно лучше уловит особенности редких наблюдений, но у нас нет гарантии, что при генеральная совокупность подкинет нам еще редких ребят.
2) Легкость интерпретации для не симметричного дерева справедлива только в отношении объектов-уникумов. И когда стоит задача выделения таких объектов, например детекции аномалий, легкость интерпретации справедлива, иначе — нет.

🥧Про пирог ничего не говорю! Пирог — это дело всегда верное =)

Резюме:
1. Выбор структуры дерева плотно привязан к задаче
2. Симметричность дерева может сигнализировать о лучшей устойчивости, но свойство устойчивости нужно проверять
3. Пироги — всегда приятно.
5
И ещё немного:

Друзья, искренне каждому из вас желаю мира и тепла!

Если вам тяжело, задачи валятся из рук или просто чувствуете себя подавленно — помните, вы никогда не одни! Эмоции, чувства, боль, это нормально. Тем более, когда мир трясется (== всегда).

В моменты, когда вокруг будто хаос, мне помогают следующие вещи:

1) Закрыть новости. Это сложно и может казаться бездушным. Но это помогает;
2) Разрешить себе чувствовать. И порой даже провести пару дней мокрой салфеткой :)
3) Разрешить себе радоваться;
4) Планировать — день, неделю, рабочие задачи.

Вы у себя всегда будете.

Строча научно-технический отчет по гранту и ожидая весну,

Крепко обнимаю,
Ваш Дата-автор!
🫶🏻❤️
13👍2
Привет, друзья! 🐥

Вас становится всё больше и больше. И я невероятно рада!
Скоро вернусь с информативным контентом, а пока у меня просто насыщенное начало апреля — неделя до него и неделя, подошедшая к концу, были полны задач, связанных с НТО (научно-техническим отчетом).

Немного поделюсь опытом:

По определению, отчет о научно-исследовательской работе (НИР) — научно-технический документ, который содержит систематизированные данные о научно-исследовательской работе, описывает состояние научно-технической проблемы, процесс и/или результаты научного исследования.

По реальности — это ограниченный строгим шаблоном документ, в котором нужно описать достижения своей работы и средства, которыми эти достижения были получены.

🤓 Несколько фактов про НТО при выигрыше гранта УМНИК:

1. При формировании такого отчета подогнать его с точки зрения стиля под шаблон – это половина успеха
2. Финансовый отчет содержит только одну строку – деньги получены, деньги реализованы
3. Отчет настолько формальный, что при сдаче придираются к белизне бумаги!)
4. Объем отчета от 25 страниц

Сложности отчета:

1. Нужно быть усидчивым. Для меня это сложно, если дело касается не творческой работы, поэтому итераций перепроверок и возвращений моего отчета было точно штук 7
2. Нужно реально много поработать, чтобы было, что в него вписать
3. Других не обнаружено

Мнение:
Мне пока сложно сформировать итоговые ощущения от полученного гранта, но на данном этапе я просто рада получению финансовых средств на проект. Иные вещи, связанные с выигрышем меня не радуют от слова совсем.

Например, мне важно, чтобы вся работа отражала меня. Как минимум отчет же в ней отражает формализм, step by step шаги работы и ничего более.
Также у меня нет полностью "меня", свободы действий. Изначально я думала об англоязычном сервисе с библиотеками, но так как его могут либо не принять, либо пропустить через фильтр вопросов, сдавать я буду скорее всего русскоязычный вариант.

Мнение 2:
На данный момент я очень много думаю о валидности научной карьеры. Мне очень важна творческая составляющая и она не уместна на научных конференциях, в грантовых проектах и др. С другой стороны, деятельность в чем-либо научном дает возможность участвовать в другой стороне — образовательной. И пока я думаю, что возможность учить, популяризовывать и рассказывать стоит того, чтобы иногда плакать от строгих бумажек)

А может с возрастом и относится к ним буду проще.

🧷 Очень приятно видеть вас. И стало интересно узнать – кто меня читает)

Буду рада, если в комментариях напишите пару строк о себе, и откуда о канале узнали!

Как всегда уютного вам времени, где бы вы не находились, 🫶🏻

В очень рабочей попе работе,
Ваш Дата-автор!
5